暂无搜索历史
在 Uptycs,我们的数据平台架构多年来随着几乎所有数据平台的自然发展而发展。最初我们的架构围绕在线事务处理 (OLTP) 数据库 (在我们的例子中主要是 P...
欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯!本月,我们为您带来新一轮的项目更新、社区焦点和技术深度探讨,这些内容...
与流式处理工作负载相关的主要挑战之一是传入事件的无序性质。在典型的流式处理方案中,由于网络延迟、处理延迟或其他因素,事件可能会不按顺序到达。随着从各种来源(尤其...
抖音集团内部使用的数据湖格式称为 ByteLake,它是基于 Apache Hudi 深度定制的一个数据库框架,其核心功能包括支持 ACID、增量消费更新和湖仓...
并发控制在数据库管理系统中至关重要,以确保多个用户对共享数据的一致且安全的访问。关系数据库(RDBMS),例如MySQL(InnoDB)[1]和分析数据库(例如...
欢迎阅读2025年1月的Hudi简报,由Onehouse.ai[1]为您带来!随着我们迈入新的一年,Hudi生态系统继续发展壮大,带来新的项目更新、社区贡献和实...
数据Lakehouse的概念是由 Uber 的一个团队于 2016 年首创,当时该团队试图解决存储大量大容量更新插入数据的问题。该项目最终成为Apache Hu...
在流式摄取场景中,有很多使用案例需要从多个流式源进行并发摄取。用户可以将所有上游源输入合并到一个下游表中,以收集记录,以便跨联合查询进行统一访问。另一种非常常见...
我们很高兴地宣布 Apache Hudi 1.0 的发布,这是我们充满活力的社区取得的里程碑式成就,它定义了下一代数据湖仓一体应该实现的目标。Hudi 在 20...
Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。
最新发布的 Hudi-rs 0.2.0 延续了首个版本的势头,为 Rust 和 Python 生态系统中的数据湖平台带来了更多功能。Hudi-rs 让无需 JV...
导读 本文介绍了 Apache Hudi 从零到一:增量处理(八)。本文翻译自原英文博客 https://blog.datumagic.com/p/apache...
自 2021 年以来,著名的生产力应用程序 Notion 的数据增长了惊人的 10 倍。
在第一部分中[1],我们介绍了传统表管理系统的起源和架构,以及第一代开放表格式 (OTF)。在最后一部分中,我将讨论第二代和第三代 OTF。
如果在过去几年中一直在关注数据工程领域的趋势,那么肯定已经听说过很多关于 Open Table Formats 和 Data Lakehouse 的信息。
重磅!Hudi团队发布了首个预览版《Apache Hudi权威指南》[1]。无论您是Hudi的多年用户,还是刚刚开始了解Hudi的功能,本指南都将帮助您构建稳健...
虽然采用湖仓一体架构提供了这些切实的好处,但重要的是要认识到这只是旅程的第一步。随着越来越多的数据被摄取到存储中,无论是 Amazon S3、GCS 或 Azu...
所有表格式都在元数据文件中存储对一组规范数据和删除数据集的引用。每种表格格式采用的方法略有不同,但大致可以将它们分为两类:
近年来,随着银行业务尤其是互联网金融业务的不断发展,金融业务数据量持续快速增长。同时,基于大数据、云计算、湖仓一体等技术体系的成熟,数据资产和价值挖掘得到越来越...
三个项目 - Apache Hudi、Apache Iceberg 和 Delta Lake - 现在是该领域所有关注和供应商的中心。这些项目对于为数据打造一个...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市