

欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯!本月,我们为您带来新一轮的项目更新、社区焦点和技术深度探讨,这些内容将继续塑造数据仓库的未来。
3月份,Apache Hudi 社区举办了一系列有影响力的活动 - 汇集贡献者、用户和采用者,分享想法、使用案例和进展。

在 Kuaishou 团队的带领下,首届 Apache Hudi 亚洲聚会于 3 月 29 日举行。
📍 231 名现场参与者
📺 各平台总观看量 16,673 次
活动反映了不断增长的势头,人们对 Hudi 的路线图和采用案例表现出浓厚兴趣。

作为 3 月 Hudi 社区同步的一部分,西南航空公司的数据工程主管 Koti Darla 分享了他们使用 Apache Hudi 进行航空数据基础设施现代化的旅程。该会议提供了幕后视角,展示了团队如何从传统系统过渡到高性能、实时数据平台。在这里[2]查看录像。

在本月的开发者同步会议中,贡献者 Alex Rhee 介绍了 RFC-91,该提案建议使用 S3、GCS 和 Azure 等云存储系统上的条件写入为 Apache Hudi 提供存储原生锁定机制。这种方法通过引入直接利用云存储中原子写入条件的锁提供程序,消除了对 Zookeeper 等外部协调系统的需求。在此处[3]加入 Hudi 社区的月度同步。


在这篇博客中,亚马逊的利润智能团队详细介绍了他们开发的 Nexus,这是一个由 Apache Hudi 提供支持的配置驱动平台,旨在跨数千个零售使用场景扩展单位经济。Nexus 管理超过 1,200 个表,每天处理数千亿行数据,并且每月处理约 1 PB 的数据变化。

Akash Sankritya 和 Uptycs 团队分享了他们如何从 PostgreSQL 瓶颈和联合 Trino 查询演变为由 Apache Hudi 提供支持的可扩展、实时分析平台。通过集中分散的数据集并改进连接性能,他们在不断增长的数据环境中实现了更快的洞察。

这篇博客分解了 Apache Hudi 如何通过在摄取、合并和表服务级别的原生去重功能来解决数据重复问题。它将此与 Delta Lake 和 Iceberg 进行对比,后者依赖手动 MERGE 操作且缺乏内置约束 - 这使得 Hudi 在这些场景中成为强有力的选择。

在他的文章中,Sameer Shaik 演示了如何为销售数据设置高效的数据管道。他涵盖了在 Databricks 环境中配置 Apache Hudi、生成样本销售数据,以及执行数据摄取、更新和实时分析。

在这篇文章中,Hudi 的原始创建者和 PMC 主席 Vinoth Chandar 分享了 21 个使 Hudi 与其他表格式区分开来的独特差异点 — 涵盖高级索引、并发控制、元数据管理等方面。

Rahul 的这篇文章分析了 Hudi 相对于 Iceberg 和 Delta 的优势,强调了其在近实时处理、记录级更新/删除、通过 MOR 快速写入和增量查询方面的优势 — 所有这些都是为规模而打造的。他分享了一些来自 Uber、阿里巴巴、腾讯、Udemy 等组织的真实世界采用案例。

Subhojit 分享了 Grab 如何通过采用基于 Apache Hudi 的双重架构管道解决其湖仓中的写入放大和更新效率低下问题。它强调了桶索引、异步压缩和模式转换等功能,这些功能有助于平衡低延迟写入和最佳读取性能。

这篇文章分享了如何使用 Apache Hudi 和 Ray 构建分布式 ML 管道,由新的 hudi-rs 集成提供支持。通过结合 Hudi 的增量处理和时间旅行能力与 Ray 的并行执行,您可以运行可扩展的批量推理和训练 — 所有这些都在 Python 中完成。
如果您刚开始使用 Apache Hudi,这里有一些深入实践方面的快速指南。
讨论问题,帮助他人并向社区学习。我们的 Slack 频道拥有 4000+ Hudi 用户。
加入我们的社交渠道,了解从深度技术概念到技巧和社区中发生的有趣事情。
Hudi PMC 成员/提交者将举办办公时间,以互动方式帮助解答问题,先到先得。这是提出任何疑问的绝佳机会。
Apache Hudi 社区欢迎任何人的贡献!以下是您可以参与的几种方式。
对文档、内容想法或项目有任何反馈吗?给我们发送消息!
感谢阅读 Hudi Newsletter!免费订阅以接收新文章并支持我的工作。
[1] Onehouse.ai:http://onehouse.ai/
[2]这里:https://youtu.be/X3FW4IYmYE4?feature=shared
[3]在此处:https://hudi.apache.org/contribute/developer-sync-call
[4]PR#13017:https://github.com/apache/hudi/pull/13017
[5]PR#12919:https://github.com/apache/hudi/pull/12919
[6]PR#13014:https://github.com/apache/hudi/pull/13014
[7]PR#12967:https://github.com/apache/hudi/pull/12967
[8]使用 Apache Hudi 为亚马逊单位经济提供大规模支持:https://hudi.apache.org/blog/2025/03/31/amazon-hudi/
[9]从事务瓶颈到闪电般快速的分析:https://medium.com/allthatscales/from-transactional-bottlenecks-to-lightning-fast-analytics-74e0d3fff1c0
[10]开放湖仓架构中的数据去重策略:https://www.onehouse.ai/blog/data-deduplication-strategies-in-an-open-lakehouse-architecture
[11]在 Databricks 上使用 Apache Hudi 构建亚马逊销售分析管道:https://www.linkedin.com/pulse/building-amazon-sales-analytics-pipeline-apache-hudi-databricks-ruotf/
[12]Apache Hudi 应该成为你下一个数据湖仓的 21 个独特理由:https://hudi.apache.org/blog/2025/03/05/hudi-21-unique-differentiators
[13]为什么 Apache Hudi 在湖仓生态系统中脱颖而出:https://www.linkedin.com/feed/update/urn:li:activity:7306574774204280832?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[14]深入了解 Grab 的 Hudi 实时数据湖架构:https://www.linkedin.com/posts/subhojit-banerjee_heres-an-architectural-breakdown-of-grab-activity-7300251847393452032-gQ5o?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[15]使用 Ray + Apache Hudi 在湖仓中进行分布式 ML 工作负载:https://www.linkedin.com/posts/dipankar-mazumdar_dataengineering-softwareengineering-activity-7310103134360502272-5aSa?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[16]Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide
[17]Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide
[18]Docker 演示:https://hudi.apache.org/docs/next/docker_demo
[19]DuckDB 中的 Parquet 布隆过滤器:https://duckdb.org/2025/03/07/parquet-bloom-filters-in-duckdb.html
[20]领导者选举的麻烦(在分布式系统中):https://blog.joemag.dev/2025/03/the-trouble-with-leader-elections-in.html?m=1
[21]B 树或不是 B 树:使用乐观锁耦合的 B 树:https://cedardb.com/blog/optimistic_btrees/
[22]Parquet 中的高效过滤器下推:https://datafusion.apache.org/blog/2025/03/21/parquet-pushdown/
[23]开放表格式战争:仅仅是工程真正开放数据平台道路上的一场战斗:https://www.onehouse.ai/blog/the-open-table-format-war-merely-a-battle-on-the-path-to-engineering-a-truly-open-data-platform
[24]LavaStore: 字节跳动为云服务量身定制的高性能、成本效益本地存储引擎:https://www.vldb.org/pvldb/vol17/p3799-jiao.pdf