

欢迎阅读由 Onehouse.ai[1] 为您带来的第17期Hudi Newsletter(2025年7月)!

Apache Hudi 权威指南
《Apache Hudi™: The Definitive Guide[2]》的早期版本发布了新章节——这是第一本关于Hudi的官方书籍,由Shiyan Xu、Prashant Wason、Bhavani Sudha Saktheeswaran和Rebecca Bilbro合著。本章涵盖了关键的生产见解,包括操作实用程序、平台集成和调优技巧。

DET西雅图聚会
来自Hudi团队的Dipankar在西雅图的Data Engineer Things[3]聚会上发表了演讲,主题为"用Apache Hudi 1.0重新定义开放湖仓架构"。该会议涵盖了Hudi从Uber起源到为亚马逊和Peloton等公司的真实世界湖仓部署提供支持的演变过程。在此处阅读更多关于Hudi 1.0创新[4]的信息。

湖仓编年史
最新一集的《Apache Hudi湖仓编年史》现已在YouTube[5]上线!在本次会议中,Dipankar详细分析了并发控制的基础知识,为何它对湖仓至关重要,以及Apache Hudi如何实现强大的并发保证,以在流处理和批处理工作负载中维护ACID属性。
深入探讨湖仓表格式中的读时合并(MoR)[6] - Dipankar Mazumdar

MoR深度解析
Dipankar探讨了MoR在Apache Hudi中的工作原理,并将其与Iceberg和Delta Lake进行了比较。他解释了为什么Hudi的增量日志、文件组和异步压缩的组合使其成为更新密集型、低延迟流处理工作负载的理想选择。
在Peloton使用Apache Hudi实现数据基础设施现代化[7] - Peloton数据平台团队

Peloton数据现代化
Peloton的数据平台团队描述了他们如何使用Hudi以及来自PostgreSQL和DynamoDB的CDC摄取来改造其分析架构。通过从CoW切换到MoR表并采用异步服务,他们将摄取周期缩短到10分钟,并显著降低了计算和存储成本。
PayU如何使用Amazon Bedrock构建安全的企业AI助手[8] - Deepesh Dhapola等人

PayU AI助手
PayU团队详细介绍了他们如何结合Amazon Bedrock、Open WebUI和AWS PrivateLink为企业用户构建一个安全、合规的AI助手。该系统的核心是他们由Apache Hudi和Apache Spark驱动的内部湖仓平台"Luna",它能够对存储在S3中的数据集市进行快速的增量查询。
构建基于RAG的AI推荐系统(第1/2部分)[9] - Shiyan Xu

RAG AI推荐系统
Shiyan Xu开启了一个关于检索增强生成(RAG)的两部分系列,解释了由Apache Hudi驱动的强大数据平台如何通过增量查询、可扩展的向量搜索和完整的工具链集成为AI推荐系统提供支持。
Stifel如何使用AWS Glue和事件驱动的领域架构构建现代化数据平台[10] - Amit Maindola和Srinivas Kandi等人

Stifel现代数据平台
作者描述了Stifel Financial如何使用AWS Glue、Lake Formation和S3上的Apache Hudi来改造其分析堆栈。他们构建了一个联邦式的、事件驱动的数据网格,自动化了特定领域数据产品的创建和治理,实现了近乎实时的更新,同时保持了ACID存储和集中的元数据控制。由Hudi驱动的S3表成为跨领域可扩展增量分析的支柱。
在Uber使用Apache Hudi扩展复杂数据工作流[11] - Uber工程团队

Uber数据工作流
Uber的核心服务团队通过采用Hudi重写了用于行程和订单处理的复杂管道。重新设计实现了增量的、规则驱动的处理——将运行时间从20小时缩短到4小时,降低了60%的成本,提高了数据质量,并改善了测试覆盖率。
可插拔表格式 - Hudi的模块化湖仓演进[12]
可插拔表格式
Sivabalan Narayanan分享了对Hudi最具前瞻性的创新之一:可插拔表格式的深入探讨。通过RFC-93[13],Hudi的存储引擎现在可以支持外部表,如Iceberg或Delta,同时保留其原生优势——快速更新插入、自动文件大小调整以及集群和压缩等表服务。
Apache Hudi中的数据跳过如何工作[14]

数据跳过
Shiyan Xu详细分析了Hudi的元数据表如何通过多模态索引系统实现高效的数据跳过。借助文件、分区统计和列统计等组件,查询引擎可以在多个级别智能地修剪数据——减少扫描的文件并加快查询速度。
Notion如何通过Apache Hudi进行扩展[15]

Notion扩展
Piyush Airani分享了Notion从单个PostgreSQL实例转变为拥有1亿以上用户架构的分析[16]。一个关键部分是使用Apache Hudi + Spark重建他们的数据湖——从而节省了大量成本并将同步速度提高了84倍。
GitHub ❤️⭐️ https://github.com/apache/hudi
[1] Onehouse.ai:https://onehouse.ai
[2]Apache Hudi™: The Definitive Guide:https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide?utm_source=linkedin.com&utm_medium=social&utm_campaign=2024_10_ebook_hudi-oreilly_early_release&utm_content=20250725_onehouse_post
[3]Data Engineer Things:https://www.meetup.com/data-engineer-things-seattle-meetup/
[4]Hudi 1.0创新:https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/
[5]YouTube:https://www.youtube.com/watch?v=CdnYdw-dyTI
[6]深入探讨湖仓表格式中的读时合并(MoR):https://hudi.apache.org/blog/2025/07/21/mor-comparison/
[7]在Peloton使用Apache Hudi实现数据基础设施现代化:https://hudi.apache.org/blog/2025/07/15/modernizing-datainfra-peloton-hudi/
[8]PayU如何使用Amazon Bedrock构建安全的企业AI助手:https://aws.amazon.com/blogs/machine-learning/how-payu-built-a-secure-enterprise-ai-assistant-using-amazon-bedrock/
[9]构建基于RAG的AI推荐系统(第1/2部分):https://blog.datumagic.ai/p/building-a-rag-based-ai-recommender
[10]Stifel如何使用AWS Glue和事件驱动的领域架构构建现代化数据平台:https://aws.amazon.com/blogs/big-data/how-stifel-built-a-modern-data-platform-using-aws-glue-and-an-event-driven-domain-architecture/
[11]在Uber使用Apache Hudi扩展复杂数据工作流:https://hudi.apache.org/blog/2025/06/30/uber-hudi/
[12]可插拔表格式 - Hudi的模块化湖仓演进:https://www.linkedin.com/posts/sivabalan-narayanan-1040b45_rock-paper-scissors-pluggable-table-format-activity-7352360741879902213-uFYM?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[13]RFC-93:https://medium.com/@balajivaradarajan/rock-paper-scissors-pluggable-table-format-in-apache-hudi-80a72e864695
[14]Apache Hudi中的数据跳过如何工作:https://www.linkedin.com/posts/xushiyan_apachehudi-sql-datalake-activity-7351668711243567104-O2VY?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[15]Notion如何通过Apache Hudi进行扩展:https://www.linkedin.com/posts/pi22by7_piyush-airani-big-data-engineer-activity-7353276359311261697-9XsZ?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[16]Notion从单个PostgreSQL实例转变为拥有1亿以上用户架构的分析:https://pi22by7.me/en/blog/notion
[17]PR#13526:https://github.com/apache/hudi/pull/13526
[18]PR#13489:https://github.com/apache/hudi/pull/13489
[19]PR#13480:https://github.com/apache/hudi/pull/13480
[20]PR#13558:https://github.com/apache/hudi/pull/13558
[21]PR#13216:https://github.com/apache/hudi/pull/13216
[22]Apache DataFusion Comet和Gluten的比较:https://datafusion.apache.org/comet/user-guide/gluten_comparison.html
[23]FoundationDB:一个杀不死的分布式数据库:https://thenewstack.io/foundationdb-a-distributed-database-that-cant-be-killed/
[24]Parquet内容定义分块:https://huggingface.co/blog/parquet-cdc
[25]使用Spark优化LinkedIn Sales Navigator的搜索管道:https://www.linkedin.com/blog/engineering/infrastructure/optimizing-linkedin-sales-navigators-search-pipeline-with-spark
[26]快照数据库的可串行化隔离:https://muratbuffalo.blogspot.com/2025/07/serializable-isolation-for-snapshot.html
[27]FastLanes文件格式:https://github.com/cwida/FastLanes/blob/dev/docs/specification.pdf