首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025 年 7 月 Apache Hudi 社区新闻

2025 年 7 月 Apache Hudi 社区新闻

作者头像
ApacheHudi
发布2025-08-09 16:31:44
发布2025-08-09 16:31:44
2030
举报
文章被收录于专栏:ApacheHudiApacheHudi

欢迎阅读由 Onehouse.ai[1] 为您带来的第17期Hudi Newsletter(2025年7月)!

新章节发布:在生产环境中运行Hudi

Apache Hudi 权威指南
Apache Hudi 权威指南

Apache Hudi 权威指南

《Apache Hudi™: The Definitive Guide[2]》的早期版本发布了新章节——这是第一本关于Hudi的官方书籍,由Shiyan Xu、Prashant Wason、Bhavani Sudha Saktheeswaran和Rebecca Bilbro合著。本章涵盖了关键的生产见解,包括操作实用程序、平台集成和调优技巧。

Hudi亮相Data Engineer Things (DET) — 西雅图聚会

DET西雅图聚会
DET西雅图聚会

DET西雅图聚会

来自Hudi团队的Dipankar在西雅图的Data Engineer Things[3]聚会上发表了演讲,主题为"用Apache Hudi 1.0重新定义开放湖仓架构"。该会议涵盖了Hudi从Uber起源到为亚马逊和Peloton等公司的真实世界湖仓部署提供支持的演变过程。在此处阅读更多关于Hudi 1.0创新[4]的信息。

湖仓编年史第7集 - Apache Hudi中的并发控制

湖仓编年史
湖仓编年史

湖仓编年史

最新一集的《Apache Hudi湖仓编年史》现已在YouTube[5]上线!在本次会议中,Dipankar详细分析了并发控制的基础知识,为何它对湖仓至关重要,以及Apache Hudi如何实现强大的并发保证,以在流处理和批处理工作负载中维护ACID属性。

社区内容亮点

博客

深入探讨湖仓表格式中的读时合并(MoR)[6] - Dipankar Mazumdar

MoR深度解析
MoR深度解析

MoR深度解析

Dipankar探讨了MoR在Apache Hudi中的工作原理,并将其与Iceberg和Delta Lake进行了比较。他解释了为什么Hudi的增量日志、文件组和异步压缩的组合使其成为更新密集型、低延迟流处理工作负载的理想选择。

在Peloton使用Apache Hudi实现数据基础设施现代化[7] - Peloton数据平台团队

Peloton数据现代化
Peloton数据现代化

Peloton数据现代化

Peloton的数据平台团队描述了他们如何使用Hudi以及来自PostgreSQL和DynamoDB的CDC摄取来改造其分析架构。通过从CoW切换到MoR表并采用异步服务,他们将摄取周期缩短到10分钟,并显著降低了计算和存储成本。

PayU如何使用Amazon Bedrock构建安全的企业AI助手[8] - Deepesh Dhapola等人

PayU AI助手
PayU AI助手

PayU AI助手

PayU团队详细介绍了他们如何结合Amazon Bedrock、Open WebUI和AWS PrivateLink为企业用户构建一个安全、合规的AI助手。该系统的核心是他们由Apache Hudi和Apache Spark驱动的内部湖仓平台"Luna",它能够对存储在S3中的数据集市进行快速的增量查询。

构建基于RAG的AI推荐系统(第1/2部分)[9] - Shiyan Xu

RAG AI推荐系统
RAG AI推荐系统

RAG AI推荐系统

Shiyan Xu开启了一个关于检索增强生成(RAG)的两部分系列,解释了由Apache Hudi驱动的强大数据平台如何通过增量查询、可扩展的向量搜索和完整的工具链集成为AI推荐系统提供支持。

Stifel如何使用AWS Glue和事件驱动的领域架构构建现代化数据平台[10] - Amit Maindola和Srinivas Kandi等人

Stifel现代数据平台
Stifel现代数据平台

Stifel现代数据平台

作者描述了Stifel Financial如何使用AWS Glue、Lake Formation和S3上的Apache Hudi来改造其分析堆栈。他们构建了一个联邦式的、事件驱动的数据网格,自动化了特定领域数据产品的创建和治理,实现了近乎实时的更新,同时保持了ACID存储和集中的元数据控制。由Hudi驱动的S3表成为跨领域可扩展增量分析的支柱。

在Uber使用Apache Hudi扩展复杂数据工作流[11] - Uber工程团队

Uber数据工作流
Uber数据工作流

Uber数据工作流

Uber的核心服务团队通过采用Hudi重写了用于行程和订单处理的复杂管道。重新设计实现了增量的、规则驱动的处理——将运行时间从20小时缩短到4小时,降低了60%的成本,提高了数据质量,并改善了测试覆盖率。

社交帖子

可插拔表格式 - Hudi的模块化湖仓演进[12]

可插拔表格式

Sivabalan Narayanan分享了对Hudi最具前瞻性的创新之一:可插拔表格式的深入探讨。通过RFC-93[13],Hudi的存储引擎现在可以支持外部表,如Iceberg或Delta,同时保留其原生优势——快速更新插入、自动文件大小调整以及集群和压缩等表服务。

Apache Hudi中的数据跳过如何工作[14]

数据跳过
数据跳过

数据跳过

Shiyan Xu详细分析了Hudi的元数据表如何通过多模态索引系统实现高效的数据跳过。借助文件、分区统计和列统计等组件,查询引擎可以在多个级别智能地修剪数据——减少扫描的文件并加快查询速度。

Notion如何通过Apache Hudi进行扩展[15]

Notion扩展
Notion扩展

Notion扩展

Piyush Airani分享了Notion从单个PostgreSQL实例转变为拥有1亿以上用户架构的分析[16]。一个关键部分是使用Apache Hudi + Spark重建他们的数据湖——从而节省了大量成本并将同步速度提高了84倍。

项目更新

GitHub ❤️⭐️ https://github.com/apache/hudi

  • • PR#13526[17]: 增加了在集群期间配置多个排序字段的支持,允许记录跨多个列进行分层排序。
  • • PR#13489[18]: 在索引定义JSON中引入了表版本9和索引版本控制;现在升级会填充索引版本,而降级会删除不支持的版本。还重构了核心索引查找API以提高基于RDD的可伸缩性。
  • • PR#13480[19]: 通过新的hudi-flink2.0.x模块和兼容性适配器增加了对Apache Flink 2.0的支持。放弃了对Flink 1.15和1.16的支持。
  • • PR#13558[20]: 通过将createTable委托给Polaris Spark客户端,实现了Apache Polaris目录集成,允许Hudi表在Polaris中注册。
  • • PR#13216[21]: 引入了具有原生Hudi集成的可插拔表格式接口,包括用于格式模块化的元数据表(MDT)支持。

Hudi资源

入门指南

  • • Apache Spark: https://hudi.apache.org/docs/next/quick-start-guide
  • • Apache Flink: https://hudi.apache.org/docs/next/flink-quick-start-guide
  • • Docker演示: https://hudi.apache.org/docs/next/docker_demo

文档与社区

  • • 官方文档: https://hudi.apache.org/docs/next/overview
  • • Slack: https://join.slack.com/t/apache-hudi/shared_invite/zt-2ggm1fub8-_yt4Reu9djwqqVRFC7X49g

社交媒体

  • • LinkedIn: https://www.linkedin.com/company/apache-hudi/
  • • Twitter/X: https://twitter.com/apachehudi
  • • Youtube: https://www.youtube.com/@apachehudi/featured

参与贡献

  • • 每周办公时间: https://hudi.apache.org/community/office_hours
  • • 如何贡献: https://hudi.apache.org/contribute/how-to-contribute
  • • Rust贡献: https://github.com/apache/hudi-rs/contribute/

数据生态系统的其余部分

  • • Apache DataFusion Comet和Gluten的比较[22] - DataFusion团队
  • • FoundationDB:一个杀不死的分布式数据库[23] - Joab Jackson
  • • Parquet内容定义分块[24] - Krisztian Szucs
  • • 使用Spark优化LinkedIn Sales Navigator的搜索管道[25] - Chunxu Tang等人
  • • 快照数据库的可串行化隔离[26] - Murat Demirbas
  • • 研究论文 - FastLanes文件格式[27] - Azim Afroozeh & Peter Boncz
引用链接

[1] Onehouse.ai:https://onehouse.ai [2]Apache Hudi™: The Definitive Guide:https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide?utm_source=linkedin.com&utm_medium=social&utm_campaign=2024_10_ebook_hudi-oreilly_early_release&utm_content=20250725_onehouse_post [3]Data Engineer Things:https://www.meetup.com/data-engineer-things-seattle-meetup/ [4]Hudi 1.0创新:https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/ [5]YouTube:https://www.youtube.com/watch?v=CdnYdw-dyTI [6]深入探讨湖仓表格式中的读时合并(MoR):https://hudi.apache.org/blog/2025/07/21/mor-comparison/ [7]在Peloton使用Apache Hudi实现数据基础设施现代化:https://hudi.apache.org/blog/2025/07/15/modernizing-datainfra-peloton-hudi/ [8]PayU如何使用Amazon Bedrock构建安全的企业AI助手:https://aws.amazon.com/blogs/machine-learning/how-payu-built-a-secure-enterprise-ai-assistant-using-amazon-bedrock/ [9]构建基于RAG的AI推荐系统(第1/2部分):https://blog.datumagic.ai/p/building-a-rag-based-ai-recommender [10]Stifel如何使用AWS Glue和事件驱动的领域架构构建现代化数据平台:https://aws.amazon.com/blogs/big-data/how-stifel-built-a-modern-data-platform-using-aws-glue-and-an-event-driven-domain-architecture/ [11]在Uber使用Apache Hudi扩展复杂数据工作流:https://hudi.apache.org/blog/2025/06/30/uber-hudi/ [12]可插拔表格式 - Hudi的模块化湖仓演进:https://www.linkedin.com/posts/sivabalan-narayanan-1040b45_rock-paper-scissors-pluggable-table-format-activity-7352360741879902213-uFYM?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [13]RFC-93:https://medium.com/@balajivaradarajan/rock-paper-scissors-pluggable-table-format-in-apache-hudi-80a72e864695 [14]Apache Hudi中的数据跳过如何工作:https://www.linkedin.com/posts/xushiyan_apachehudi-sql-datalake-activity-7351668711243567104-O2VY?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [15]Notion如何通过Apache Hudi进行扩展:https://www.linkedin.com/posts/pi22by7_piyush-airani-big-data-engineer-activity-7353276359311261697-9XsZ?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [16]Notion从单个PostgreSQL实例转变为拥有1亿以上用户架构的分析:https://pi22by7.me/en/blog/notion [17]PR#13526:https://github.com/apache/hudi/pull/13526 [18]PR#13489:https://github.com/apache/hudi/pull/13489 [19]PR#13480:https://github.com/apache/hudi/pull/13480 [20]PR#13558:https://github.com/apache/hudi/pull/13558 [21]PR#13216:https://github.com/apache/hudi/pull/13216 [22]Apache DataFusion Comet和Gluten的比较:https://datafusion.apache.org/comet/user-guide/gluten_comparison.html [23]FoundationDB:一个杀不死的分布式数据库:https://thenewstack.io/foundationdb-a-distributed-database-that-cant-be-killed/ [24]Parquet内容定义分块:https://huggingface.co/blog/parquet-cdc [25]使用Spark优化LinkedIn Sales Navigator的搜索管道:https://www.linkedin.com/blog/engineering/infrastructure/optimizing-linkedin-sales-navigators-search-pipeline-with-spark [26]快照数据库的可串行化隔离:https://muratbuffalo.blogspot.com/2025/07/serializable-isolation-for-snapshot.html [27]FastLanes文件格式:https://github.com/cwida/FastLanes/blob/dev/docs/specification.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ApacheHudi 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新章节发布:在生产环境中运行Hudi
  • Hudi亮相Data Engineer Things (DET) — 西雅图聚会
  • 湖仓编年史第7集 - Apache Hudi中的并发控制
  • 社区内容亮点
    • 博客
    • 社交帖子
  • 项目更新
  • Hudi资源
    • 入门指南
    • 文档与社区
    • 社交媒体
    • 参与贡献
  • 数据生态系统的其余部分
    • 引用链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档