

重磅!Hudi团队发布了首个预览版《Apache Hudi权威指南》[1]。无论您是Hudi的多年用户,还是刚刚开始了解Hudi的功能,本指南都将帮助您构建稳健、开放且高性能的数据湖仓。

最令人兴奋的是什么?该书已经抢先发布了两个章节!现在就获取并分享您的反馈吧!
https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide
十月对社区来说是个精彩的活动月!围绕Apache Hudi举办了许多精彩的技术分享。

在这次社区同步会议[2]上,Shopee的专家工程师展示了他们如何使用Apache Hudi优化海量数据集的实时查询,同时降低数据摄入成本。他们分享了如何在现有架构中实现关键创新。
使用Hudi的新架构取得的主要成果:

上个月,Hudi社区启动了全新系列"Apache Hudi湖仓编年史",专注于开源Hudi的方方面面。
第一集介绍了Hudi的重要概念,为数据工程师提供了使用Hudi和Spark SQL的入门实践指南。
第二集由Onehouse的解决方案工程师Albert Wong[3]带来docker演示,展示了如何:
这两集现已在YouTube播放列表[4]中上线。

请报名参加11月19日的社区同步会议[5],亚马逊工程团队将分享他们使用Apache Hudi实现的数据湖方案。

Vu Trinh深入探讨了Apache Hudi的起源,解释了优步(Uber)构建这个框架的动机:需要处理近实时数据摄入和增量处理,同时解决高延迟和复杂数据更新的挑战。
这篇博客介绍了Hudi独特的特性:
这些特性使Hudi区别于Iceberg和Delta Lake等其他表格式。

Opstree最新文章深入探讨了Apache Hudi的时间旅行功能,让用户能够查询历史版本的数据。文章提供了使用AWS Glue和PySpark设置Hudi时间旅行查询的实践指南,演示了如何通过指定提交时间来检索过去的数据状态。

这篇由Rahul撰写的文章概述了一个实时数据管道,该管道:
文章提供了详细的步骤指南,包括:
读者可以通过这份指南来实现一个可扩展的、无服务器的流式分析解决方案。

这篇由Sameer撰写的博客提供了实用示例,展示了如何使用Hudi和Spark SQL实现不同类型的缓慢变化维度(SCD),为数据工程师优化数据处理工作流提供了宝贵见解。他解释了Hudi的功能如何帮助高效处理SCD,这对于维护历史数据的准确性至关重要。
以下是主要代码更新:
hoodie.read.timeline.holes.resolution.policy对HoodieIncrSource等源将不再生效❤️⭐️ https://github.com/apache/hudi
https://hudi.apache.org/docs/next/quick-start-guide
https://hudi.apache.org/docs/next/flink-quick-start-guide
[1] 《Apache Hudi权威指南》: https://www.oreilly.com/library/view/apache-hudi-the/9781098173821/
[2] 社区同步会议: https://www.youtube.com/watch?v=fqhr-4jXi6I
[3] Albert Wong: https://www.linkedin.com/in/atwong
[4] YouTube播放列表: https://www.youtube.com/watch?v=tUmQi6FKUfw&list=PLxSSOLH2WRMNQetyPU98B2dHnYv91R6Y8
[5] 社区同步会议: https://www.linkedin.com/events/poweringamazonuniteconomicswith7259635618979229696/theater/
[6] 我花了5小时探索了Apache Hudi背后的故事 - Vu Trinh: https://vutr.substack.com/p/i-spent-5-hours-exploring-the-story?r=2rj6sg&utm_campaign=post&utm_medium=web&triedRedirect=true
[7] Opstree探讨了Apache Hudi中的时间旅行查询功能 - Opstree: https://opstree.com/blog/2024/10/22/time-travel-queries-in-apache-hudi/
[8] Streaming DynamoDB Data into a Hudi Table: AWS Glue in Action - Rahul Kumar: https://www.antstack.com/blog/Streaming-DynamoDB-Data-into-a-Hudi-Table/
[9] Mastering Slowly Changing Dimensions with Apache Hudi & Spark SQL - Sameer Shaik: https://www.linkedin.com/pulse/mastering-slowly-changing-dimensions-apache-hudi-spark-sameer-shaik-7zkjf/?trackingId=1qCeO8FIRJy32LcpHIvy3Q%3D%3D
[10] PR#11788: https://github.com/apache/hudi/pull/11788
[11] PR#11947: https://github.com/apache/hudi/pull/11947
[12] PR#12005: https://github.com/apache/hudi/pull/12005
[13] RFC-82: https://github.com/apache/hudi/blob/master/rfc/rfc-82/rfc-82.md
[14] PR#12132: https://github.com/apache/hudi/pull/12132
[15] dev-subscribe@hudi.apache.org: mailto:dev-subscribe@hudi.apache.org