首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2024 年 10 月 Apache Hudi 社区新闻

2024 年 10 月 Apache Hudi 社区新闻

作者头像
ApacheHudi
发布2024-11-23 13:02:33
发布2024-11-23 13:02:33
2330
举报
文章被收录于专栏:ApacheHudiApacheHudi

重磅!Hudi团队发布了首个预览版《Apache Hudi权威指南》[1]。无论您是Hudi的多年用户,还是刚刚开始了解Hudi的功能,本指南都将帮助您构建稳健、开放且高性能的数据湖仓。

最令人兴奋的是什么?该书已经抢先发布了两个章节!现在就获取并分享您的反馈吧!

https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide

社区活动

十月对社区来说是个精彩的活动月!围绕Apache Hudi举办了许多精彩的技术分享。

在这次社区同步会议[2]上,Shopee的专家工程师展示了他们如何使用Apache Hudi优化海量数据集的实时查询,同时降低数据摄入成本。他们分享了如何在现有架构中实现关键创新。

使用Hudi的新架构取得的主要成果:

  • • 数据新鲜度提升至10分钟内
  • • 点查询延迟降低至仅5秒
  • • 数据摄入成本降低200%

上个月,Hudi社区启动了全新系列"Apache Hudi湖仓编年史",专注于开源Hudi的方方面面。

第一集介绍了Hudi的重要概念,为数据工程师提供了使用Hudi和Spark SQL的入门实践指南。

第二集由Onehouse的解决方案工程师Albert Wong[3]带来docker演示,展示了如何:

  • • 使用HudiStreamer从Kafka批量摄入数据
  • • 利用Spark和Trino等多个计算引擎
  • • 在Merge-on-Read表上执行压缩等操作

这两集现已在YouTube播放列表[4]中上线。

预告

请报名参加11月19日的社区同步会议[5],亚马逊工程团队将分享他们使用Apache Hudi实现的数据湖方案。

博客

我花了5小时探索了Apache Hudi背后的故事 - Vu Trinh[6]

Vu Trinh深入探讨了Apache Hudi的起源,解释了优步(Uber)构建这个框架的动机:需要处理近实时数据摄入和增量处理,同时解决高延迟和复杂数据更新的挑战。

这篇博客介绍了Hudi独特的特性:

  • • 时间线管理
  • • 数据布局
  • • 索引机制

这些特性使Hudi区别于Iceberg和Delta Lake等其他表格式。

Opstree探讨了Apache Hudi中的时间旅行查询功能 - Opstree[7]

Opstree最新文章深入探讨了Apache Hudi的时间旅行功能,让用户能够查询历史版本的数据。文章提供了使用AWS Glue和PySpark设置Hudi时间旅行查询的实践指南,演示了如何通过指定提交时间来检索过去的数据状态。

Streaming DynamoDB Data into a Hudi Table: AWS Glue in Action - Rahul Kumar[8]

这篇由Rahul撰写的文章概述了一个实时数据管道,该管道:

  • • 从AWS DynamoDB捕获变更
  • • 使用AWS Glue进行处理
  • • 将结果存储在Apache Hudi表中

文章提供了详细的步骤指南,包括:

  • • 设置Kinesis Data Streams进行变更数据捕获
  • • 配置AWS Glue进行数据转换
  • • 将处理后的数据写入Hudi表

读者可以通过这份指南来实现一个可扩展的、无服务器的流式分析解决方案。

Mastering Slowly Changing Dimensions with Apache Hudi & Spark SQL - Sameer Shaik[9]

这篇由Sameer撰写的博客提供了实用示例,展示了如何使用Hudi和Spark SQL实现不同类型的缓慢变化维度(SCD),为数据工程师优化数据处理工作流提供了宝贵见解。他解释了Hudi的功能如何帮助高效处理SCD,这对于维护历史数据的准确性至关重要。

Hudi 开发更新

以下是主要代码更新:

  • • PR#11788[10]: 停止支持Spark 2和Scala 11
  • • PR#11947[11]: 增量查询默认使用完成时间线
    • hoodie.read.timeline.holes.resolution.policyHoodieIncrSource等源将不再生效
    • • 这些源将始终使用完成时间来确定增量查询的起始时间点
  • • PR#12005[12]: 合并RFC-82[13],增强并发控制机制以处理并发模式演变场景
  • • PR#12132[14]: 通过引入基于分区统计索引的新分区修剪器,增强Apache Flink源的数据跳过能力

Hudi 快速开始

❤️⭐️ https://github.com/apache/hudi

Spark

https://hudi.apache.org/docs/next/quick-start-guide

Flink

https://hudi.apache.org/docs/next/flink-quick-start-guide

引用链接

[1] 《Apache Hudi权威指南》: https://www.oreilly.com/library/view/apache-hudi-the/9781098173821/ [2] 社区同步会议: https://www.youtube.com/watch?v=fqhr-4jXi6I [3] Albert Wong: https://www.linkedin.com/in/atwong [4] YouTube播放列表: https://www.youtube.com/watch?v=tUmQi6FKUfw&list=PLxSSOLH2WRMNQetyPU98B2dHnYv91R6Y8 [5] 社区同步会议: https://www.linkedin.com/events/poweringamazonuniteconomicswith7259635618979229696/theater/ [6] 我花了5小时探索了Apache Hudi背后的故事 - Vu Trinh: https://vutr.substack.com/p/i-spent-5-hours-exploring-the-story?r=2rj6sg&utm_campaign=post&utm_medium=web&triedRedirect=true [7] Opstree探讨了Apache Hudi中的时间旅行查询功能 - Opstree: https://opstree.com/blog/2024/10/22/time-travel-queries-in-apache-hudi/ [8] Streaming DynamoDB Data into a Hudi Table: AWS Glue in Action - Rahul Kumar: https://www.antstack.com/blog/Streaming-DynamoDB-Data-into-a-Hudi-Table/ [9] Mastering Slowly Changing Dimensions with Apache Hudi & Spark SQL - Sameer Shaik: https://www.linkedin.com/pulse/mastering-slowly-changing-dimensions-apache-hudi-spark-sameer-shaik-7zkjf/?trackingId=1qCeO8FIRJy32LcpHIvy3Q%3D%3D [10] PR#11788: https://github.com/apache/hudi/pull/11788 [11] PR#11947: https://github.com/apache/hudi/pull/11947 [12] PR#12005: https://github.com/apache/hudi/pull/12005 [13] RFC-82: https://github.com/apache/hudi/blob/master/rfc/rfc-82/rfc-82.md [14] PR#12132: https://github.com/apache/hudi/pull/12132 [15] dev-subscribe@hudi.apache.org: mailto:dev-subscribe@hudi.apache.org

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ApacheHudi 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 社区活动
    • 预告
  • 博客
    • 我花了5小时探索了Apache Hudi背后的故事 - Vu Trinh[6]
    • Opstree探讨了Apache Hudi中的时间旅行查询功能 - Opstree[7]
    • Streaming DynamoDB Data into a Hudi Table: AWS Glue in Action - Rahul Kumar[8]
    • Mastering Slowly Changing Dimensions with Apache Hudi & Spark SQL - Sameer Shaik[9]
  • Hudi 开发更新
  • Hudi 快速开始
    • Spark
    • Flink
    • 引用链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档