首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025 年 3月 Apache Hudi 社区新闻

2025 年 3月 Apache Hudi 社区新闻

作者头像
ApacheHudi
发布2025-04-05 14:08:20
发布2025-04-05 14:08:20
2480
举报
文章被收录于专栏:ApacheHudiApacheHudi

欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯!本月,我们为您带来新一轮的项目更新、社区焦点和技术深度探讨,这些内容将继续塑造数据仓库的未来。

社区活动

3月份,Apache Hudi 社区举办了一系列有影响力的活动 - 汇集贡献者、用户和采用者,分享想法、使用案例和进展。

Hudi 亚洲社区聚会

Kuaishou 团队的带领下,首届 Apache Hudi 亚洲聚会于 3 月 29 日举行。

📍 231 名现场参与者

📺 各平台总观看量 16,673 次

活动反映了不断增长的势头,人们对 Hudi 的路线图和采用案例表现出浓厚兴趣。

社区同步:西南航空公司的 Hudi 数据现代化之旅

作为 3 月 Hudi 社区同步的一部分,西南航空公司的数据工程主管 Koti Darla 分享了他们使用 Apache Hudi 进行航空数据基础设施现代化的旅程。该会议提供了幕后视角,展示了团队如何从传统系统过渡到高性能、实时数据平台。在这里[2]查看录像。

Hudi 开发者同步:RFC 聚焦 - 使用条件写入实现基于存储的锁定

在本月的开发者同步会议中,贡献者 Alex Rhee 介绍了 RFC-91,该提案建议使用 S3、GCS 和 Azure 等云存储系统上的条件写入为 Apache Hudi 提供存储原生锁定机制。这种方法通过引入直接利用云存储中原子写入条件的锁提供程序,消除了对 Zookeeper 等外部协调系统的需求。在此处[3]加入 Hudi 社区的月度同步。


项目更新

GitHub ❤️⭐️ https://github.com/apache/hudi

  • • PR#13017[4]:用户可以通过规则引擎(如正则表达式匹配)为不同的分区设置特定数量的存储桶。对于某些现有分区,提供了一个离线命令,可使用覆盖插入重新组织数据(需要停止当前分区的数据写入)。
  • • PR#12919[5]:在使用布隆过滤器创建表达式索引时,Spark SQL 支持布隆过滤器选项。
  • • PR#13014[6]:Spark Insert Overwrite 支持行写入器
  • • PR#12967[7]:Flink 写入器对 MOR 表支持将 RowData 直接写入 parquet 日志块:引入 RowData 处理程序,无需 Avro 转换即可直接将 RowData 写入日志文件。

社区博客/社交媒体

📙博客/视频

使用 Apache Hudi 为亚马逊单位经济提供大规模支持[8] - 亚马逊团队

在这篇博客中,亚马逊的利润智能团队详细介绍了他们开发的 Nexus,这是一个由 Apache Hudi 提供支持的配置驱动平台,旨在跨数千个零售使用场景扩展单位经济。Nexus 管理超过 1,200 个表,每天处理数千亿行数据,并且每月处理约 1 PB 的数据变化。

从事务瓶颈到闪电般快速的分析[9] - Uptycs 团队

Akash Sankritya 和 Uptycs 团队分享了他们如何从 PostgreSQL 瓶颈和联合 Trino 查询演变为由 Apache Hudi 提供支持的可扩展、实时分析平台。通过集中分散的数据集并改进连接性能,他们在不断增长的数据环境中实现了更快的洞察。

开放湖仓架构中的数据去重策略[10] - Dipankar 和 Aditya, Onehouse.ai

这篇博客分解了 Apache Hudi 如何通过在摄取、合并和表服务级别的原生去重功能来解决数据重复问题。它将此与 Delta Lake 和 Iceberg 进行对比,后者依赖手动 MERGE 操作且缺乏内置约束 - 这使得 Hudi 在这些场景中成为强有力的选择。

在 Databricks 上使用 Apache Hudi 构建亚马逊销售分析管道[11] - Sameer Shaik

在他的文章中,Sameer Shaik 演示了如何为销售数据设置高效的数据管道。他涵盖了在 Databricks 环境中配置 Apache Hudi、生成样本销售数据,以及执行数据摄取、更新和实时分析。

Apache Hudi 应该成为你下一个数据湖仓的 21 个独特理由[12] - Vinoth Chandar

在这篇文章中,Hudi 的原始创建者和 PMC 主席 Vinoth Chandar 分享了 21 个使 Hudi 与其他表格式区分开来的独特差异点 — 涵盖高级索引、并发控制、元数据管理等方面。

📱社交媒体

为什么 Apache Hudi 在湖仓生态系统中脱颖而出[13]

Rahul 的这篇文章分析了 Hudi 相对于 Iceberg 和 Delta 的优势,强调了其在近实时处理、记录级更新/删除、通过 MOR 快速写入和增量查询方面的优势 — 所有这些都是为规模而打造的。他分享了一些来自 Uber、阿里巴巴、腾讯、Udemy 等组织的真实世界采用案例。

深入了解 Grab 的 Hudi 实时数据湖架构[14]

Subhojit 分享了 Grab 如何通过采用基于 Apache Hudi 的双重架构管道解决其湖仓中的写入放大和更新效率低下问题。它强调了桶索引、异步压缩和模式转换等功能,这些功能有助于平衡低延迟写入和最佳读取性能。

使用 Ray + Apache Hudi 在湖仓中进行分布式 ML 工作负载[15]

这篇文章分享了如何使用 Apache Hudi 和 Ray 构建分布式 ML 管道,由新的 hudi-rs 集成提供支持。通过结合 Hudi 的增量处理和时间旅行能力与 Ray 的并行执行,您可以运行可扩展的批量推理和训练 — 所有这些都在 Python 中完成。

Hudi 资源

入门指南 🏁

如果您刚开始使用 Apache Hudi,这里有一些深入实践方面的快速指南。

  • • Apache Spark[16]
  • • Apache Flink[17]
  • • Docker 演示[18]
官方文档 📗
  • • https://hudi.apache.org/docs/next/overview
加入 Slack 🤝

讨论问题,帮助他人并向社区学习。我们的 Slack 频道拥有 4000+ Hudi 用户。

  • • https://join.slack.com/t/apache-hudi/shared_invite/zt-2ggm1fub8-_yt4Reu9djwqqVRFC7X49g
社交媒体 📱

加入我们的社交渠道,了解从深度技术概念到技巧和社区中发生的有趣事情。

  • • LinkedIn: https://www.linkedin.com/company/apache-hudi/
  • • Twitter/X: https://twitter.com/apachehudi
  • • Youtube: https://www.youtube.com/@apachehudi/featured
每周办公时间 💼

Hudi PMC 成员/提交者将举办办公时间,以互动方式帮助解答问题,先到先得。这是提出任何疑问的绝佳机会。

  • • https://hudi.apache.org/community/office_hours
有兴趣为 Hudi 做贡献吗?👨🏻‍💻

Apache Hudi 社区欢迎任何人的贡献!以下是您可以参与的几种方式。

  • • https://hudi.apache.org/contribute/how-to-contribute

数据生态系统的其他部分

  • • DuckDB 中的 Parquet 布隆过滤器[19] - Hannes Mühleisen | DuckDB
  • • 领导者选举的麻烦(在分布式系统中)[20] - Joe Magerramov
  • • B 树或不是 B 树:使用乐观锁耦合的 B 树[21] - Philipp Fent | CedarDB
  • • Parquet 中的高效过滤器下推[22] - Xiangpeng Hao
  • • 开放表格式战争:仅仅是工程真正开放数据平台道路上的一场战斗[23] - Pauline Brown | Onehouse.ai
  • • 研究论文 - LavaStore: 字节跳动为云服务量身定制的高性能、成本效益本地存储引擎[24] | 字节跳动

对文档、内容想法或项目有任何反馈吗?给我们发送消息!

感谢阅读 Hudi Newsletter!免费订阅以接收新文章并支持我的工作。

引用链接

[1] Onehouse.ai:http://onehouse.ai/ [2]这里:https://youtu.be/X3FW4IYmYE4?feature=shared [3]在此处:https://hudi.apache.org/contribute/developer-sync-call [4]PR#13017:https://github.com/apache/hudi/pull/13017 [5]PR#12919:https://github.com/apache/hudi/pull/12919 [6]PR#13014:https://github.com/apache/hudi/pull/13014 [7]PR#12967:https://github.com/apache/hudi/pull/12967 [8]使用 Apache Hudi 为亚马逊单位经济提供大规模支持:https://hudi.apache.org/blog/2025/03/31/amazon-hudi/ [9]从事务瓶颈到闪电般快速的分析:https://medium.com/allthatscales/from-transactional-bottlenecks-to-lightning-fast-analytics-74e0d3fff1c0 [10]开放湖仓架构中的数据去重策略:https://www.onehouse.ai/blog/data-deduplication-strategies-in-an-open-lakehouse-architecture [11]在 Databricks 上使用 Apache Hudi 构建亚马逊销售分析管道:https://www.linkedin.com/pulse/building-amazon-sales-analytics-pipeline-apache-hudi-databricks-ruotf/ [12]Apache Hudi 应该成为你下一个数据湖仓的 21 个独特理由:https://hudi.apache.org/blog/2025/03/05/hudi-21-unique-differentiators [13]为什么 Apache Hudi 在湖仓生态系统中脱颖而出:https://www.linkedin.com/feed/update/urn:li:activity:7306574774204280832?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [14]深入了解 Grab 的 Hudi 实时数据湖架构:https://www.linkedin.com/posts/subhojit-banerjee_heres-an-architectural-breakdown-of-grab-activity-7300251847393452032-gQ5o?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [15]使用 Ray + Apache Hudi 在湖仓中进行分布式 ML 工作负载:https://www.linkedin.com/posts/dipankar-mazumdar_dataengineering-softwareengineering-activity-7310103134360502272-5aSa?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [16]Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide [17]Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide [18]Docker 演示:https://hudi.apache.org/docs/next/docker_demo [19]DuckDB 中的 Parquet 布隆过滤器:https://duckdb.org/2025/03/07/parquet-bloom-filters-in-duckdb.html [20]领导者选举的麻烦(在分布式系统中):https://blog.joemag.dev/2025/03/the-trouble-with-leader-elections-in.html?m=1 [21]B 树或不是 B 树:使用乐观锁耦合的 B 树:https://cedardb.com/blog/optimistic_btrees/ [22]Parquet 中的高效过滤器下推:https://datafusion.apache.org/blog/2025/03/21/parquet-pushdown/ [23]开放表格式战争:仅仅是工程真正开放数据平台道路上的一场战斗:https://www.onehouse.ai/blog/the-open-table-format-war-merely-a-battle-on-the-path-to-engineering-a-truly-open-data-platform [24]LavaStore: 字节跳动为云服务量身定制的高性能、成本效益本地存储引擎:https://www.vldb.org/pvldb/vol17/p3799-jiao.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ApacheHudi 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 社区活动
    • Hudi 亚洲社区聚会
    • 社区同步:西南航空公司的 Hudi 数据现代化之旅
    • Hudi 开发者同步:RFC 聚焦 - 使用条件写入实现基于存储的锁定
  • 项目更新
  • GitHub ❤️⭐️ https://github.com/apache/hudi
  • 社区博客/社交媒体
  • 📙博客/视频
    • 使用 Apache Hudi 为亚马逊单位经济提供大规模支持[8] - 亚马逊团队
    • 从事务瓶颈到闪电般快速的分析[9] - Uptycs 团队
    • 开放湖仓架构中的数据去重策略[10] - Dipankar 和 Aditya, Onehouse.ai
    • 在 Databricks 上使用 Apache Hudi 构建亚马逊销售分析管道[11] - Sameer Shaik
    • Apache Hudi 应该成为你下一个数据湖仓的 21 个独特理由[12] - Vinoth Chandar
  • 📱社交媒体
    • 为什么 Apache Hudi 在湖仓生态系统中脱颖而出[13]
    • 深入了解 Grab 的 Hudi 实时数据湖架构[14]
    • 使用 Ray + Apache Hudi 在湖仓中进行分布式 ML 工作负载[15]
  • Hudi 资源
    • 入门指南 🏁
    • 官方文档 📗
    • 加入 Slack 🤝
    • 社交媒体 📱
    • 每周办公时间 💼
    • 有兴趣为 Hudi 做贡献吗?👨🏻‍💻
  • 数据生态系统的其他部分
    • 引用链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档