首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2025 年 5 月 Apache Hudi 社区新闻

2025 年 5 月 Apache Hudi 社区新闻

作者头像
ApacheHudi
发布2025-06-09 21:33:50
发布2025-06-09 21:33:50
990
举报
文章被收录于专栏:ApacheHudiApacheHudi

应用:实时区块链交易分析管道[1] - Sarthak Mistry

Sarthak最近分享了一个实践项目,演示了Apache Hudi如何为区块链数据提供可扩展和高效的摄取。该存储库展示了如何使用Python、Apache Kafka和Apache Hudi在AWS S3上捕获和处理以太坊的实时数据。

社交媒体:使用Hudi的实时数据湖仓[2]

Naga分享了Apache Hudi在2025年成为现代数据湖仓堆栈必备组件的简要分析。从对更新/删除的原生支持到使用Spark、Flink和Presto的实时管道,他的帖子突出了继续推动Hudi采用的实用优势。

生态系统:Apache Amoro 添加 Apache Hudi 格式支持[3]

Apache Amoro(孵化中)[4] 0.8.0 版本的发布为Amoro的统一元数据平台带来了对Hudi表格式的官方支持。这一增强功能使Hudi管理的表能够无缝集成到Amoro的治理层中,允许用户通过其交互式UI检查模式、分区键和提交元数据。

社区活动

即将到来:Apache Hudi 在"数据流峰会"

Hudi开源团队将在即将到来的数据流峰会(5月28-29日)上发表关于"在Lakehouse中使用Apache Flink & Hudi的非阻塞并发控制(NBCC)进行高吞吐量流处理"的演讲。这次演讲将探讨NBCC的架构和设计,并提供其在低延迟写入中的实际应用见解。在此注册[5]!

过去:OpenXData的Hudi演讲

OpenXData - 今年关于开放数据架构的首要教育活动,由Onehouse、Confluent、Databricks和DBT Labs于5月21日主办。有两个非常令人兴奋的Hudi相关演讲,展示了Amazon和Peloton等组织如何大规模使用Hudi进行湖仓工作负载。录像在此[6]。

过去:升级Apache Hudi:性能、索引和并发增强

错过了最近关于升级Apache Hudi部署的Onehouse网络研讨会?别担心 - 录像现在可用。

在这次会议中,Hudi PMC Shiyan Xu和解决方案工程师Sagar Lakshmipathy介绍了迁移到最新版本Hudi的无缝路径,展示了强大的新功能,如:二级和行级索引、非阻塞并发控制等。这次会议为调优和发展您的Hudi基础设施提供了宝贵见解。在此观看完整网络研讨会[7]!

项目更新

GitHub ❤️⭐️ https://github.com/apache/hudi

博客:Apache Hudi中可插拔表格式支持介绍[8]

新的RFC #12998[9] 提出了Apache Hudi架构的大胆演进 - 在其强大的存储引擎之上启用可插拔表格式。

这意味着什么?

Hudi的湖仓平台[10]正在为Apache Iceberg或Delta Lake等外部格式打开大门,让它们利用Hudi的高性能写入功能、自动化和开放表管理服务以及其他存储引擎功能 - 同时保留其原生表定义。

如Applied Intuition的Hudi PMC和工程师Balaji Varadarajan[11]在提案中概述的,这一变化强调了Hudi不只是作为表格式,而是作为端到端湖仓平台的角色,具有强大的存储引擎,能够支持多种表格式(元数据)。

亮点:

✅启用外部格式(如Iceberg/Delta)在Hudi的存储引擎之上运行

✅将Hudi的写优化引擎、聚类和索引与其他表格式一起使用

✅能够插入低延迟元数据后端(如DynamoDB)以扩展ACID和并发性

✅强化Hudi作为模块化、可扩展湖仓平台的地位

其他更新
  • • PR#13133:[13] 此增强功能添加了在将元数据同步到DataHub时显式配置DataPlatformInstance的支持。以前,这仅在后端为数据集不一致处理和注入。通过此更新:
    • • DataPlatformInstance现在为数据集和容器实体发出
    • • 配置时包括平台和可选实例字段
    • • 平台实例在浏览路径和URN中反映,在DataHub UI中启用更好的过滤和导航
  • • PR#13230[14]:为Google Cloud Storage(GCS)添加基于存储的锁提供程序实现,为存储在GCS环境中的Hudi表启用多写入器支持。
  • • PR#13068[15]:添加了在Spark Web UI中显示InsertIntoHoodieTableCommand指标的支持。
引用链接

[1] 实时区块链交易分析管道:https://github.com/Sarthakmistry/Blockchain-pipeline [2]使用Hudi的实时数据湖仓:https://www.linkedin.com/posts/saikiranboggavarapu_apachehudi-dataengineering-lakehouse-activity-7328047830449770496-KD0c?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [3]Apache Amoro 添加 Apache Hudi 格式支持:https://www.linkedin.com/posts/jinsong-zhou_we-are-thrilled-to-announce-the-official-activity-7327995169767677952-nPQH?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU [4]Apache Amoro(孵化中):https://amoro.apache.org/ [5]在此注册:https://events.zoom.us/ev/ArZEA9V8FhVrzMLieLTMnL4oohWqqWcpxt7WFLBlU-dsVcDyERIt~AvnlZ_jyh3pjdqG0FIi3vw9JMBWfKgFXX2C9XMuuOeiv_8rg6_kecDPddg [6]录像在此:https://event.openxdata.ai/e/78b967c0-0fd6-11f0-94c9-0184fb55a40d [7]在此观看完整网络研讨会:https://www.onehouse.ai/webinar/your-hudi-amplified [8]Apache Hudi中可插拔表格式支持介绍:https://medium.com/@balajivaradarajan/rock-paper-scissors-pluggable-table-format-in-apache-hudi-80a72e864695 [9]#12998:https://github.com/apache/hudi/pull/12998 [10]湖仓平台:https://hudi.apache.org/docs/hudi_stack [11]Balaji Varadarajan:https://www.linkedin.com/in/balaji-varadarajan-5753a63 [12]PR#13133::https://github.com/apache/hudi/pull/13133 [13]PR#13133::https://github.com/apache/hudi/pull/13133 [14]PR#13230:https://github.com/apache/hudi/pull/13230 [15]PR#13068:https://github.com/apache/hudi/pull/13068 [16]Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide [17]Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide [18]Docker 演示:https://hudi.apache.org/docs/next/docker_demo [19]在云数据平台上测量ETL价格性能:https://www.onehouse.ai/blog/measuring-etl-price-performance-on-cloud-data-platforms [20]Uber的稳健数据库备份恢复:https://www.uber.com/en-CA/blog/robust-database-backup-recovery-at-uber/ [21]Apache XTable™(孵化中)中的多目录同步介绍:解锁目录互操作性:https://dipankar-tnt.medium.com/introducing-multi-catalog-sync-in-apache-xtable-incubating-unlocking-catalog-interoperability-8420f0f0223b [22]LiquidCache:云原生数据分析的高效下推缓存:https://github.com/XiangpengHao/liquid-cache/blob/main/dev/doc/liquid-cache-vldb.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ApacheHudi 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应用:实时区块链交易分析管道[1] - Sarthak Mistry
  • 社交媒体:使用Hudi的实时数据湖仓[2]
  • 生态系统:Apache Amoro 添加 Apache Hudi 格式支持[3]
  • 社区活动
  • 项目更新
    • GitHub ❤️⭐️ https://github.com/apache/hudi
    • 博客:Apache Hudi中可插拔表格式支持介绍[8]
      • 这意味着什么?
      • 其他更新
      • 引用链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档