Sarthak最近分享了一个实践项目,演示了Apache Hudi如何为区块链数据提供可扩展和高效的摄取。该存储库展示了如何使用Python、Apache Kafka和Apache Hudi在AWS S3上捕获和处理以太坊的实时数据。
Naga分享了Apache Hudi在2025年成为现代数据湖仓堆栈必备组件的简要分析。从对更新/删除的原生支持到使用Spark、Flink和Presto的实时管道,他的帖子突出了继续推动Hudi采用的实用优势。
Apache Amoro(孵化中)[4] 0.8.0 版本的发布为Amoro的统一元数据平台带来了对Hudi表格式的官方支持。这一增强功能使Hudi管理的表能够无缝集成到Amoro的治理层中,允许用户通过其交互式UI检查模式、分区键和提交元数据。
即将到来:Apache Hudi 在"数据流峰会"
Hudi开源团队将在即将到来的数据流峰会(5月28-29日)上发表关于"在Lakehouse中使用Apache Flink & Hudi的非阻塞并发控制(NBCC)进行高吞吐量流处理"的演讲。这次演讲将探讨NBCC的架构和设计,并提供其在低延迟写入中的实际应用见解。在此注册[5]!
过去:OpenXData的Hudi演讲
OpenXData - 今年关于开放数据架构的首要教育活动,由Onehouse、Confluent、Databricks和DBT Labs于5月21日主办。有两个非常令人兴奋的Hudi相关演讲,展示了Amazon和Peloton等组织如何大规模使用Hudi进行湖仓工作负载。录像在此[6]。
过去:升级Apache Hudi:性能、索引和并发增强
错过了最近关于升级Apache Hudi部署的Onehouse网络研讨会?别担心 - 录像现在可用。
在这次会议中,Hudi PMC Shiyan Xu和解决方案工程师Sagar Lakshmipathy介绍了迁移到最新版本Hudi的无缝路径,展示了强大的新功能,如:二级和行级索引、非阻塞并发控制等。这次会议为调优和发展您的Hudi基础设施提供了宝贵见解。在此观看完整网络研讨会[7]!
新的RFC #12998[9] 提出了Apache Hudi架构的大胆演进 - 在其强大的存储引擎之上启用可插拔表格式。
Hudi的湖仓平台[10]正在为Apache Iceberg或Delta Lake等外部格式打开大门,让它们利用Hudi的高性能写入功能、自动化和开放表管理服务以及其他存储引擎功能 - 同时保留其原生表定义。
如Applied Intuition的Hudi PMC和工程师Balaji Varadarajan[11]在提案中概述的,这一变化强调了Hudi不只是作为表格式,而是作为端到端湖仓平台的角色,具有强大的存储引擎,能够支持多种表格式(元数据)。
亮点:
✅启用外部格式(如Iceberg/Delta)在Hudi的存储引擎之上运行
✅将Hudi的写优化引擎、聚类和索引与其他表格式一起使用
✅能够插入低延迟元数据后端(如DynamoDB)以扩展ACID和并发性
✅强化Hudi作为模块化、可扩展湖仓平台的地位
DataPlatformInstance
的支持。以前,这仅在后端为数据集不一致处理和注入。通过此更新:DataPlatformInstance
现在为数据集和容器实体发出InsertIntoHoodieTableCommand
指标的支持。[1]
实时区块链交易分析管道:https://github.com/Sarthakmistry/Blockchain-pipeline
[2]
使用Hudi的实时数据湖仓:https://www.linkedin.com/posts/saikiranboggavarapu_apachehudi-dataengineering-lakehouse-activity-7328047830449770496-KD0c?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[3]
Apache Amoro 添加 Apache Hudi 格式支持:https://www.linkedin.com/posts/jinsong-zhou_we-are-thrilled-to-announce-the-official-activity-7327995169767677952-nPQH?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[4]
Apache Amoro(孵化中):https://amoro.apache.org/
[5]
在此注册:https://events.zoom.us/ev/ArZEA9V8FhVrzMLieLTMnL4oohWqqWcpxt7WFLBlU-dsVcDyERIt~AvnlZ_jyh3pjdqG0FIi3vw9JMBWfKgFXX2C9XMuuOeiv_8rg6_kecDPddg
[6]
录像在此:https://event.openxdata.ai/e/78b967c0-0fd6-11f0-94c9-0184fb55a40d
[7]
在此观看完整网络研讨会:https://www.onehouse.ai/webinar/your-hudi-amplified
[8]
Apache Hudi中可插拔表格式支持介绍:https://medium.com/@balajivaradarajan/rock-paper-scissors-pluggable-table-format-in-apache-hudi-80a72e864695
[9]
#12998:https://github.com/apache/hudi/pull/12998
[10]
湖仓平台:https://hudi.apache.org/docs/hudi_stack
[11]
Balaji Varadarajan:https://www.linkedin.com/in/balaji-varadarajan-5753a63
[12]
PR#13133::https://github.com/apache/hudi/pull/13133
[13]
PR#13133::https://github.com/apache/hudi/pull/13133
[14]
PR#13230:https://github.com/apache/hudi/pull/13230
[15]
PR#13068:https://github.com/apache/hudi/pull/13068
[16]
Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide
[17]
Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide
[18]
Docker 演示:https://hudi.apache.org/docs/next/docker_demo
[19]
在云数据平台上测量ETL价格性能:https://www.onehouse.ai/blog/measuring-etl-price-performance-on-cloud-data-platforms
[20]
Uber的稳健数据库备份恢复:https://www.uber.com/en-CA/blog/robust-database-backup-recovery-at-uber/
[21]
Apache XTable™(孵化中)中的多目录同步介绍:解锁目录互操作性:https://dipankar-tnt.medium.com/introducing-multi-catalog-sync-in-apache-xtable-incubating-unlocking-catalog-interoperability-8420f0f0223b
[22]
LiquidCache:云原生数据分析的高效下推缓存:https://github.com/XiangpengHao/liquid-cache/blob/main/dev/doc/liquid-cache-vldb.pdf