暂无搜索历史
欢迎阅读2025年1月的Hudi简报,由Onehouse.ai[1]为您带来!随着我们迈入新的一年,Hudi生态系统继续发展壮大,带来新的项目更新、社区贡献和实...
数据Lakehouse的概念是由 Uber 的一个团队于 2016 年首创,当时该团队试图解决存储大量大容量更新插入数据的问题。该项目最终成为Apache Hu...
在流式摄取场景中,有很多使用案例需要从多个流式源进行并发摄取。用户可以将所有上游源输入合并到一个下游表中,以收集记录,以便跨联合查询进行统一访问。另一种非常常见...
我们很高兴地宣布 Apache Hudi 1.0 的发布,这是我们充满活力的社区取得的里程碑式成就,它定义了下一代数据湖仓一体应该实现的目标。Hudi 在 20...
Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。
最新发布的 Hudi-rs 0.2.0 延续了首个版本的势头,为 Rust 和 Python 生态系统中的数据湖平台带来了更多功能。Hudi-rs 让无需 JV...
导读 本文介绍了 Apache Hudi 从零到一:增量处理(八)。本文翻译自原英文博客 https://blog.datumagic.com/p/apache...
自 2021 年以来,著名的生产力应用程序 Notion 的数据增长了惊人的 10 倍。
在第一部分中[1],我们介绍了传统表管理系统的起源和架构,以及第一代开放表格式 (OTF)。在最后一部分中,我将讨论第二代和第三代 OTF。
如果在过去几年中一直在关注数据工程领域的趋势,那么肯定已经听说过很多关于 Open Table Formats 和 Data Lakehouse 的信息。
重磅!Hudi团队发布了首个预览版《Apache Hudi权威指南》[1]。无论您是Hudi的多年用户,还是刚刚开始了解Hudi的功能,本指南都将帮助您构建稳健...
虽然采用湖仓一体架构提供了这些切实的好处,但重要的是要认识到这只是旅程的第一步。随着越来越多的数据被摄取到存储中,无论是 Amazon S3、GCS 或 Azu...
所有表格式都在元数据文件中存储对一组规范数据和删除数据集的引用。每种表格格式采用的方法略有不同,但大致可以将它们分为两类:
近年来,随着银行业务尤其是互联网金融业务的不断发展,金融业务数据量持续快速增长。同时,基于大数据、云计算、湖仓一体等技术体系的成熟,数据资产和价值挖掘得到越来越...
三个项目 - Apache Hudi、Apache Iceberg 和 Delta Lake - 现在是该领域所有关注和供应商的中心。这些项目对于为数据打造一个...
Hudi 社区推出了一个全新的 LinkedIn 直播系列——“Lakehouse Chronicles with Apache Hudi”。该系列将专注于 A...
在前一篇文章中,我们通过对聚类过程和空间填充曲线的深入探讨,完成了对表服务的论述。基于在前几篇文章中所获取的知识,我们能够顺利地过渡到下一个主题:并发控制,具体...
在上一篇文章中,我们讨论了表服务的概念,包括压缩、清理和索引。现在,让我们继续深入探讨聚类(Clustering)服务。
然而随着数据量和复杂性的增加,在保持效率、一致性和成本效益方面面临重大障碍。因此,我们的主要目标是增强我们的数据管理能力。我们需要一个解决方案,它可以更好地控制...
Hudi 社区几周前发布了 hudi-rs - 一个为 Apache Hudi 开发的 Rust 原生库,并提供 Python API,收到广泛关注。如果您有兴...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市