暂无搜索历史
在过去三年中,由于用户和内容的增长,Notion 的数据增长了 10 倍,以 6-12 个月的速度翻了一番。要管理这种快速增长,同时满足关键产品和分析用例不断增...
在过去多个版本中,Apache Doris 持续加深与数据湖的融合,当前已演进出一套成熟的湖仓一体解决方案。
加利福尼亚州桑尼维尔,2024 年 6 月 26 日 - 通用数据湖仓一体公司 Onehouse 今天宣布已获得由 Craft Ventures 领投的 350...
写入端索引抽象在 HoodieIndex 定义。我将在下面介绍一些关键的 API,以便大致了解索引的含义。
此版本保留与 0.14.0 版本相同的表版本 (6),如果从 0.14.0 升级,则无需升级表版本。有一些模块和 API 更改以及行为更改,如下所述,用户在使用...
毋庸置疑,Hudi 是一个非常成功和有影响力的开源项目,它已经为许多公司提供了 7+ 年,在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙...
快手业务发展迅速,对数据精细化运营的要求越来越高。随之而来,数仓的数据模型持续快速增长。这带来了两个主要问题:
这种开放性和灵活性的方法使数据存储和使用方式发生了转变。如今,客户可以选择在云对象存储(如 Amazon S3、Microsoft Azure Blob Sto...
在第 1 部分中,我们构建了一个逻辑模型,用于说明写入时复制表在 Apache Hudi 中的工作方式,并提出了许多关于并发控制类型、时间戳单调性等方面的一致性...
为了应对这些挑战,像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器,允许将 API、模型和业务逻辑变为现实。Streamlit...
https://github.com/apache/hudi/pull/10949
同样 v5 Hudi 规范说,确保时间戳是单调的实现是实现者的责任。非单调时间戳违反了规范。即便如此,也需要了解多个写入端之间时间戳冲突的影响。
Hudi 更复杂并不意味着 Iceberg 更好,只是需要更多的工作来内化设计。复杂性的一个关键原因是 Hudi 在核心规范中加入了更多功能。Iceberg 目...
Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,R...
我们已经探索了[1] MinIO 和 Hudi 如何协同工作来构建现代数据湖。这篇博文旨在以这些知识为基础,提供一种利用 Hive Metastore 服务 (...
在上一篇文章中,我们讨论了 Hudi 查询类型及其与 Spark 的集成。在这篇文章中,我们将深入研究另一个方面——写入流程,以 Spark 作为示例引擎。在写...
Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据...
每天约有 800 万独立访问者访问 Leboncoin,到 2022 年,该网站每月有超过 1000 亿次 HTTP 调用并且启动和运行 700 个应用程序,使...
开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用...
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市