George:首先讨论一个颇具争议的话题——数据湖。我们将数据湖定义为存储在公有云对象存储(如某中心的S3或某机构的云存储)中的表格数据,采用Parquet或ORC等开源文件格式。在数据仓库也能利用对象存储的今天,数据湖是否仍有存在价值?
Martin:技术演进由核心用例驱动。数据仓库服务于分析场景,而数据湖更侧重非结构化数据和操作型AI。尽管架构上两者可能趋同,但优化方向不同。操作型AI的增长速度更快,长期来看数据湖可能吞噬其他架构。
Bob:数据湖终将被SQL数据仓库取代。现有仓库已能处理结构化/半结构化数据,未来还将支持图像、视频等复杂数据。所谓"非结构化数据"实为误称——所有数据都有结构,只是形式不同。
Tristan:组织应统一文件存储层,采用开源格式(如Arrow)实现跨系统互操作。SQL将主导数据处理,但需保留多样化访问模式。
关于机器学习(Python/Scala)与分析(SQL/BI)生态的整合,存在三种路径:
Michelle:Arrow是最佳选择,既能满足数据工程师的简单特征工程,也支持数据科学家的深度建模需求。
Bob:现阶段需要多系统协作,但最终关系型知识图谱将统一预测分析领域。
Michelle:数据网格将ETL和分析下放至业务单元,通过顶层标准化实现协同。其成功依赖于:
Bob:数据网格的流式架构无法解决事务数据一致性问题,这是关键缺陷。
Bob:医疗领域的图像、医嘱笔记等复杂数据将在五年内被纳入数据栈。
Tristan:反向ETL(将仓库数据推送至业务系统)是下一个爆发点,可减少系统间手动同步。
Martin:延迟与吞吐量的权衡取决于系统设计,并非架构固有特性。
Bob:多数场景下1-2分钟延迟已足够,仅事件告警需要秒级响应。
关于五年内是否会出现新的主流数据平台(挑战某机构、某中心等),嘉宾投票结果:3票赞成,1票反对。
本文源自某机构Modern Data Stack会议讨论,内容经过编辑精简。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。