近年来,数据湖已经出现在数据管理领域,但数据湖不一定代替了数据仓库。Gartner的研究总监Nick Heudecker有篇文章专门讨论这个问题:
不要与数据仓库混淆,数据不是现有分析平台或基础架构的替代品。
相反,他们是对现有的补充,并解决新的问题。也有些问题场景,你“优化”的答案可能意味着走出数据湖,进入数据集市或数据仓库。
数据湖vs数据仓库
关键差异方面,SASInstitute新兴技术总监Tamara Dull概述了DataLake和数据仓库之间的一些主要差异。
数据
数据仓库仅存储已建模/结构化的数据,而数据湖则不需要,它可以存储为全结构化,半结构化和非结构化的。
处理
在企业将数据加载到数据仓库之前,首先需要给它一些上下文和结构 - 即数据需要建模。这就是所谓的写模式(schema-on-write)。使用数据湖,您只需按原样加载原始数据,然后在准备好使用这些数据时再给定数据的结构。这就是所谓的模式在读(schema-on-read)。两种截然不同的方法。
存储
像Hadoop这样的大数据技术的主要功能之一就是与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的硬件上。
敏捷性:根据定义,数据仓库是一个高度结构化的仓库。改变结构在技术上并不困难,但考虑到与之相关的所有业务流程,这可能非常耗时。另一方面,数据湖相比缺乏数据仓库的结构 - 这使开发人员和数据科学家能够轻松地配置模型,查询和应用程序。
安全性
数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)则相对较新。因此,在数据仓库中保护数据的能力比保护数据湖中的数据要成熟得多。但是,应该指出的是,大数据行业目前正在大力推行安全性。这只是什么时候的问题。
用户
很长一段时间,大家都在呼吁BI和分析。数据仓库建立并邀请“每个人”来,但他们来吗?平均而言,只有20-25%的参与度。对于Data Lake来说,这是否一样的呐喊?Data Lake请大家来?不,如果你聪明。Tamara Dull说,数据湖在这个成熟的阶段最适合数据科学家。
数据仓库不断发展
Bill Inmon在数据仓库的发展中看到了巨大的潜力,并且正在向前推进。他说:
“基于事务的数据的经典分析处理在数据仓库中是一如既往地完成的。那里没有什么改变。但是现在可以对情境化数据进行分析,而且这种分析形式是新颖而新颖的。以前大多数组织都没有能够根据非结构化文本数据做出决策。数据仓库中有一种新的分析形式,这是混合分析的可能性。混合分析是使用结构化事务数据和非结构化上下文数据混合完成的分析。”
他补充说:“还有许多其他形式的分析也是可能的。“这些形式包括Predictive和Prescriptive Analytics,以及各种机器学习技术和其他正在改变数据管理和分析方式的技术。数据仓库一直是企业数据架构的主要组成部分,数据仓库在大数据和高级分析的新世界中拥有强大的未来。
数据仓库就像其他传统的数据管理工具一样,其重要性仍将是未来多年有效的数据管理的关键。
———— / END / ————
领取专属 10元无门槛券
私享最新 技术干货