1970年,IBM工程师Codd发表了著名的论文“A Relational Modelof Data for Large Shared Data Banks”,开启了数据管理技术的新纪元——关系数据库时代。
30年后的新世纪,Google陆续发表了关于GFS、MapReduce和BigTable三驾马车论文,开启了大数据的分布式处理时代。
今天,数据技术越来越成为驱动各行各业进行创新与发展的原动力,大家都在关心与谈论着数据的全生命周期,希望在各个阶段都能将“数据”这个信息时代的新能源充分的发掘与利用。
去年所发布的大数据版图(
从2017大数据版图看大数据的技术架构
)已经将这点暴露得一览无遗,密密麻麻的各种数据处理技术将我们包围起来,各式各样的数据处理系统让人们应接不暇:批量计算的MapReduce和Spark、流式计算的Storm和Flink、交互式计算的SQL on Hadoop、图计算的Pregel和Trinity等等。
但我们还是可以通过这些表面技术,从系统的角度看到一幅数据的全生命管理过程:
数据采集
数据存储
数据管理
数据计算
数据分析
数据展示
领取专属 10元无门槛券
私享最新 技术干货