Google前后发表三篇论文,也就是传说中的“三驾马车”
Doug Cutting启动了一个赫赫有名的项目Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce,分别实现了GFS和MapReduce其中两篇论文
HBase诞生,实现了Big Table最后一篇论文
出现 了Pig、Hive,支持使用SQL语法来进行大数据计算,极大的降低了Hadoopr的使用难度,数据分析师和工程师可以无门槛地舒不舒服和大数据进行数据分析和处理
Haddop将执行引擎和资源调度分离出来,成立了Yarn资源调度系统,这年Spark也开始崭露头角,逐步替代MapReduce在企业应用中的地位
Hive、Spark SQL
Mahout、MLib、TensorFlow
MapReduce、Spark
HBase、Cassandra
HDFS
总结:大数据是庞大的,程序要比数据小得多,将数据输入给程序是不划算的,那么就反其道行之,将程序发到数据所在的地方进行计算,也就是所谓的移动计算比移动数据更划算
数据分析、数据挖掘、机器学习
医疗、教育、社交媒体、金融、新零售、交通