大数据和Hadoop什么关系？为什么大数据要学习Hadoop？

原创

一起学习大数据

修改于 2019-06-27 10:00:58

2.1K0

文章被收录于专栏：大数据学习交流大数据学习交流

大数据是一系列技术的统称，经过多年的发展，大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节，这些环节涉及到诸多大数据工作岗位，这些工作岗位与物联网、云计算也都有密切的联系。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，是用Java语言开发的一个开源分布式计算平台，适合大数据的分布式存储和计算平台。

广义上讲，大数据是时代发展和技术进步的产物。Hadoop只是一种处理大数据的技术手段。

Hadoop是目前被广泛使用的大数据平台，本身就是大数据平台研发人员的工作成果，Hadoop是目前比较常见的大数据支撑性平台，Hadoop平台提供了分布式存储（HDFS）、分布式计算（MapReduce）、任务调度（YARN）、对象存储（Ozone）和组件支撑服务（Common）。

想深入了解，想学习的同学欢迎加入大数据学习qq群：529867072，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系

随着Hadoop的不断发展，基于Hadoop的大数据生态越发完善，目前包括Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez、Zookeeper等组件陆续被开发出来，这些组件极大的丰富了Hadoop自身的应用。加米谷大数据培训，6月大数据开发零基础班、提高班，成都小班面授，预报名中！随着组件的增多，Hadoop自身也越来越重，因此目前很多大数据工程师更愿意使用Spark，因为Spark更轻，基于内存速度也更快。

可以这样简单地理解：

1、大数据是一个高层次的概念（相当于互联网的概念），而Hadoop只是承载大数据的一个平台框架一种实现方式而已（类似于各种物理电脑网络）。

2、大数据包含的内涵广泛得多，而Hadoop只是其中一部分实现。

我们平常所说的大数据包含：采集、传输、存储、分析、可视化等等；而Hadoop更多是用于提取、存储、分析的一个系统平台而已。

3、实现大数据平台的框架除了Hadoop之外，还有其他更多的平台。

由于Hadoop是一个开源的大数据系统平台，所以你们听得最多。除了Hadoop平台外，还有其他系统平台。

所以，大数据不等于Hadoop，大数据与Hadoop也不是包含关系。

大数据开发人员可以通过Hadoop提供的系统级服务支持从而帮助企业完成大数据改造，对于开发人员来说，只需要关注于具体的服务实现就可以了，系统级功能已经由Hadoop提供了实现。所以，Hadoop是大数据开发人员的重要基础。

学习大数据肯定需要学习Hadoop技术，Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。

由于Hadoop对硬件的要求并不高，目前被行业使用多年，有健全的生态和大量的应用案例，非常适合初学者（有Java基础的人）学习。大数据学习交流群，群门牌号是：251—956---502,欢迎一起学习大数据的伙伴，加群互相学习交流。

目前很多商用大数据平台也是基于Hadoop构建的，所以Hadoop是大数据开发的一个重要内容。

Hadoop学习之后，还得学习Spark，它是一种与 Hadoop 相似的开源集群计算环境，拥有Hadoop MapReduce所具有的优点，Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。这是大数据技术学习的两大重点。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

hadoop