开发者社区

文档建议反馈控制台

腾讯云架构师技术同盟

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >Hadoop >什么是Hadoop ？

什么是Hadoop ？

修改于 2023-07-25 20:12:06

87

词条归属：Hadoop

Hadoop 是一个开源的分布式计算框架，由 Apache Software Foundation 开发和维护。它主要用于处理和分析为大数据。Hadoop 的核心设计理念是将计算任务分布到多个节点上，以实现高度可扩展性和容错性。

Hadoop 的主要组件包括 Hadoop Distributed File System（HDFS）和 MapReduce 编程模型。

Hadoop Distributed File System（HDFS）：HDFS 是 Hadoop 的分布式文件系统，负责在集群中存储数据。HDFS 将数据切分成多个块（通常为 64MB 或 128MB），并将这些块分布到集群中的不同节点上。为了提高数据的可靠性和容错性，HDFS 会对每个数据块创建多个副本（通常为 3 个）。这样，即使某个节点发生故障，数据仍然可以从其他节点上的副本中恢复。
MapReduce 编程模型：MapReduce 是 Hadoop 的核心编程模型，用于处理和分析 HDFS 中的数据。MapReduce 任务包括两个阶段：Map 阶段和 Reduce 阶段。在 Map 阶段，输入数据被切分成多个片段，并分发到集群中的各个节点上。每个节点上的 Map 函数对其分配的数据片段进行处理，并生成一组键值对（key-value pairs）。在 Reduce 阶段，这些键值对被汇总到一个或多个 Reduce 函数中，以生成最终的输出结果。

Hadoop 的优势在于其高度可扩展性、容错性和灵活性。它可以处理 PB 级别的数据集，并支持各种数据类型（如结构化数据、半结构化数据和非结构化数据）。Hadoop 的生态系统还包括许多其他工具和组件，如 Hive（用于数据仓库和 SQL 查询）、Pig（用于数据流处理和转换）、HBase（用于实时数据存储和检索）等。这些工具和组件使 Hadoop 成为大数据处理和分析的强大平台。

相关文章

什么是Hadoop？什么是HDFS？

什么是Hadoop？什么是HDFS？马克-to-win @ 马克java社区：Hadoop是Apache基金会开发的一个分布式系统基础架构。比如前面我们接触的Spring就是一个开发应用框架。Hadoop 实现了一个分布式文件系统（ Distributed File System），加上Hadoop，即HDFS。Hadoop最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而 MapReduce则为海量的数据提供了计算。从以下的包名就可以看出。 import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;

马克java社区

2021-06-24

2.3K0

干货|浅谈什么是Hadoop及如何学习Hadoop

首先hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。 HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据，适合那些有着超大数据集(largedataset)的应用程序。 HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streamingaccess)文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce

灯塔大数据

2018-04-08

6910

什么是Hadoop，怎样学习Hadoop（文尾有福利）

分布式大数据

转自java知音概述：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实

2018-01-30

6080

在Hadoop中ApplicationMaster是干什么的？

ApplicationMaster：马克-to-win @ 马克java社区：想了解ApplicationMaster，我们需要了解一下它工作的过程。用户向YARN集群提交应用程序时：（包含ApplicationMaster程序，ApplicationMaster启动命令，用户自己的程序）后， ApplicationMaster向资源调度器申请执行任务的资源容器Container，运行用户自己的程序任务job（我们可以用浏览器看yarn 里的job进展），监控整个任务的执行，跟踪整个任务的状态，处理任务失败以异常情况。

马克java社区

2021-06-24

1K0

在Hadoop中NodeManager是干什么的？

NodeManager：马克-to-win @ 马克java社区：NodeManager管理一个YARN集群中的每一个节点。比如监视资源使用情况（ CPU，内存，硬盘，网络），跟踪节点健康等。

马克java社区

2021-06-24

8250

点击加载更多

词条知识树 3个知识点