首页
学习
活动
专区
工具
TVP
发布
技术百科首页 >Hadoop >什么是Hadoop ?

什么是Hadoop ?

词条归属:Hadoop

Hadoop 是一个开源的分布式计算框架,由 Apache Software Foundation 开发和维护。它主要用于处理和分析为大数据。Hadoop 的核心设计理念是将计算任务分布到多个节点上,以实现高度可扩展性和容错性。

Hadoop 的主要组件包括 Hadoop Distributed File System(HDFS)和 MapReduce 编程模型。

  • Hadoop Distributed File System(HDFS):HDFS 是 Hadoop 的分布式文件系统,负责在集群中存储数据。HDFS 将数据切分成多个块(通常为 64MB 或 128MB),并将这些块分布到集群中的不同节点上。为了提高数据的可靠性和容错性,HDFS 会对每个数据块创建多个副本(通常为 3 个)。这样,即使某个节点发生故障,数据仍然可以从其他节点上的副本中恢复。
  • MapReduce 编程模型:MapReduce 是 Hadoop 的核心编程模型,用于处理和分析 HDFS 中的数据。MapReduce 任务包括两个阶段:Map 阶段和 Reduce 阶段。在 Map 阶段,输入数据被切分成多个片段,并分发到集群中的各个节点上。每个节点上的 Map 函数对其分配的数据片段进行处理,并生成一组键值对(key-value pairs)。在 Reduce 阶段,这些键值对被汇总到一个或多个 Reduce 函数中,以生成最终的输出结果。

Hadoop 的优势在于其高度可扩展性、容错性和灵活性。它可以处理 PB 级别的数据集,并支持各种数据类型(如结构化数据、半结构化数据和非结构化数据)。Hadoop 的生态系统还包括许多其他工具和组件,如 Hive(用于数据仓库和 SQL 查询)、Pig(用于数据流处理和转换)、HBase(用于实时数据存储和检索)等。这些工具和组件使 Hadoop 成为大数据处理和分析的强大平台。

相关文章
什么是Hadoop?什么是HDFS?
什么是Hadoop?什么是HDFS?马 克-to-win @ 马克java社区:Hadoop是Apache基金会开发的一个分布式系统基础架构。比如前面我们接触的Spring就是一个开发应用框架。Hadoop 实现了一个分布式文件系统( Distributed File System),加上Hadoop,即HDFS。Hadoop最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而 MapReduce则为海量的数据提供了计算。从以下的包名就可以看出。 import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;
马克java社区
2021-06-24
2.3K0
干货|浅谈什么是Hadoop及如何学习Hadoop
首先hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。 HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。 HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce
灯塔大数据
2018-04-08
6880
什么是Hadoop,怎样学习Hadoop(文尾有福利)
转自java知音 概述:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实
用户1257393
2018-01-30
5960
在Hadoop中Container是干什么的?
Container:马 克-to-win @ 马克java社区:前面我们总提资源分配。而资源分配的体现就要用到一个抽象概念“容器”(Container)表示,Container将内存、 CPU、磁盘、网络等资源封装在一起,这样可以起到限定资源边界的作用。比如给你一个Container的资源,里面包含3个G的内存,1G硬盘。当销毁 你的Container时,连带的内存,硬盘都没有了。
马克java社区
2021-06-24
7470
在Hadoop中ResourceManager是干什么的?
ResourceManager:马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。当应用程序对集群资源需求时,ResourceManager是Yarn集群主控节点,负责协调和管理整个集群(所有NodeManager)的资源。
马克java社区
2021-06-24
8650
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券