云计算分布式框架 Hadoop

10分钟

MapReudece

MapReduce处理大数据集，其核心部分就是Map函数和Reduce函数。这两个函数的具体功能由用户根据需要自己设计实现，只要能够按照用户自定义的规则，将输入的<key,value>对转换成另一个或一批<key,value>对输出即可。

在Map阶段，MapReduce框架将任务的输入数据分割成固定大小的数据片段（split），随后将每个split进一步分解成一批键值对<k1,v1>。Hadoop为每一个split创建一个Map任务，用于执行用户自定义的Map函数，并将对应的数据块split中的<k1,v1>对作为输出，得到计算的中间结果<k2,v2>。接着将中间结果按k2进行排序，并将Key值相同的value放在一起，形成一个新列表，形成<k2,list(v2)>元组。最后根据key值的范围将这些元组进行分组，对应不同的Reduce任务。

在Reduce阶段，Reduce任务将从不同Map接收来的数据整合在一起并进行排序，然后调用用户自定义的Reduce函数，对输入的<k2,list(v2)>对进行相应的处理，得到键值对<k3,v3>并输出到HDFS上。既然MapReduce框架为每个split创建一个Map，那么谁来确认Reduce任务的数目呢？用户来确认Reduce的数目。Mapred-site.xml配置文件中有一个表示Reduce任务数目的属性Mapred.Reduce.tasks，该属性的默认值为1，开发人员可以通过job.setNumReduceTasks()方法重新设置该值。

MapReduce处理大数据的过程（如程序）可拆解成Map（映射）和Reduce（化简）两个过程。MapReduce数据处理过程如下图所示。

这里简要介绍了MapReduce编程模型的原理。MapReduce编程流程、程序结构和并行计算的实现，以及MapReduce程序的详细流程、编程接口、程序实例等将在后面章节讲解。

上一节: MapReduce与分布式文件系统HDFS的关系下一节: HDFS的数据管理

目录

评价

推荐

1. Hadoop开源云计算平台

Hadoop开源云计算平台

Hadoop简介

Hadoop的起源

Hadoop的定义

Hadoop支持的开发语言

Hadoop的组成

Hadoop的族群

Hadoop的核心技术是Google核心技术的开源实现

Hadoop的应用现状和发展趋势

Hadoop的企业应用现状

Hadoop的发展趋势调研

企业规模

公司使用Hadoop的主要用途

Hadoop相关技术

Hadoop的发展趋势

看重Hadoop的哪些优点

学习和使用Hadoop的困难

大数据让Hadoop走得更远

2. Hadoop子项目

Hadoop子项目

Core/Common

Avro

HDFS的体系结构

HDFS的设计目标

HDFS结构模型

文件系统的命名空间NameSpace

数据复制与存放

数据的复制

副本的存放

副本选择

安全模式

文件系统元数据的持久化

HDFS的通讯协议

HDFS的数据组织-数据块

数据块的存放

数据块流水线复制

HDFS的可访问性

采用DFSShell访问HDFS

采用DFSAdmin访问HDFS

采用浏览器访问HDFS

MapReduce的体系架构

MapReduce是一种编程模式

MapReduce主要解决的问题

MapReduce编程模式的核心思想

MapReduce与分布式文件系统HDFS的关系

MapReudece

HDFS的数据管理

HBase的数据管理

Hive的体系架构

Hive的数据管理

元数据存储

数据存储

查询计划

3. 项目1：在Windows上安装与配置Hadoop

在Windows上安装与配置Hadoop

任务1：JDK的安装

环境变量的配置

Cygwin的安装

下载Cygwin

任务2：安装Cygwin

Cygwin的环境变量的配置

sshd服务

安装sshd服务

启动sshd服务

配置ssh和登录ssh

任务3：Hadoop的安装与配置

修改Hadoop-env.sh文件

修改core-site.xml文件

修改hdfs-site.xml文件

修改mapred-site.xml

启动Hadoop

4. 项目2：在Linux上安装与配置Hadoop

在Linux上安装与配置Hadoop

任务1：Ubuntu的安装

获得Ubuntu发行版