Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MapReduce 计算框架如何运作

MapReduce 计算框架如何运作

作者头像
Michael阿明
发布于 2021-09-06 01:59:35
发布于 2021-09-06 01:59:35
3830
举报

learn from 从0开始学大数据(极客时间)

1. MapReduce 作业启动和运行机制

作业涉及三类关键进程:

  • 大数据应用进程 这类进程是启动 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群(JobTracker 进程)
  • JobTracker 进程 这类进程根据输入数据量,命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务,并管理整个作业生命周期的任务调度和监控 JobTracker 进程在整个 Hadoop 集群全局唯一
  • TaskTracker 进程 负责启动和管理 Map 进程、 Reduce 进程 因为每个数据块都有对应的 map 函数,TaskTracker 进程通常和 HDFS 的 DataNode 进程启动在同一个服务器

JobTracker 进程和 TaskTracker 进程是主从关系

  • 主服务器负责 分配服务器资源、作业执行的调度
  • 从服务器完成具体的计算操作

2. MapReduce 数据合并与连接机制

分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算,这就是 shuffle

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/02/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MapReduce编程模型和计算框架架构原理
Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型,又是一个计算框架。也就是说,开发人员必须基于MapReduce编程模型进行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。
王知无-import_bigdata
2019/04/24
2.3K0
MapReduce编程模型和计算框架架构原理
大数据技术入门:MapReduce(分布式计算框架)
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。——来源于百度百科。
百思不得小赵
2022/12/01
4.4K0
大数据技术入门:MapReduce(分布式计算框架)
hadoop|计算框架从MapReduce1.0到Yarn
01 — HDFS 前面介绍了hadoop的分布式存储框架(HDFS),这个框架解决了大数据存储的问题,这是第一步。知道海量数据如何存储后,脚步不能停留,下一步要设计一个框架,用来玩(计算)这些数据时,资源(计算机集群)该如何调度,比如已知1PB的数据存储在了集群(1000台电脑组成)中的10台计算机(DataNode)中,现在要对这些数据进行Map和Reduce计算,该如何做呢? 在理解以下知识前,需要理解一些知识点。任何应用,比如打开一个word文档,打开QQ,都会占用一定的系统资源(CPU,内存,网
double
2018/04/02
1.5K0
hadoop|计算框架从MapReduce1.0到Yarn
简单介绍 Hadoop三大核心组件 的 架构思想和原理
大家好,我是 梦想家Alex 。之前实际上我也写了不少关于大数据技术组件的文章,例如:
大数据梦想家
2021/10/22
2K0
Hadoop(十四)MapReduce原理分析
  上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。
大道七哥
2019/09/10
8750
Hadoop(十四)MapReduce原理分析
Hadoop前世今生
本文从Hadoop(1.0)系统中调度策略的角度展开讨论。这本质还是对Hadoop的集群资源进行管理,主要有四个方面:
章鱼carl
2022/03/31
9730
Hadoop前世今生
EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别(八)
Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。
小司机带你入门EMR
2020/02/11
2.7K0
Hadoop(十四)MapReduce原理分析
前言   上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。   Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。   Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 一、MapReduce并行处理的基本过程   首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别:      2.
用户1195962
2018/01/18
4.9K0
Hadoop(十四)MapReduce原理分析
Java核心知识点整理大全25-笔记
就是一个大数据解决方案。它提供了一套分布式系统基础架构。 核心内容包含 hdfs 和 mapreduce。hadoop2.0 以后引入 yarn. hdfs 是提供数据存储的,mapreduce 是方便数据计算的。
用户10920956
2024/01/18
1420
Java核心知识点整理大全25-笔记
Hadoop大数据初学者指南
Hadoop是一个开源框架,允许在分布式环境中使用简单的编程模型来存储和处理大数据,跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
yeedomliu
2023/09/03
3190
Hadoop大数据初学者指南
Hadoop的前世今生
HADOOP DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
week
2018/08/24
4280
Hadoop的前世今生
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021/09/18
6400
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
MapReduce分布式编程
MapReduce是一个分布式运算程序的编程框架,用于大规模数据集的并行处理,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce将一个数据处理过程拆分为Map和Reduce两部分:Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。开发人员只需通过编写Map和Reduce函数,不需要考虑分布式计算框架内部的运行机制,即可在Hadoop集群上实现分布式运算。引入MapReduce框架后,开发人员可将精力集中在业务逻辑的开发上,分布式计算的复杂性交由框架来处理。MapReduce把对数据集的大规模操作分发到计算节点,计算节点会周期性地返回其工作的最新状态和结果。如果节点保持沉默超过一个预设时间,主节点则标记该节点为死亡状态,并把已分配给这个节点的数据发送到别的节点重新计算,从而实现数据处理任务的自动调度。
Francek Chen
2025/01/22
1300
MapReduce分布式编程
Hadoop的HDFS和MapReduce
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:
星哥玩云
2022/07/03
4640
Hadoop的HDFS和MapReduce
MapReduce是什么?大数据开发的学习之路必须缺它不可吗?
今天我们开始学习新的篇章MapReduce 系列知识,所以本期带来的是大数据开发-MapReduce ,MapReduce作为一种编程模型,它是如何将自己的功能发挥到极致,以此提高工作效率的呢?下面就一起来看。
成都加米谷大数据
2021/04/21
1.5K0
MapReduce是什么?大数据开发的学习之路必须缺它不可吗?
大数据学习之路05——Hadoop原理与架构解析
Hadoop 是 Apache 开源组织的一个分布式计算开源框架,是一个可以更容易开发和运行处理大规模数据的解决方案,它提供了一套分布式系统基础架构,允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。
汪志宾
2019/05/24
8.4K0
大数据学习之路05——Hadoop原理与架构解析
Hadoop基础知识及部署模式
在开始Hadoop的部署之前需要了解其基础知识及部分原理,由于本文以部署的介绍为主,篇幅有限,因此只会对这部分内容作简单的阐述,后面有机会会撰写专门的Hadoop原理及基础系列文章。
数人之道
2022/01/07
11.8K0
Hadoop基础知识及部署模式
什么是大数据
进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB)级别。
用户3391135
2018/11/12
1.1K0
Hadoop实战
1.Hadoop是一个开源分布式计算平台,以HDFS(Hadoop Distributed Filesystem,Hadoop分布式文件系统)和MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构
硬核项目经理
2019/08/06
1.6K0
【Hadoop入门】Hadoop的架构介绍
分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)
如来
2020/07/14
3.4K0
相关推荐
MapReduce编程模型和计算框架架构原理
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档