云计算分布式框架 Hadoop

107课时
2.2K学过
8分

课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
3分钟

MapReduce与分布式文件系统HDFS的关系

通常MapReduce框架和分布式文件系统HDFS是运行在同一组节点上的。换句话说,计算节点和存储节点通常在一起。采用这种配置的优势是在框架中那些存储好数据的节点上可以高效地调度任务,可以使得整个集群网络得到高效的利用。

一个Map/Reduce 作业(job) 会把输入的数据集划分为多个独立的数据块(数据块的大小为64MB),这个工作由 Map任务(task)采用并行的方式处理。框架会对Map的输出进行排序,通过Map函数处理后,把结果传输给Reduce任务。通常作业的输入和输出都会存储在文件系统中。框架负责任务的调度和监控,并重新执行已经失败的任务。