5分钟
编写MapReduce程序
Hadoop MapReduce是一个使用简单的软件框架,基于它写出的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理TB级别的数据集。
一个MapReduce 作业通常会把输入的数据集切分为若干独立的数据块,由Map任务以并行的方式处理。框架会先对Map的输出进行排序,然后把结果传输给Reduce任务。通常作业的输入和输出都会存储在文件系统中。整个框架负责任务的调度和监控及重新执行已经失败的任务。
通常,MapReduce框架和分布式文件系统运行在一组相同的节点上,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,可以使整个集群的网络带宽得到高效的利用。
学员评价