云计算分布式框架 Hadoop

5分钟

实现Map类

这个类实现Mapper接口中的Ｍap方法，输入参数中的value是文本文件中的一行，利用tringTokenizer将这个字符串拆成单词，然后将输出结果<单词,1>写到org.apache. hadoop.mapred.OutputCollector 中。OutputCollector由Hadoop框架提供，负责收集Mapper和 Reducer输出的数据，实现Map函数和Reduce函数时，只需简单地将其输出的<key,value>对传送给OutputCollector即可，剩余的任务由框架处理。

代码中LongWritable、IntWritable、Text 均是Hadoop中实现的用于封装Java数据类型的类，这些类都能够被串行化从而便于在分布式环境中进行数据交换，可以将它们分别视为long、int、String的替代品。Reporter可用于报告整个应用的运行进度，本例中未使用。

//定义map方法继承Mapper接口
public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    /*实现 Mapper 接口中的 map方法，输入参数中的 value 是文本文件中的一行，
利用 StringTokenizer将这个字符串拆成单词
*/
    public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, 
    Reporter reporter) throws IOException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            //输出结果<单词,1>
            output.collect(word, one);
        }  
    }
}

上一节: 任务3：排序实例下一节: 实现Reduce类

直播支持申请

职业发展学习路径

热门技术学习路径

搜索热词

目录

评价

推荐

1. Hadoop开源云计算平台

Hadoop开源云计算平台

Hadoop简介

Hadoop的起源

Hadoop的定义

Hadoop支持的开发语言

Hadoop的组成

Hadoop的族群

Hadoop的核心技术是Google核心技术的开源实现

Hadoop的应用现状和发展趋势

Hadoop的企业应用现状

Hadoop的发展趋势调研

企业规模

公司使用Hadoop的主要用途

Hadoop相关技术

Hadoop的发展趋势

看重Hadoop的哪些优点

学习和使用Hadoop的困难

大数据让Hadoop走得更远

2. Hadoop子项目

Hadoop子项目

Core/Common

Avro

HDFS的体系结构

HDFS的设计目标

HDFS结构模型

文件系统的命名空间NameSpace

数据复制与存放

数据的复制

副本的存放

副本选择

安全模式

文件系统元数据的持久化

HDFS的通讯协议

HDFS的数据组织-数据块

数据块的存放

数据块流水线复制

HDFS的可访问性

采用DFSShell访问HDFS

采用DFSAdmin访问HDFS

采用浏览器访问HDFS

MapReduce的体系架构

MapReduce是一种编程模式

MapReduce主要解决的问题

MapReduce编程模式的核心思想

MapReduce与分布式文件系统HDFS的关系

MapReudece

HDFS的数据管理

HBase的数据管理

Hive的体系架构

Hive的数据管理

元数据存储

数据存储

查询计划

3. 项目1：在Windows上安装与配置Hadoop

在Windows上安装与配置Hadoop

任务1：JDK的安装

环境变量的配置

Cygwin的安装

下载Cygwin

任务2：安装Cygwin

Cygwin的环境变量的配置

sshd服务

安装sshd服务

启动sshd服务

配置ssh和登录ssh

任务3：Hadoop的安装与配置

修改Hadoop-env.sh文件

修改core-site.xml文件

修改hdfs-site.xml文件

修改mapred-site.xml

启动Hadoop

4. 项目2：在Linux上安装与配置Hadoop