云计算分布式框架 Hadoop

5分钟

运行代码结果

1）准备测试数据

通过Eclipse新建一个项目，项目名称为InvertedIndex。新建类InvertedIndex，将代码输入，注意类名一致。在参数选项卡中设置输入文件的目录user/hadoop/index_in和输出文件的目录user/hadoop/index_out，并制定虚拟内存为1024MB。

2）在本地上传三个txt文件

在本地建立三个txt文件，分别是file1、file2、file3，文件的内容与“实例描述”中的三个文件一样，通过Eclipse上传到user/hadoop/index_in，成功上传之后，用命令查看三个文件的内容。

[ccwan@Master ~]$hadoop fs –is deput_in
-rw-r--r—3 hadoop supergroup 96 2012-06-12 23:45 /user/hadoop/dedup_in/file1.txt
-rw-r--r—3 hadoop supergroup 96 2012-06-12 23:45 /user/hadoop/dedup_in/file2.txt
-rw-r--r—3 hadoop supergroup 96 2012-06-12 23:45 /user/hadoop/dedup_in/file3.txt
[ccwan@Master ~]$hadoop fs –cat index_in/file1.txt
MapReduce is sample
[ccwan@Master ~]$hadoop fs –cat index_in/file1.txt
MapReduce is powerful  is sample
[ccwan@Master ~]$hadoop fs –cat index_in/file1.txt
Hello MapReduce bye MapReduce

3）查看运行结果

右击SimpleIndex类，选择Run as→Open Run Dialog命令。查看运行结果，右击Eclipse的DFS Locations中的/user/hadoop文件夹进行刷新，这时会发现多出一个index_out文件夹，且里面有3个文件，然后打开part-r-00000文件，会在Eclipse中把内容显示出来，如下图所示。

上一节: 任务4：去重实例下一节: 部署Hadoop Eclipse框架

目录

评价

推荐

1. Hadoop开源云计算平台

Hadoop开源云计算平台

Hadoop简介

Hadoop的起源

Hadoop的定义

Hadoop支持的开发语言

Hadoop的组成

Hadoop的族群

Hadoop的核心技术是Google核心技术的开源实现

Hadoop的应用现状和发展趋势

Hadoop的企业应用现状

Hadoop的发展趋势调研

企业规模

公司使用Hadoop的主要用途

Hadoop相关技术

Hadoop的发展趋势

看重Hadoop的哪些优点

学习和使用Hadoop的困难

大数据让Hadoop走得更远

2. Hadoop子项目

Hadoop子项目

Core/Common

Avro

HDFS的体系结构

HDFS的设计目标

HDFS结构模型

文件系统的命名空间NameSpace

数据复制与存放

数据的复制

副本的存放

副本选择

安全模式

文件系统元数据的持久化

HDFS的通讯协议

HDFS的数据组织-数据块

数据块的存放

数据块流水线复制

HDFS的可访问性

采用DFSShell访问HDFS

采用DFSAdmin访问HDFS

采用浏览器访问HDFS

MapReduce的体系架构

MapReduce是一种编程模式

MapReduce主要解决的问题

MapReduce编程模式的核心思想

MapReduce与分布式文件系统HDFS的关系

MapReudece

HDFS的数据管理

HBase的数据管理

Hive的体系架构

Hive的数据管理

元数据存储

数据存储

查询计划

3. 项目1：在Windows上安装与配置Hadoop

在Windows上安装与配置Hadoop

任务1：JDK的安装

环境变量的配置

Cygwin的安装

下载Cygwin

任务2：安装Cygwin

Cygwin的环境变量的配置

sshd服务

安装sshd服务

启动sshd服务

配置ssh和登录ssh

任务3：Hadoop的安装与配置

修改Hadoop-env.sh文件

修改core-site.xml文件

修改hdfs-site.xml文件

修改mapred-site.xml

启动Hadoop

4. 项目2：在Linux上安装与配置Hadoop

在Linux上安装与配置Hadoop

任务1：Ubuntu的安装

获得Ubuntu发行版