首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hadoop伪分布式搭建(一)

很多做传统软件朋友以及刚毕业同学打算学习大数据这门技术,那么Hadoop是算是必知必会啦。关于如何搭建伪分布式集群,自己从官方文档摘录了一篇文章,朋友们可以参考下。

一、环境的准备

linux操作系统电脑一台

从官方下载Hadoop软件https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz

安装JAVA环境,JDK 1.8.0_181

安装SSH命令

sudo apt-get install ssh

sudo apt-get install rsync

二、配置Hadoop

解压缩hadoop-2.8.5.tar.gz,编辑etc/hadoop/hadoop-env.sh文件如下

# set to the root of your Java installation export JAVA_HOME=/usr/java/latest

运行命令:bin/hadoop

三、伪分布式配置

Hadoop可以在伪分布式下运行,方便进行学习

配置core-site.xml文件

2. 配置etc/hadoop/hdfs-site.xml文件

四、设置SSH 登录

检测能否登录

2、如果不可以,设置本地SSH登录

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~/.ssh/authorized_keys

五、启动hadoop HDFS,执行本地MR任务

1. 格式化HDFS

2.开启NameNode和DataNode

3.打开NameNode信息管理页面http://localhost:50070/

总览信息

Datanode信息预览

Hdfs辅助工具

4.在HDFS上面创建文件

5.拷贝文件到HDFS上面

6.运行MR任务

7.从HDFS拷贝到本地文件系统

8. 停止HDFS

sbin/stop-dfs.sh

六、单独节点上运行YARN

通过设置一些参数,可以运行MR任务在伪分布式上。

1.配置etc/hadoop/mapred-site.xml

2. 配置etc/hadoop/yarn-site.xml:

3.开启ResourceManager daemon and NodeManager

4. 打开ResourceManager资源管理,默认地址:http://localhost:8088/cluster

4. 跑MR任务

部分内容来源于网络,如有侵权,本作者可立即删除!

如果喜欢请关注一下

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181001G1ERC700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券