很多做传统软件朋友以及刚毕业同学打算学习大数据这门技术,那么Hadoop是算是必知必会啦。关于如何搭建伪分布式集群,自己从官方文档摘录了一篇文章,朋友们可以参考下。
一、环境的准备
linux操作系统电脑一台
从官方下载Hadoop软件https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
安装JAVA环境,JDK 1.8.0_181
安装SSH命令
sudo apt-get install ssh
sudo apt-get install rsync
二、配置Hadoop
解压缩hadoop-2.8.5.tar.gz,编辑etc/hadoop/hadoop-env.sh文件如下
# set to the root of your Java installation export JAVA_HOME=/usr/java/latest
运行命令:bin/hadoop
三、伪分布式配置
Hadoop可以在伪分布式下运行,方便进行学习
配置core-site.xml文件
2. 配置etc/hadoop/hdfs-site.xml文件
四、设置SSH 登录
检测能否登录
2、如果不可以,设置本地SSH登录
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
五、启动hadoop HDFS,执行本地MR任务
1. 格式化HDFS
2.开启NameNode和DataNode
3.打开NameNode信息管理页面http://localhost:50070/
总览信息
Datanode信息预览
Hdfs辅助工具
4.在HDFS上面创建文件
5.拷贝文件到HDFS上面
6.运行MR任务
7.从HDFS拷贝到本地文件系统
8. 停止HDFS
sbin/stop-dfs.sh
六、单独节点上运行YARN
通过设置一些参数,可以运行MR任务在伪分布式上。
1.配置etc/hadoop/mapred-site.xml
2. 配置etc/hadoop/yarn-site.xml:
3.开启ResourceManager daemon and NodeManager
4. 打开ResourceManager资源管理,默认地址:http://localhost:8088/cluster
4. 跑MR任务
部分内容来源于网络,如有侵权,本作者可立即删除!
如果喜欢请关注一下
领取专属 10元无门槛券
私享最新 技术干货