前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop伪分布式配置

Hadoop伪分布式配置

作者头像
羊羽shine
发布于 2019-08-24 11:41:34
发布于 2019-08-24 11:41:34
76200
代码可运行
举报
文章被收录于专栏:Golang开发Golang开发
运行总次数:0
代码可运行

环境变量配置

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/module/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH

环境变量生效

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
~ source ~/.zshrc                        
➜  ~ hadoop version                                                                                                      
Hadoop 2.7.7
Subversion Unknown -r c1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3ac
Compiled by stevel on 2018-07-18T22:47Z
Compiled with protoc 2.5.0
From source with checksum 792e15d20b12c74bd6f19a1fb886490
This command was run using /opt/module/hadoop/share/hadoop/common/hadoop-common-2.7.7.jar

HDFS

测试Hadoop自带的wordcount

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop cd $HADOOP_HOME 
➜  hadoop mkdir wcinput         
➜  hadoop cd wcinput     
➜  wcinput vim wordcount.txt
hello hadoop
hello java
hello yarn
➜  wcinput cd ../
➜  hadoop pwd
/home/baxiang/opt/module/hadoop
➜  hadoop hadoop jar  /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount wcinput wcoutput
➜  hadoop cd wcoutput 
➜  wcoutput ls
part-r-00000  _SUCCESS
➜  wcoutput cat part-r-00000                             
hadoop  1
hello   3
java    1
yarn    1

修改core-site.xml配置文件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd /opt/module/hadoop/etc/hadoop
vim core-site.xml

core-site.xml增加如下内容

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<configuration>
        <!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop/data/tmp</value>
</property>

</configuration>

修改 hdfs-site.xml 配置信息

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>
</configuration>

格式化命令hdfs

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hdfs namenode -format

格式化成功会显示如下一条信息

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
19/08/23 17:12:02 INFO common.Storage: Storage directory /opt/module/hadoop/data/tmp/dfs/name has been successfully formatted.

启动namenode

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop-daemon.sh start namenode
starting namenode, logging to /opt/module/hadoop/logs/hadoop-baxiang-namenode-baxiang.out

启动datanode

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop-daemon.sh start datanode
starting datanode, logging to /opt/module/hadoop/logs/hadoop-baxiang-datanode-baxiang.out

通过jps 查看启动状态

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop jps 
4338 RemoteMavenServer36
803 NameNode
1077 Jps
933 DataNode
3935 Main

前端界面查看

http://localhost:50070/dfshealth.html#tab-overview

为什么不能一直格式化NameNode, 格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。

HDFS操作
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop fs -mkdir -p /user/baxiang/input                       
➜  hadoop hadoop fs -put /opt/module/hadoop/wcinput/wordcount.txt /user/baxiang/input
➜  hadoop hadoop fs -ls /user/baxiang/input                                          
Found 1 items
-rw-r--r--   1 baxiang supergroup         35 2019-08-23 17:30 /user/baxiang/input/wordcount.txt
➜  hadoop hadoop fs -cat /user/baxiang/input/wordcount.txt
hello hadoop
hello java
hello yarn

执行wordcount例子

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/baxiang/input/ /user/baxiang/output
➜  hadoop hadoop fs -ls /user/baxiang/output                                                                                                         
Found 2 items
-rw-r--r--   1 baxiang supergroup          0 2019-08-23 17:33 /user/baxiang/output/_SUCCESS
-rw-r--r--   1 baxiang supergroup         31 2019-08-23 17:33 /user/baxiang/output/part-r-00000
➜  hadoop hadoop fs -text /user/baxiang/output/part-r-00000
hadoop  1
hello   3
java    1
yarn    1

http://localhost:50070/explorer.html#/user/baxiang/output

图片.png

yarn

修改yarn-site.xml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<configuration>

<!-- Site specific YARN configuration properties -->
<!-- Reducer获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
</configuration>

修改mapred-site.xml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop cp mapred-site.xml.template mapred-site.xml
➜  hadoop vim mapred-site.xml

mapred-site.xml配置信息如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<configuration>
<!-- 指定MR运行在YARN-->
<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
</property>
</configuration>

启动resourcemanager和nodemanager

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop yarn-daemon.sh start resourcemanager
starting resourcemanager, logging to /opt/module/hadoop/logs/yarn-baxiang-resourcemanager-baxiang.out
➜  hadoop yarn-daemon.sh start nodemanager    
starting nodemanager, logging to /opt/module/hadoop/logs/yarn-baxiang-nodemanager-baxiang.out

查看启动状况jps

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop jps
4338 RemoteMavenServer36
803 NameNode
933 DataNode
4776 Jps
4329 ResourceManager
4621 NodeManager
3935 Main

查看界面UIhttp://localhost:8088/cluster

图片.png

删除/user/baxiang/output文件夹

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop fs -rm -R /user/baxiang/output
19/08/23 17:50:49 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/baxiang/outp

再次执行wordcount

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/baxiang/input/ /user/baxiang/output

图片.png

为了查看程序的历史运行情况,需要配置历史服务器。具体配置步骤如下 在 mapred-site.xml增加如下内容

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<property>
<name>mapreduce.jobhistory.address</name>
<value>localhost:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>localhost:19888</value>
</property>

启动 http://localhost:19888/jobhistory

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /opt/module/hadoop/logs/mapred-baxiang-historyserver-baxiang.out
➜  hadoop jps
4338 RemoteMavenServer36
803 NameNode
6292 JobHistoryServer
933 DataNode
4329 ResourceManager
6348 Jps
4621 NodeManager
3935 Main

图片.png

将程序运行日志信息上传到HDFS系统上,增加日志聚集功能好处:可以方便的查看到程序运行详情和开发调试。增加日志功能配置如下 ➜ hadoop vim yarn-site.xml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<!-- 日志保留时间设置7-->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryManager。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop vim yarn-site.xml  
➜  hadoop yarn-daemon.sh stop resourcemanager
stopping resourcemanager
➜  hadoop yarn-daemon.sh stop nodemanager
stopping nodemanager
nodemanager did not stop gracefully after 5 seconds: killing with kill -9
➜  hadoop mr-jobhistory-daemon.sh stop historyserver
stopping historyserver
➜  hadoop jps
4338 RemoteMavenServer36
6978 Jps
803 NameNode
933 DataNode
3935 Main

重新启动

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop yarn-daemon.sh start resourcemanager
starting resourcemanager, logging to /opt/module/hadoop/logs/yarn-baxiang-resourcemanager-baxiang.out
➜  hadoop yarn-daemon.sh start nodemanager
starting nodemanager, logging to /opt/module/hadoop/logs/yarn-baxiang-nodemanager-baxiang.out
➜  hadoop mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /opt/module/hadoop/logs/mapred-baxiang-historyserver-baxiang.out
➜  hadoop jps
7345 NodeManager
4338 RemoteMavenServer36
803 NameNode
7636 Jps
933 DataNode
7579 JobHistoryServer
7053 ResourceManager
3935 Main

删除输出结果,再次执行wordcount

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
➜  hadoop hadoop fs -rm -R /user/baxiang/output                                                                                                       
19/08/23 18:48:28 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/baxiang/output
➜  hadoop hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/baxiang/input/ /user/baxiang/output

http://localhost:19888/jobhistory

图片.png

图片.png

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.08.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
蜻蜓折翼——谷歌搜索中国项目恩仇录
据外媒报道,谷歌暂停了一项在中国的数据收集项目,为推出符合中国法律法规的搜索引擎带来沉重打击。
新智元
2018/12/28
4470
蜻蜓折翼——谷歌搜索中国项目恩仇录
回顾 | 谷歌搜索中国项目恩仇录
据外媒报道,谷歌暂停了一项在中国的数据收集项目,为推出符合中国法律法规的搜索引擎带来沉重打击。
昱良
2018/12/28
5250
黄了。Google中国版搜索
据The Intercept消息,Google决定关闭该项目的整体数据来源,内部投注的资源也转移到其他发展中国家——如印度、印尼和巴西。
量子位
2018/12/28
5830
外媒:Google被迫终止了搜索引擎业务重返中国的计划,转而搜集分析全球华人的搜索数据
265网址导航页只是“蜻蜓计划”(又称Dragonfly)的数据组成部分之一,Google此计划的数据分析团队,正在转向研究来自美国、马来西亚等国家的中文搜索请求,从而研究全球华人的搜索行为数据。
数据猿
2018/12/28
5150
外媒:Google被迫终止了搜索引擎业务重返中国的计划,转而搜集分析全球华人的搜索数据
谷歌搜索重返中国彻底“凉凉”
网传了半年之久的 Google “蜻蜓”(Dragonfly)计划终于有了确切的眉目,那就是停止这一做法。
AI科技大本营
2018/12/28
6250
谷歌搜索重返中国彻底“凉凉”
Google把百度当工具使,进行审查版搜索引擎的研发
导读:上周 The Intercept 爆料谷歌计划在中国大陆重启其搜索业务,目前谷歌还没有对此传闻做出正面回应,而 9 日,The Intercept 又爆料谷歌为了遵守中国方面的审查要求,一直在通过其中国网站 265.com 收集需要过滤的内容。
IT阅读排行榜
2018/08/17
4930
四年又四年,苹果搜索引擎要“胎死腹中”?
据外媒近日报道,苹果的搜索引擎团队核心成员 Srinivasan Venkatachary 跳槽谷歌,这对于苹果的搜索引擎项目来说,无异于雪上加霜 — 毕竟苹果为了做出能与谷歌正面竞争的搜索引擎,已经努力了四年。随着核心成员的离开,苹果的搜索引擎项目很可能“胎死腹中”。
深度学习与Python
2022/11/28
1960
挣扎中的谷歌“蜻蜓项目”,Google 搜索到底能不能回归大陆?
相信身在互联网圈的人,关于谷歌的“蜻蜓项目”,大家都应该有所耳闻。“蜻蜓项目”就是关于谷歌推出准备试图推出一款符合中国法律的搜索产品。说白了,就是一款中国特别版的搜索引擎。
非著名程序员
2018/12/24
8860
人民日报推文:欢迎Google重返中国大陆,但必须遵守中国法律
近日,谷歌将回归的消息充斥着各大媒体。尽管是否回归还是一个未知数,但是一切迹象表明,谷歌回归只是时间问题。
大数据文摘
2018/08/08
6170
人民日报推文:欢迎Google重返中国大陆,但必须遵守中国法律
不满国内监管,谷歌回归中国计划再遭抗议
自从2010年退出中国市场开始,谷歌回归中国的呼声一直此起彼伏地没有消停过,却一直没有如愿过。而与国内很多用户不同的是,有一群人却不希望谷歌重回中国,而这些人正是谷歌自己的雇员。
FB客服
2018/12/21
5000
谷歌CEO暗讽百度医疗搜索?
8 月 1 日,外媒 The Intercept 获得的 Google 内部文件以及知情人士的消息显示,Google 计划让搜索服务重返中国。据悉该项目的内部代号为 Dragonfly,始于 2017 年春季。
AI科技大本营
2018/11/06
5050
AI一分钟|特斯拉股价收跌近 5%,私有化引发市场疑虑;三星发布智能音箱Galaxy Home
8 月 10 日早间消息,特斯拉股价周四收跌近 5%,抹去其 CEO 马斯克宣布私有化计划之后的涨幅。此前有报道称,监管者对特斯拉私有化怀有担忧,而市场也担心交易难以完成。
AI科技大本营
2018/08/17
2600
AI一分钟|特斯拉股价收跌近 5%,私有化引发市场疑虑;三星发布智能音箱Galaxy Home
人民日报发推欢迎Google回归,但前提是遵守中国法律
8 月 6 日,人民日报在社交媒体平台 Twitter、Facebook 上刊登了一篇标题为“Stability prerequisite for China’s internet opening up”(《稳定是中国互联网开放的重要前提》)的文章。
AI科技大本营
2018/08/17
3210
人民日报发推欢迎Google回归,但前提是遵守中国法律
重返中国遥遥无期,Google 中国要“文化先行”
今年8月 1 日将北京总部从五道口的科建大厦搬到融科资讯中心后,Google中国又短暂地出现在了中国人的视野里,此时距离Google 进入中国已经过去了 10 年。虽然 Google 中国在前 4 年
BestSDK
2018/02/27
7070
重返中国遥遥无期,Google 中国要“文化先行”
李飞飞重返祖国执掌Google AI中国团队:不忘初心,中国已觉醒
李根 假装发自 上海 量子位 出品 | 公众号 QbitAI 刚刚在上海,李飞飞正式宣布了一个激动人心的消息。 首先是Google AI中国中心正式成立。 其次,李飞飞这位享誉全球的AI学者、Google Cloud人工智能和机器学习首席科学家,将重返祖国工作,筹建并执掌Google AI中国团队。 这个中心由李飞飞和李佳共同领导。李飞飞将会负责中心的研究工作,也会统筹Google Cloud AI、Google Brain以及中国本土团队的工作。 在回答量子位提问时,李飞飞表示从1月入职Google时就开
量子位
2018/03/23
8700
李飞飞重返祖国执掌Google AI中国团队:不忘初心,中国已觉醒
谷歌CEO:不希望魏则西事件再发生,中国版搜索引擎可以做到更好
导读:谷歌 CEO Sundar Pichai 本周一已承认谷歌确实在开发中国审核版的谷歌搜索引擎,并表示能满足超过 99% 的搜索请求。
IT阅读排行榜
2018/11/07
4660
【原创】搜索引擎百度已死?是找出身边蠢货的时候了!
文章指责百度搜索结果一半以上会指向百度自家产品,尤其是百家号,而百家号充斥着大量营销和质量低劣的内容,也导致百度搜索结果的内容质量大幅下滑,百度作为搜索引擎名存实亡。
物流IT圈
2019/07/16
5100
【原创】搜索引擎百度已死?是找出身边蠢货的时候了!
TensorFlow全家桶的落地开花 | 2019 Google开发者日
Android 10 原生支持 5G,Flutter 1.9、Dart 2.5 正式发布
AI科技大本营
2019/09/17
9840
TensorFlow全家桶的落地开花 | 2019 Google开发者日
谷歌全球大罢工!包庇“安卓之父”性骚扰惹众怒,员工提出5项要求
今天,北京时间11月2日,在硅谷总部,在纽约、柏林、都柏林、东京……谷歌20多个全球分舵所在城市,上千名谷歌员工(仅总部就有1千多人),以罢工和散步方式,抗议谷歌管理层包庇性骚扰指控以及性别歧视。
量子位
2018/12/06
5720
抛弃 Google,Debian 改将 DuckDuckGo 作为默认搜索引擎
作者 | 闫园园 近日,据外媒报道,Debian 发布公告称由于隐私原因,将 Chromium 浏览器的默认搜索引擎从 Google 改为 DuckDuckGo。DuckDuckGo 是一个专注于隐私保护的搜索引擎,承诺不会跟踪使用者,而 Chromium 则是由 Google 主导开发的网页浏览器。 这个提议早在 2020 年 4 月 6 日就被提出,只不过近日才得以通过。更改的原因如公告中所述: 出于隐私原因,将默认搜索引擎更改为 DuckDuckGo。在设置 -> 搜索引擎下设置不同的搜索引擎(关闭
深度学习与Python
2023/03/29
6570
抛弃 Google,Debian 改将 DuckDuckGo 作为默认搜索引擎
推荐阅读
相关推荐
蜻蜓折翼——谷歌搜索中国项目恩仇录
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验