问题导读 1.你认为Hadoop集群的搭建有什么共同点? 2.低版本升级高版本,你是如何操作的? Hadoop集群的搭建除了Hadoop1与Hadoop2的集群搭建有所区别之外,Hadoop2集群的搭建大部分都是相似的。 1.需要安装ssh,达到无密码互通 无密码互通,很多这里都遇到了问题,这里提供两篇帖子。 linux(ubuntu)无密码互通、相互登录高可靠文档 CentOS6.4之图解SSH无验证双向登陆配置 2.修改hostname hostname有临时修改于永久修改,详细见 ubuntu修改hostname 3.安装JDK 参考 linux(ubuntu)安装Java jdk环境变量设置及小程序测试 4.配置环境变量、例如path、classpath、Java_home等 环境变量中有的是必须的、有的是为了操作方便、Hadoop path可以配置,这样使用命令更加的方便 5.配置网络: 包括联通外网、防火墙关闭 联通外网可以参考下面贴子 虚拟机三种网络模式该如何上网指导 6.Hadoop配置文件 1.配置文件一般配置如下三个文件: core-site.xml、hdfs-site.xml、mapred-site.xml、 Hadoop2,还需要配置yarn-site.xml 2.对于分布式、伪分布区别的一个重要切简单的配置文件slaves 如果是完全分布则需要修改slaves 除了上面,我们还需要配置hadoop-env.sh、yarn-env.sh 还有根据配置文件、建立文件夹
集群完全分布于伪分布的区别 伪分布与完全分布环境都是差不多的,伪分布搭建完毕,我们需要将同样的Hadoop文件复制到其他节点即可。 除了最基本的环偶境例如,都需要配置jdk,其他大部分环境不需要配置。 然后我们修改slaves 伪分布就能变成完全分布。 当然根据自己的情况,还有些细节,需要自己去搭建集群慢慢体会
通过上面我们可以看出,如果我们在原有的环境的基础上搭建更高更高版本的Hadoop, 我们有两种选择 1.直接采用升级的方式 升级的方式,可以参考 hadoop_线上升级步骤 hadoop 1.0.3 升级到 2.4.0 or 2.4.1 2.替换配置文件、重新初始化目录(这个只适用于同版本) 例如你的环境是Hadoop2.2、2.4等,升级为Hadoop2.5,你该如何操作,这里以伪分布为基础。 (1)我们下载解压Hadoop2.5.0 (2)将原先的Hadoop重命名Hadoop-back (3)将Hadoop2.5重名为Hadoop(也就是你之前Hadoop文件夹的名字) (4)替换配置文件 (5)将Hadoop的临时目录及Hadoop datanode目录清除里面的内容即可。
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/aboutyun/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/aboutyun/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
(6)格式化namenode,这时候我们的最新的集群就可以使用了。 对于从未搭建过集群的朋友、可以参考hadoop2.2完全分布式最新高可靠安装文档,来搭建Hadoop2.5,配置文件,可以完全挪用。