大数据hadoop环境搭建

原创

软件架构师Michael

发布于 2022-03-24 01:22:58

5090

文章被收录于专栏：软件工程师Michael软件工程师Michael

一.前置工作

1.准备好centos虚拟机，安装好yum,vim

2.准备编译后的安装包：

apache-maven-3.3.9-bin.tar.gz

elasticsearch-6.3.0.tar.gz

elasticsearch-spark-20_2.11-6.3.0.jar

gradle-4.5-all.zip

hadoop-2.6.0-cdh5.7.0.tar.gz

jdk-8u91-linux-x64.tar.gz

kibana-6.3.0-linux-x86_64.tar.gz

nginx-1.11.6.tar.gz

Python-3.6.8.tar.xz

scala-2.11.8.tgz

spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz

二.上传安装包

1.安装lrzsz

sudo yum install lrzsz

2.centos上创建文件夹software,用于存放安装包，rz命令上传文件

mkdir software

三.解压安装包，配置环境变量

1.创建文件夹app,用于存放解压后的文件

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2.配置环境变量

vim ~/.bash_profile

注意配置顺序依次为：java,scala,hadoop,具体见如下截图

source ~/.bash_profile --------source后环境变量才会起作用

除了Hadoop的配置稍微繁琐意外，其余的配置都基本相同。

3.修改hadoop配置

目录：/etc/hadoop

vim hadoop-env.sh 配置JAVA_HOME

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91

vim core-site.xml 配置namenode

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml

#（1）fs.defaultFS参数配置的是HDFS的地址。

fs.defaultFS

hdfs://bigdata-senior01.chybinmy.com:8020

#（2）hadoop.tmp.dir配置的是Hadoop临时目录，比如HDFS的NameNode数据默认都存放这个目录下，查看*-default.xml等默认配置文件，就可以看到很多依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下，如果操作系统重启了，系统会清空/tmp目录下的东西，导致NameNode元数据丢失，是个非常严重的问题，所有我们应该修改这个路径。

#创建临时目录：

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp

#将临时目录的所有者修改为hadoop

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tm

#修改hadoop.tmp.dir

hadoop.tmp.dir

/opt/data/tmp

vim hdfs-site.xml 配置dfs的namenode和datanode

<name>dfs.replication</name>

mapred-site.xml配置

<name>fs.default.name</name>

<value>hdfs://hadoop000:8020</value>