首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据实训之集群规划

大数据实训之集群规划

作者头像
张哥编程
发布于 2024-12-07 08:27:40
发布于 2024-12-07 08:27:40
22300
举报
文章被收录于专栏:云计算linux云计算linux
运行总次数:0

集群规划

统一环境配置

[所有节点]IP地址设置

  • 修改Ip地址

vi /etc/sysconfig/network-scripts/ifcfg-ens33

代码语言:javascript
代码运行次数:0
运行
复制
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static"  # 设置为静态ip static
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
NAME="ens33"  # 网卡的名称
DEVICE="ens33" # 设备的名称
ONBOOT="yes"  # 设置为yes, 表示开机启动
IPADDR="192.168.46.150"  
PREFIX="24"  
GATEWAY="192.168.46.2" 
DNS1="114.114.115.115"  
  • 重启网络服务

systemctl restart network

  • 测试网络

ping www.baidu.com 如果可以ping通公网: 说明 ip地址和网关都配置正确 如果通过 ip addr 不能查看到ip地址, 说明配置有错误 如果可以ping通内网 192.168.46.1 但是不能ping通外网的话, 则说明网关配置有错误

[所有节点]设置主机名

  • 编辑主机名配置文件

vi /etc/hostname hadoop01 02 03,biz01 都得改

[所有节点]设置域名映射解析

  • 编辑hosts文件,加到hosts的下面

vi /etc/hosts 192.168.3.129 biz01 192.168.3.130 hadoop01 192.168.3.131 hadoop02 192.168.3.132 hadoop03

[所有节点]关闭防火墙和Selinux

  • 关闭防火墙
代码语言:javascript
代码运行次数:0
运行
复制
systemctl stop firewalld.service
systemctl disable firewalld.service
  • 关闭Selinux
代码语言:javascript
代码运行次数:0
运行
复制
vi /etc/selinux/config


# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
SELINUX=disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected.
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted

[所有节点]配置免密登录

1715565443391.png
1715565443391.png

ssh root@hadoop01 ip addr

测试需要用户名和密码;

  1. 在所有节点生成公钥和私钥 ssh-keygen -t rsa 后面直接所有的交互都敲回车 即可
  2. 拷贝公钥到每台服务器 biz01 执行01 02 03 h01 执行b01 h02 h03 h02 执行b01 h01 h03 h03 执行b01 h01 h02 ssh-copy-id hadoop01 ssh-copy-id hadoop02 ssh-copy-id hadoop03
  3. 验证ssh登录 ssh hadoop01 exit # 退出ssh登录

[所有节点]配置服务器节点时钟同步

可以忽略

  1. 在所有节点安装ntpdate yum install -y ntpdate
  2. 增加定时任务 crontab -e */1 * * * * /usr/sbin/ntpdate -u ntp4.aliyun.com > /dev/null 2>&1

[所有节点]安装常用软件

快速方式:yum install -y vim net-tools lrzsz rsync wget

代码语言:javascript
代码运行次数:0
运行
复制
yum install -y vim
yum install -y net-tools
yum install -y lrzsz
yum install -y rsync
yum install -y wget

[所有节点]创建统一目录

代码语言:javascript
代码运行次数:0
运行
复制
mkdir -p /bigdata/{soft,server}

/bigdata/soft      安装文件的存放目录
/bigdata/server  软件安装的目录

定义同步数据脚本

1715597098767.png
1715597098767.png

[所有节点]安装软件rsync

代码语言:javascript
代码运行次数:0
运行
复制
yum install -y rsync

[hadoop01] 配置同步脚本

代码语言:javascript
代码运行次数:0
运行
复制
mkdir /root/bin
cd /root/bin   #到新创建的目录
vim xsync      #vim 是vi的高级版

#!/bin/bash
#1 获取命令输入参数的个数,如果个数为0,直接退出命令 
paramnum=$#
echo "paramnum:$paramnum"
if (( paramnum == 0 )); then
    echo no params;
    exit;
fi
# 2 根据传入参数获取文件名称
p1=$1
file_name=`basename $p1` 
echo fname=$file_name
#3 获取输入参数的绝对路径 
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir 
#4 获取用户名称 
user=`whoami`
#5 循环执行rsync
current=`hostname` 
nodes=$(cat /root/bin/workers)
for host in $nodes; do 
  echo ------------------- $host -------------- 
  if [ "$host" != "$current" ];then
     rsync -rvl $pdir/$file_name $user@$host:$pdir
  fi
done

[hadoop01]创建workers文件

代码语言:javascript
代码运行次数:0
运行
复制
cd /root/bin

vi workers

hadoop01
hadoop02
hadoop03

添加环境变量

这个环境变量,后期会经常使用

代码语言:javascript
代码运行次数:0
运行
复制
vi /etc/profile.d/custom_env.sh

#! /bin/bash
# root/bin
export PATH=$PATH:/root/bin

source /etc/profile

设置文件执行权限

代码语言:javascript
代码运行次数:0
运行
复制
chmod u+x /root/bin/xsync

测试同步脚本

xsync xx.txt

jdk环境安装

  1. 把安装的软件上传到/bigdata/soft 目录
  2. 解压到指定目录 -C :指定解压到指定目录 tar -zxvf /bigdata/soft/jdk-8u241-linux-x64.tar.gz -C /bigdata/server/
  3. 创建一个软链接 cd /bigdata/server ln -s jdk1.8.0_241/ jdk1.8 #相当于给jdk1.8.0_241 给快捷方式jdk1.8 #我们这里用修改指令: mv jdk1.8.0_241/ jdk1.8
  4. 配置环境变量
代码语言:javascript
代码运行次数:0
运行
复制
    vi  /etc/profile.d/custom_env.sh
   
    export JAVA_HOME=/bigdata/server/jdk1.8
    export PATH=$JAVA_HOME/bin:$PATH/

   >
   > 重新加载配置文件
   >
   > source /etc/profile

5. 测试验证  <img src="image/image-20220619155330268.png" alt="image-20220619155330268" style="zoom:150%;" />

6. 同步至所有节点

   ```shell
   # 同步到biz01, hadoop01, hadoop02, hadoop03
   xsync /etc/profile/custom_env.sh
   xsync /bigdata/server/jdk1.8.0_241     #我们使用了修改文件夹,这行命令,不需要了
   xsync  /bigdata/server/jdk1.8
   
   #如果biz01已经传递过文件,则忽略下面的操作。
   scp -r /etc/profile/custom_env.sh biz01:/etc/profile/custom_env.sh
   scp -r /bigdata/server/jdk1.8.0 biz01:/bigdata/server/jdk1.8
   在biz01 创建软链接
   ln -s jdk1.8.0_241/ jdk1.8

MySQL数据库安装

卸载已经安装的MySQL数据库

代码语言:javascript
代码运行次数:0
运行
复制
## 查询MySQL相关的依赖
rpm -qa |grep  mysql
## 如果存在, 则通过rpm -e --nodeps 进行卸载

获取rpm在线安装仓库文件

请问bigdata /server,使用ls查看,会发现 mysql80-community-release-el7-6.noarch.rpm,多出来了。

代码语言:javascript
代码运行次数:0
运行
复制
wget  https://dev.mysql.com/get/mysql80-community-release-el7-6.noarch.rpm

安装mysql的仓库文件

代码语言:javascript
代码运行次数:0
运行
复制
rpm -ivh mysql80-community-release-el7-6.noarch.rpm

修改mysql仓库的配置文件

代码语言:javascript
代码运行次数:0
运行
复制
cd /etc/yum.repos.d/

`禁用8.0的版本, 启用5.7的版本`
mysql-community.repo: 用于指定下载哪个版本的安装包
#将5.7的enable设置为18.0设置为0 即可。

mysql-community-source.repo: 用于指定下载哪个版本的源码

安装MySQL5.7

代码语言:javascript
代码运行次数:0
运行
复制
## 导入签名的信息key
rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022
## 安装5.7
yum install -y  mysql-community-server

启动数据库

代码语言:javascript
代码运行次数:0
运行
复制
systemctl status mysqld

systemctl  start mysqld  
#
systemctl enable mysqld

登录数据库

代码语言:javascript
代码运行次数:0
运行
复制
## 查看初始密码
less /var/log/mysqld.log  |grep pass

## 登录数据库
mysql -uroot -p'XRY046OefV<7'

修改MySQL数据库密码策略

代码语言:javascript
代码运行次数:0
运行
复制
#这条命令将全局密码最小长度设置为4
set global validate_password_length=4;
#表示不使用任何密码策略。
set global validate_password_policy=0;

创建远程登录用户

代码语言:javascript
代码运行次数:0
运行
复制
#修改用户的密码,为123456
ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';
#创建一个远程登录用户,%:模糊匹配
create user 'root'@'%' identified by '123456';
## 设置远程登录权限
grant all privileges on *.* to 'root'@'%';

上述设置完毕,>输入exit,

mysql -uroot -p1213456

设置服务器编码为utf8

查看编码格式; ..show variables like '%char%';

代码语言:javascript
代码运行次数:0
运行
复制
vi /etc/my.cnf
## 在mysqld下面设置
character_set_server=utf8

## 重启服务
systemctl restart mysqld

Hadoop集群安装

集群规划

hadoop01

hadoop02

hadoop03

角色

主节点

从节点

从节点

NameNode

DataNode

ResourceManager

NodeManager

SecondaryNameNode

Historyserver

上传安装包到hadoop01

手动上传/bigdata/soft/

解压到指定目录

tar -zxvf /bigdata/soft/hadoop-3.3.3.tar.gz -C /bigdata/server/

创建软链接

cd /bigdata/server ln -s hadoop-3.3.3/ hadoop #我这里是直接更名

常见的Hadoop软件目录说明

目录

作用

说明

bin/

Hadoop最基本的管理脚本和使用脚本

hdfs: 文件上传命令<br/>hadoop文件管理基础命令<br/>yarn: 资源调度相关<br/>mapred: 程序运行, 启动历史服务器

etc/

Hadoop配置文件的目录

core-site.xml<br/>hdfs-site.xml<br/>mapred-site.xml<br/>yarn-site.xml

include/

对外提供的编程库头文件

对外提供的编程库头文件(具体动态库和静态库在lib目录中),<br />这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序

lib/

动态库和静态库

该目录包含了Hadoop对外提供的编程动态库和静态库,<br />与include目录中的头文件结合使用。

libexec/

shell配置文件

各个服务对用的shell配置文件所在的目录,<br />可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

sbin/

Hadoop管理命令

主要包含HDFS和YARN中各类服务的启动/关闭脚本

share/

官方自带示例

Hadoop各个模块编译后的jar包所在的目录

Hadoop配置文件修改

Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp分发给其他各个从节点机器

下面文件的操作目录:/bigdata/server/hadoop/etc/haddop下,不要弄错。

hadoop-env.sh

文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器

vim hadoop-env.sh 54行的JAVA_HOME的设置 export JAVA_HOME=/bigdata/server/jdk1.8 在文件末尾添加如下内容 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root

core-site.xml

hadoop的核心配置文件,有默认的配置项core-default.xml。 core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值。

cd /bigdata/server/hadoop/etc/hadoop/ vim core-site.xml 在文件的configuration的标签中添加以下内容: <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/bigdata/data/hadoop</value> </property> <!-- 设置HDFS web UI用户身份 --> <property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property> <!-- 整合hive --> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property>

hdfs-site.xml

HDFS的核心配置文件,有默认的配置项hdfs-default.xml

hdfs-default.xml与hdfs-site.xml的功能是一样的,如果在hdfs-site.xml里没有配置的属性,则会自动会获取hdfs-default.xml里的相同属性的值。

cd /bigdata/server/hadoop/etc/hadoop/ vim hdfs-site.xml <!-- 指定secondarynamenode运行位置 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop02:50090</value> </property>

mapred-site.xml

MapReduce的核心配置文件,有默认的配置项mapred-default.xml

mapred-default.xml与mapred-site.xml的功能是一样的,如果在mapred-site.xml里没有配置的属性,则会自动会获取mapred-default.xml里的相同属性的值。

cd /bigdata/server/hadoop/etc/hadoop/ vim mapred-site.xml <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property>

yarn-site.xml

YARN的核心配置文件,有默认的配置项yarn-default.xml

yarn-default.xml与yarn-site.xml的功能是一样的,如果在yarn-site.xml里没有配置的属性,则会自动会获取yarn-default.xml里的相同属性的值。

cd /bigdata/server/hadoop/etc/hadoop/ vim yarn-site.xml <!-- 指定YARN的主角色(ResourceManager)的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop01</value> </property> <!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序默认值:"" --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 是否将对容器实施物理内存限制 --> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <!-- 是否将对容器实施虚拟内存限制。 --> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> <!-- 开启日志聚集 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 设置yarn历史服务器地址 --> <property> <name>yarn.log.server.url</name> <value>http://hadoop01:19888/jobhistory/logs</value> </property> <!-- 保存的时间7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>

workers

workers文件里面记录的是集群主机名。主要作用是配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候workers文件里面的主机标记的就是从节点角色所在的机器。

cd /bigdata/server/hadoop/etc/hadoop/ vim workers hadoop01 hadoop02 hadoop03

同步hadoop软件包到hadoop02和hadoop03

有问题:xsync 无法复制到biz01,

这里直接分发的是scp -r hadoop / hadoop02:$PWD

scp -r hadoop-3.3.3/ hadoop02:$PWD scp -r hadoop-3.3.3/ hadoop03:$PWD 在hadoop02节点配置软链接 ln -s hadoop-3.3.3/ hadoop 在hadoop03节点配置软链接 ln -s hadoop-3.3.3/ hadoop

[所有节点]配置环境变量

vim /etc/profile.d/custome_env.sh export HADOOP_HOME=/bigdata/server/hadoop export PATH=PATH:HADOOP_HOME/bin: #然后执行 source /etc/profile

Hadoop集群启动

启动方式

要启动Hadoop集群,需要启动HDFSYARN两个集群。 注意:首次启动HDFS时,必须在主节点hadoop01对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。

hadoop namenode -format

手动单个节点启动

主节点hadoop01启动namenode

cd /bigdata/server/hadoop/bin ./hdfs --daemon start namenode

hadoop02启动secondarynamenode

cd /bigdata/server/hadoop/bin ./hdfs --daemon start secondarynamenode

所有节点启动datanode

cd /bigdata/server/hadoop/bin ./hdfs --daemon start datanode

查看进程情况

jpg netstat -ntlp 其中hdfs的web端口: hadoop01:9870已经可以正常访问

主节点hadoop01启动ResouceManager

cd /bigdata/server/hadoop/bin ./yarn --daemon start resourcemanager

所有节点启动Nodemanager

cd /bigdata/server/hadoop/bin ./yarn --daemon start nodemanager

如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可。

一键脚本启动

如果配置了etc/hadoop/workersssh免密登录,则可以使用程序脚本启动所有Hadoop两个集群的相关进程,在主节点所设定的机器上执行。

<span style="color:red;font-weight:bold;font-size:20px">hdfs:/bigdata/server/hadoop/sbin/start-dfs.sh</span>

<span style="color:red;font-weight:bold;font-size:20px">yarn:/bigdata/server/hadoop/sbin/start-yarn.sh</span>

停止脚本 hdfs:/bigdata/server/hadoop/sbin/stop-dfs.sh yarn:/bigdata/server/hadoop/sbin/stop-yarn.sh

完整的一键启动hdfs和yarn脚本 start-all.sh: 启动所有的hdfs和yarn的脚本 stop-all.sh: 停止所有的hdfs和yarn的脚本

启动后的效果

image-20220619181708175.png
image-20220619181708175.png
image-20220619181723836.png
image-20220619181723836.png
image-20220619181745180.png
image-20220619181745180.png

集群Web访问UI

hdfs:

http://hadoop01:9870

image-20220619181920391.png
image-20220619181920391.png

`yarn:

http://hadoop01:8088`

image-20220619182103968.png
image-20220619182103968.png

MapReduce JobHistory

JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml中配置并手动启动。

修改mapred-site.xml

cd /bigdata/server/hadoop/etc/hadoop/ vim mapred-site.xml <property> <name>mapreduce.jobhistory.address</name> <value>hadoop02:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop02:19888</value> </property>

scp mapred-site.xml hadoop02:$PWD scp mapred-site.xml hadoop03:$PWD

我的biz01无法使用xsync mapred-site.xml复制过去,使用下面的命令,复制到biz01

scp mapred-site.xml root@biz01:/opt/servers/hadoop/etc/hadoop

在hadoop02节点启动JobHistory

cd /bigdata/server/hadoop/bin ./mapred --daemon start historyserver

访问web管理界面

http://hadoop02:19888/jobhistory

运行演示程序

在hdfs创建一个目录: hdfs dfs -mkdir /input 上传文件到hdfs的/input目录 hdfs dfs -put start-all.sh /input #或改成hdfs dfs -put hello.txt /input 运行示例程序 hadoop jar /bigdata/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.3.jar wordcount /input /output

命令查看:

hdfs dfs -ls /output

1714372008917.png
1714372008917.png

执行统计

hdfs dfs -cat /output/*

image-20220619185752203.png
image-20220619185752203.png
image-20220619185835596.png
image-20220619185835596.png
image-20220619185856618.png
image-20220619185856618.png

有可能会报错:Couldn’t preview the file. NetworkError: Failed to execute ‘send’ on ‘XMLHttpRequest’: Failed to load ‘http://slave1:9864/webhdfs/v1/HelloHadoop.txt?op=OPEN&namenoderpcaddress=master:9820&offset=0&_=1609724219001’.

1715161186405.png
1715161186405.png

解决方案如下所示:

在bigdata/server/hadoop/etc/hadoop下,修改hdfs-site.xml,增加如下配置:

代码语言:javascript
代码运行次数:0
运行
复制
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>

Failed to load 'http://hadoop03:9864/webhdfs/v1/input/hello.txt 找个错误,相当于在windows环境下,访问一个域名hadoop03,而你现在windows系统没有配置找个域名,所以:报错。

配置浏览器所在系统的 hosts 文件 windows: 在 C:\Windows\System32\drivers\etc\hosts 末尾增加内容(Hadoop集群中各节点及主机名的映射)(下方配置仅供参考,以个人实际情况为准),增加红色框框的配置即可。

1715161490898.png
1715161490898.png
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)
前言: 想玩转大数据,Hadoop集群是绕不开的一道坎。很多小伙伴一看到集群部署就头大,各种配置、各种坑。别慌!这篇教程就是你的“救生圈”。
IvanCodes
2025/09/28
1.1K0
五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)
hadoop-3.2.0------>入门十一 完全分布式配置
由于ResourceManager和NameNode还有SecondaryNameNode比较消耗资源,顾三个配置分别配置到不同的主机上
用户5899361
2020/12/07
1.1K0
hadoop-3.2.0------>入门十一 完全分布式配置
Hadoop完全分布式安装
完全分布式安装部署,其实步骤上来说与伪分布式没有太大的区别,主要增加2台虚拟机部署称为一个3台的集群
我脱下短袖
2019/12/21
5420
Hadoop分布式部署
对于Hadoop Master(ResourceManager/NameNode)节点硬件配置要高一些
用户5252199
2022/04/18
5750
Hadoop分布式部署
深入浅出学大数据(二)Hadoop简介及Apache Hadoop三种搭建方式
此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
不温卜火
2021/09/29
2.1K0
深入浅出学大数据(二)Hadoop简介及Apache Hadoop三种搭建方式
一文教你快速了解伪分布式集群搭建(超详细!)
首先,我们需要知道配置伪分布式集群要修改的配置文件 所有配置文件都在 /opt/module/hadoop-2.7.2/etc/hadoop/内
不温卜火
2020/10/28
6720
一文教你快速了解伪分布式集群搭建(超详细!)
【快速入门大数据】Hadoop分布式集群搭建
修改hadoop配置文件 /root/software/hadoop-2.6.0-cdh5.7.0/etc/hadoop
瑞新
2021/12/06
2860
【快速入门大数据】Hadoop分布式集群搭建
hadoop2.5.0完全分布式环境搭建(亲测有效)
      说在前头的一些东西,关于Linux本身环境本身的一些处理见如下链接,主要是讲Hadoop环境的前期准备:http://www.jianshu.com/p/d8720d0828dd
z小赵
2018/09/05
5220
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
1)Hadoop 官方网站:http://hadoop.apache.org/ 2)Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式:单机运行,只是用来演示一下官方案例。==生产环境不用。 == ➢ 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模 拟一个分布式的环境。==个别缺钱的公司用来测试,生产环境不用。 == ➢ 完全分布式模式:多台服务器组成分布式环境。==生产环境使用。 ==
老虎也淘气
2024/01/30
3470
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
Hadoop 集群部署
Hadoop各个功能模块的理解 零. 概述 HDFS模块 HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。
Freedom123
2024/03/29
3750
Windows上使用CentOS部署HA大数据环境
http://mirrors.aliyun.com/centos/7/isos/x86_64/
码客说
2022/11/14
1.8K0
Windows上使用CentOS部署HA大数据环境
【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
技术架构挑战 量大,无法用结构化数据库,关系型数据库 经典数据库没有考虑数据多类别 比如json 实时性的技术挑战 网络架构、数据中心、运维挑战
瑞新
2021/12/06
1.1K0
【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
大数据之Phonenix与Hbase集成
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。 Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。 Phoenix通过以下方式使我们可以少写代码,并且性能比我们自己写代码更好:
码客说
2022/12/16
1.8K0
大数据之Phonenix与Hbase集成
hadoop之完全分布式集群配置(centos7)
克隆好之后需要做三件事:1、更改主机名称 2、修改ip地址 3、将ip地址和对应的主机号加入到/etc/hosts文件中
西西嘛呦
2020/08/26
5450
hadoop之完全分布式集群配置(centos7)
Hadoop集群搭建
'readonly' option is set (add ! to override) 查看5.1解决。
ha_lydms
2023/08/10
9690
Hadoop集群搭建
CentOS7搭建Hadoop-3.3.0集群
这篇文章是基于Linux系统CentOS7搭建Hadoop-3.3.0分布式集群的详细手记。
Throwable
2020/12/29
2.4K0
Hadoop完全分布式搭建
一、介绍 Hadoop2.0中,2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,Quorum Journal Node(JournalNode)集群或者Nnetwor
用户1263954
2018/06/22
1.4K0
大数据学习之路01——让Hadoop在MacOS上跑起来
解决方案:重新编译hadoop,将编译后的hadoop-dist/target/hadoop-2.8.4/lib/native替换$HADOOP_HOME/lib/native。
汪志宾
2019/05/16
3.1K0
大数据学习之路01——让Hadoop在MacOS上跑起来
hadoop2.6.0完全分布式手动安装
遇到的问题: 15/05/01 09:56:48 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 下载:http://dl.bintray.com/sequenceiq/sequenceiq-bin/ 覆盖: tar -xvf hadoop-native-64-2.6.0.tar -C /home/cluster/hadoop/lib/native
字母哥博客
2020/09/23
3790
hadoop搭建完全分布式集群
后面的启动步骤可以用一步来代替,进入hadoop安装目录的sbin目录,执行:start-dfs.sh 。但建议还是按部就班来执行,比较可靠。
许喜朝
2020/10/27
5690
推荐阅读
相关推荐
五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)
更多 >
目录
  • 集群规划
  • 统一环境配置
    • [所有节点]IP地址设置
    • [所有节点]设置主机名
    • [所有节点]设置域名映射解析
    • [所有节点]关闭防火墙和Selinux
    • [所有节点]配置免密登录
    • [所有节点]配置服务器节点时钟同步
    • [所有节点]安装常用软件
    • [所有节点]创建统一目录
  • 定义同步数据脚本
    • [所有节点]安装软件rsync
    • [hadoop01] 配置同步脚本
    • [hadoop01]创建workers文件
    • 添加环境变量
    • 测试同步脚本
  • jdk环境安装
  • MySQL数据库安装
    • 卸载已经安装的MySQL数据库
    • 获取rpm在线安装仓库文件
    • 安装mysql的仓库文件
    • 修改mysql仓库的配置文件
    • 安装MySQL5.7
    • 启动数据库
    • 登录数据库
    • 修改MySQL数据库密码策略
    • 创建远程登录用户
    • 设置服务器编码为utf8
  • Hadoop集群安装
    • 集群规划
    • 上传安装包到hadoop01
    • 解压到指定目录
    • 创建软链接
    • 常见的Hadoop软件目录说明
    • Hadoop配置文件修改
      • hadoop-env.sh
      • core-site.xml
      • hdfs-site.xml
      • mapred-site.xml
      • yarn-site.xml
      • workers
    • 同步hadoop软件包到hadoop02和hadoop03
    • [所有节点]配置环境变量
    • Hadoop集群启动
      • 启动方式
      • 手动单个节点启动
      • 一键脚本启动
    • 启动后的效果
    • 集群Web访问UI
    • MapReduce JobHistory
      • 修改mapred-site.xml
    • 在hadoop02节点启动JobHistory
      • 访问web管理界面
    • 运行演示程序
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档