Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop单机模式部署 - CentOS

Hadoop单机模式部署 - CentOS

作者头像
一头小山猪
发布于 2020-12-15 03:24:00
发布于 2020-12-15 03:24:00
1.3K00
代码可运行
举报
文章被收录于专栏:微光点亮星辰微光点亮星辰
运行总次数:0
代码可运行

写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。同时,博主也想通过此次尝试打造一个完善的技术图书馆,任何与文章技术点有关的异常、错误、注意事项均会在末尾列出,欢迎大家通过各种方式提供素材。

  • 对于文章中出现的任何错误请大家批评指出,一定及时修改。
  • 有任何想要讨论和学习的问题可联系我:zhuyc@vip.163.com。
  • 发布文章的风格因专栏而异,均自成体系,不足之处请大家指正。

Hadoop单机模式部署 - CentOS

本文关键字:Hadoop、单机模式、安装部署、CentOS

一、Hadoop介绍

Hadoop软件库是一个计算框架,可以使用简单的编程模型以集群的方式对大型数据集进行分布式处理。

1. Hadoop发展史及生态圈

  • Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一。
  • 2006年2月,成为一套完整而独立的软件,并被命名为Hadoop
  • 2008年1月,Hadoop成为Apache顶级项目。
  • 2009年7月,MapReduceHDFS成为Hadoop的独立子项目。
  • 2010年5月,Avro脱离Hadoop项目,成为Apache顶级项目。
  • 2010年5月,HBase脱离Hadoop项目,成为Apache顶级项目。
  • 2010年9月,Hive脱离Hadoop项目,成为Apache顶级项目。
  • 2010年9月,Pig脱离Hadoop项目,成为Apache顶级项目。
  • 2011年1月,Zookeeper脱离Hadoop项目,成为Apache顶级项目。
  • 2011年12月,Hadoop 1.0.0版本发布。
  • 2012年10月,Impala加入Hadoop生态圈。
  • 2013年10月,Hadoop 2.0.0版本发布。
  • 2014年2月,Spark成为Apache顶级项目。
  • 2017年12月,Hadoop 3.0.0版本发布。

2. Hadoop核心功能及优势

  • 分布式存储系统:HDFS

HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的简称,是Hadoop生态系统中的核心项目之一,也是分布式计算中数据存储管理的基础。

  • 分布式计算框架:MR

MapReduce是一种计算模型,核心思想就是“分而治之”,可以用于TB级的大规模并行计算。Map阶段处理后形成键值对形式的中间结果;Reduce对中间结果相同的“键”对应的“值”进行处理,得到最终结果。

  • 资源管理平台:YARN

YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器,可以为上层应用提供统一的资源管理和调度,为集群的资源利用率、统一管理、数据共享等方面提供了便利。

  • 高扩展

Hadoop是一个高度可扩展的存储平台,可以存储和分发超数百个并行操作的廉价的服务器集群。能够打破传统的关系数据库无法处理大量数据的限制,Hadoop能够提供TB级别数据的运算能力。

  • 成本低

Hadoop可以将廉价的机器组成服务器集群来分发处理数据,成本较低,学习者及普通用户也能够很方便的在自己的PC上部署Hadoop环境。

  • 高效率

Hadoop能够并发的处理数据任务,并且能够在不同的节点之间移动数据,可以保证各个节点的动态平衡。

  • 容错性

Hadoop可以自动维护多份数据的副本,如果计算任务失败,Hadoop能够针对失败的节点重新处理。

3. 部署方式介绍

  • 单机模式

单机模式是一个最简的安装模式,因为Hadoop本身是基于Java编写的,所以只要配置好Java的环境变量就可以运行了。在这种部署方式中我们不需要修改任何的配置文件,也不需要启动任何的服务,只需要解压缩、配置环境变量。虽然配置很简单,但是能做的事情也是很少的。因为没有各种守护进程,所以分布式数据存储以及资源调度等等服务都是不能使用的,但是我们可以很方便的测试MapReduce程序

  • 伪分布模式

伪分布模式是学习阶段最常用的模式,可以将进程都运行在同一台机器上。在这种模式下,可以模拟全分布模式下的运行状态,基本上可以完成全分布模式下的所有操作,伪分布模式是全分布模式的一个特例。

  • 全分布模式

在全分布模式下,会在配置文件中体现出主节点与分节点,可以指定哪些机器上运行哪些服务以达到的成本与效率的平衡。在企业中主要采用的都是全分布式模式,节点从数十个到上百个不等。在学习阶段,如果个人PC的性能足够强劲,也可以使用多台虚拟机代替。

二、Hadoop下载

作为一个软件的学习者和开发者,大家一定要培养自己:去官网、查资料的好习惯,摆脱各种一键安装、软件管家之类的东西,把一切掌控在自己手中,用严谨的态度来要求自己,加油!

1. 下载地址

在百度中搜索Hadoop,前两条就会显示我们需要的网站,目前Hadoop属于Apache基金会,所以我们打开网址时注意一下是apache.org

进入后来到Hadoop的官网,点击Download就可以打开下载界面:https://hadoop.apache.org/releases.html。

2. 版本选择

现在我们使用的是开源社区版,目前的主流版本为2.x.y3.x.y

在选择Hadoop的版本时,我们应该考虑到与其他生态圈软件的兼容问题。通常的组建方式有两种:

  • 根据各组件的兼容性要求手动选择版本并搭建
  • 使用CDH(Cloudera’s Distribution Including Apache Hadoop)自动选择版本并解决兼容问题

在学习阶段,由于进行的操作比较简单,不需要特别的在意版本的兼容问题,但是建议两种方式大家都能够去进行了解和实践。

3. 安装包下载

本文选择2.9.2版本进行演示,Source为源码,Binary为我们所需要的软件包,点击对应版本的binary进入下载界面。

点击任意一个镜像地址开始下载,直击链接:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz。

三、安装步骤

文本将在CentOS 7系统环境下演示Hadoop的单机模式部署。

1. 前置环境

在配置Hadoop前,需要先配置好JDK,在安装先需要先卸载历史版本,详细的步骤可以参考我的另一篇文章:JDK的解压安装 - CentOS。

  • 查询历史版本(如没有可跳过下一步)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rpm -qa|grep java
rpm -qa|grep jdk
  • 卸载历史版本(使用root用户操作)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rpm -e --nodeps 软件包全称(从查询处获得)
  • 解压缩
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
tar -zvxf jdk-8u251-linux-x64.tar.gz
  • 配置环境变量(以全局为例-root用户操作)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
vi /etc/profile

# 在文件结尾添加以下内容
JAVA_HOME=/opt/jdk1.8.0_251
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export JAVA_HOME
export PATH
  • 刷新环境变量
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
source /etc/profile
  • 使用命令测试
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
java -version

2. Hadoop安装

对于Hadoop软件,通常会新建一个单独的用户来管理,下面以普通用户hadoop为例来进行操作。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 新建hadoop用户
useradd hadoop
# 为hadoop用户设置密码
passwd hadoop
# 切换至hadoop用户
su - hadoop
  • 解压缩

使用hadoop用户新建一个会话,上传Hadoop软件包。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
tar -zxvf hadoop-2.9.2.tar.gz
  • 配置环境变量(以用户变量为例)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
vi ~/.bash_profile

# 在文件结尾添加以下内容
HADOOP_HOME=/home/hadoop/hadoop-2.9.2
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_HOME
export PATH
  • 刷新环境变量
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
source ~/.bash_profile
  • 使用命令测试
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop version

3. 运行WordCount

测试命令成功之后我们还可以运行一个MapReduce小程序来测试一下,相当于Hadoop的“Hello World”。在Hadoop的安装目录中,存放了一些可以直接运行的jar包,对于不同版本,存放路径可能有所差异。在2.9.2版本中,存放路径为:share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar

  • 进入jar包所在路径
  • 准备数据

新建一个纯文本文件,使用空格、换行符来分隔单词,写入一些句子。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
touch data.txt
vi data.txt

good good study
day day up
today is a good day
  • 开始计算

使用hadoop jar命令来运行一个jar包,在jar包中可能存在多个可执行的类,目前需要运行的是其中的wordcount。运行时需要两个参数:

  • 输入路径:数据源文件或目录
  • 输出路径:一个还不存在的目录,会自动创建

输入路径就是刚刚创建的data.txt,而输出路径必须是一个不存在路径,每次执行完成后会自动创建该目录,并生成一些结果文件。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop jar hadoop-mapreduce-examples-2.9.2.jar wordcount data.txt output
  • 异常解决

如果在运行过程中出现UnknownHostException: bogon: 未知的名称或服务异常,可以通过在/etc/hosts文件中添加本机映射解决。如:本机主机名为hadoop,则修改内容如下(使用root用户操作):

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微光点亮星辰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[喵咪大数据]Hadoop单机模式
千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapreduce组成,分别负责分布式文件存储,任务调度,计算处理,本机我们在单机模式下把Hadoop运行起来并且简单的使用接触Hadoop相关的机制. 附上: Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn 1.环境准备 这里所有的系统统一使用Centos7.X 64位系统 其他系统未经过测试 创建install
喵了个咪233
2018/03/02
8790
[喵咪大数据]Hadoop单机模式
Hadoop3单机和伪分布式模式安装配置
为了体验HDFS和MapReduce框架,以及在HDFS上运行示例程序或简单作业,我们首先需要完成单机上的Hadoop安装。所依赖的软件环境如下:
职场亮哥
2020/10/10
2.1K0
hadoop 1.x环境搭建
近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。 首先要了解一下Hadoop的运行模式: 单机模式(standalone)        单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下 所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何 Hadoop的守护进程。该模式主要用于开发调试MapReduce程
猿人谷
2018/01/17
8090
hadoop 1.x环境搭建
Ubuntu 14.04安装Hadoop2.5.2(单机模式)
单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 伪分布模式(Pseudo-Distributed Mode) 伪分布模式在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。 全分布模式(Fully Distributed Mode) Hadoop守护进程运行在一个集群上。
星哥玩云
2022/07/04
5440
Ubuntu 14.04安装Hadoop2.5.2(单机模式)
大数据Hadoop快速入门教程
1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效
CSDN技术头条
2018/02/12
6970
大数据Hadoop快速入门教程
hadoop一小时搞定单机搭建
首先,由于hadoop是用java写的,所以在安装hadoop之前呢,需要先把jdk环境装好。
我的小熊不见了丶
2019/05/22
5440
在CentOS中搭建Hadoop
JDK:OpenJDK1.8.0 (强力建议不要使用 Oracle 公司的 Linux 版本的 JDK)
Wizey
2018/08/30
1.9K0
在CentOS中搭建Hadoop
hadoop3种集群方式
  $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downlooads
py3study
2020/01/14
5260
Hadoop(二)搭建伪分布式集群
  前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧!
大道七哥
2019/09/10
9740
Hadoop(二)搭建伪分布式集群
Mac部署hadoop3(伪分布式)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
程序员欣宸
2019/10/22
1.3K0
Mac部署hadoop3(伪分布式)
Hadoop2.2.0 的安装和基本配置
Hadoop2.0的架构和1.0完全不一样,在安装配置上和1.0也有很大的不同,譬如配置文件的目录不一样了,还有要对yarn进行配置,这个在1.0是没有的。很多人第一次接触hadoop2.0的时候,会很不适应,而且官方的文档也有些写得不太清楚的地方,也有些错误。笔者在初次安装hadoop2.0的时候,看着官方的文档,中间也出现过很多问题。为了帮助大家很快的部署上hadoop2.0,笔者写了这篇文章。这篇文章主要就是介绍一个hadoop2.0的一个最基本最简单的配置,目的就是尽快的让hadoop2.0在机器上
小小科
2018/05/02
9240
Hadoop hdfs配置
网络情况:网络为:192.168.80.0,网关为192.168.80.2,掩码为255.255.255.0,域名202.196.32.1。
张哥编程
2024/12/19
1410
Hadoop hdfs配置
Hadoop单机模式安装
Java是Hadoop的主要先决条件。首先,应该使用命令“java-version”验证 java 存在在系统中。Java version 命令的语法如下。
黑洞代码
2022/05/16
4660
Hadoop(二)搭建伪分布式集群
前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone  Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、Task
用户1195962
2018/01/18
2.1K0
Hadoop(二)搭建伪分布式集群
安装和配置Hadoop(单节点)
Hadoop生态圈仍处于欣欣向荣的发展态势,不断涌现新的技术和名词。Hadoop的HDFS、YARN、MapReduce仍是最基础的部分,这篇文章记录了如何一步步在linux上安装单节点的Hadoop,之后就可以在它上面做一些练习了。截至目前(2018.7.16),Hadoop的最新版本是3.0.3,但使用最新版本的问题是:当你遇到问题时,所能找到的资料或者书籍都是针对较晚版本的。因此,对一项技术,如果没有达到特别熟悉,安装次新、或者次次新版本是一个相对稳妥的做法。所以,我选择安装的是2.9.1版本。
张子阳
2018/09/28
2.9K0
安装和配置Hadoop(单节点)
[喵咪大数据]Hadoop集群模式
既然是大数据无论存储和处理都需要相当大的磁盘或者是处理的资源消耗,那么单机肯定是满足不了我们的需求的,所以本节我们就来了解Hadoop的集群模式搭建,在集群情况下一同配合处理任务分发,存储分担等相关的功能进行实践. 附上: Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn 1.准备工作 安装包清单 统一存放到**/app/install**目录下,暂时只用存放到hadoop-1上,配置好了之后scp到slave节点上 jdk-8u101-linux-x64.ta
喵了个咪233
2018/03/02
1.3K0
[喵咪大数据]Hadoop集群模式
Hadoop安装教程_单机及伪分布式
配置新的hadoop用户 查看是否配置成功 为hadoop用户增加管理员权限 退出重新登陆
用户1147754
2019/05/27
4890
Fedora 配置 Spark 实验环境 (一)安装Hadoop、Spark
实验环境建议使用jdk11,如果 java version 显示的是之前安装的其它版本jdk,可以切换到新安装的jdk11:
esse LL
2023/05/25
1K0
10分钟大数据Hadoop基础入门
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。
IT派
2018/08/10
5520
10分钟大数据Hadoop基础入门
大数据篇---hadoop学习一、搭建hadoop环境(centos7)二、hadoop知识点
大咖揭秘Java人都栽在了哪?点击免费领取《大厂面试清单》,攻克面试难关~>>>
用户2337871
2020/11/13
5090
大数据篇---hadoop学习一、搭建hadoop环境(centos7)二、hadoop知识点
相关推荐
[喵咪大数据]Hadoop单机模式
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验