首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据面试题(二):Hadoop的联邦机制核心高频面试题

大数据面试题(二):Hadoop的联邦机制核心高频面试题

原创
作者头像
Lansonli
发布于 2022-12-12 14:38:46
发布于 2022-12-12 14:38:46
34600
代码可运行
举报
文章被收录于专栏:Lansonli技术博客Lansonli技术博客
运行总次数:0
代码可运行

​Hadoop的联邦机制核心高频面试题

一、为什么会出现联邦

Hadoop的NN所使用的资源受所在服务的物理限制,不能满足实际生产需求。

二、联邦的实现

采用多台NN组成联邦。NN是独立的,NN之间不需要相互调用。NN是联合的,同属于一个联邦,所管理的DN作为block的公共存储。

如下图:

图中概念:

  • block pool的概念,每一个namespace都有一个pool,datanodes会存储集群中所有的pool,block pool之间的管理是独立的,一个namespace生成一个block id时不需要跟其它namespace协调,一个namenode的失败也不会影响到datanode对其它namenodes的服务。
  • 一个namespace和它的block pool作为一个管理单元,删除后,对应于datanodes中的pool也会被删除。集群升级时,这个管理单元也独立升级。
  • 这里引入clusterID来标示集群所有节点。当一个namenode format之后,这个id生成,集群中其它namenode的format也用这个id。

三、主要优点

1、命名空间可伸缩性——联合添加命名空间水平扩展。DN也随着NN的加入而得到拓展。

2、性能——文件系统吞吐量不是受单个Namenode限制。添加更多的Namenode集群扩展文件系统读/写吞吐量。

3、隔离——隔离不同类型的程序,一定程度上控制资源的分配。

四、配置

联邦的配置是向后兼容的,允许在不改变任何配置的情况下让当前运行的单节点环境转换成联邦环境。新的配置方案确保了在集群环境中的所有节点的配置文件都是相同的。

第一步:配置属性dfs.nameservices,用于datanodes们识别namenodes。

第二步:为每个namenode加入这个后缀。

conf/hdfs-site.xml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<configuration>
  <property>
    <name>dfs.nameservices</name>
    <value>ns1,ns2</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns1</name>
    <value>nn-host1:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns1</name>
    <value>nn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address.ns1</name>
    <value>snn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns2</name>
    <value>nn-host2:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns2</name>
    <value>nn-host2:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address.ns2</name>
    <value>snn-host2:http-port</value>
  </property>
  .... Other common configuration ... 
</configuration>

五、操作

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 创建联邦,不指定ID会自动生成
 
$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]
 
# 升级Hadoop为集群
 
$HADOOP_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR -upgrade -clusterId <cluster_ID>
 
# 扩展已有联邦
 
$HADOOP_HOME/bin/hdfs dfsadmin -refreshNamenodes <datanode_host_name>:<datanode_rpc_port>
 
# 退出联邦
 
$HADOOP_HOME/sbin/distribute-exclude.sh <exclude_file>
 
$HADOOP_HOME/sbin/refresh-namenodes.sh

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
HDFS Federation(HDFS 联邦)(Hadoop2.3)
功能上划分为namespace和block storage service 两部分。
星哥玩云
2022/06/30
8970
HDFS Federation(HDFS 联邦)(Hadoop2.3)
Apache Hadoop-2.x集群部署(持续更新完善)
摘 要 本文将介绍基于Hadoop2.x版本利用zookeeper搭建高可用集群环境。 前言 1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主
天策
2018/06/22
7160
大数据集群搭建之Linux安装hadoop3.0.0
https://www.apache.org/dyn/closer.cgi/hadoop/common
静谧星空TEL
2021/04/27
1K0
大数据集群搭建之Linux安装hadoop3.0.0
hadoop搭建完全分布式集群
后面的启动步骤可以用一步来代替,进入hadoop安装目录的sbin目录,执行:start-dfs.sh 。但建议还是按部就班来执行,比较可靠。
许喜朝
2020/10/27
5260
高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南
192.168.1.84 hadoop84 #namenode1,resourcemanager
白石
2019/08/23
5570
hadoop-hdfs-site.xml配置文件详解
hadoop:hdfs-site.xml配置文件详解 hdfs-site.xml配置文件j介绍 hadoop-hdfs相关的配置信息 hdfs-site.xml配置文件 name value description hadoop.hdfs.configuration.version 1 version of this configuration file dfs.namenode.logging.level info The logging level for dfs namenode. Other
许喜朝
2020/10/27
3.2K0
ZooKeeper的安装
此文章的假设是hadoop集群已经搭建好。zookeeper已经搭建完成!参考《安装zookeeper笔记》
字母哥博客
2020/09/23
6040
ZooKeeper的安装
Hadoop大数据部署
关闭防火墙: systemctl stop firewalld systemctl disable firewalld
星哥玩云
2022/07/20
5670
Hadoop高可用集群部署指南
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
KenTalk
2018/09/11
1.4K1
Hadoop高可用集群部署指南
【赵渝强老师】基于ZooKeeper实现Hadoop HA
由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn,因此在部署HDFS HA的时候,也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示:
赵渝强老师
2024/09/18
1870
【赵渝强老师】基于ZooKeeper实现Hadoop HA
Hadoop2.0 federation的配置
上一篇文章《Hadoop2.0 federation介绍》(见http://www.linuxidc.com/Linux/2014-05/101179.htm )介绍了hadoop2.0 federation的基本架构和基本原理,本文接着先介绍单独配置federation,在下一篇文章中会继续介绍同时配置HA和federation。 1 准备
星哥玩云
2022/07/01
3790
Hadoop2.0 federation的配置
Hadoop完全分布式搭建
一、介绍 Hadoop2.0中,2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,Quorum Journal Node(JournalNode)集群或者Nnetwor
用户1263954
2018/06/22
1.4K0
【九】Hadoop3.3.4HA高可用配置
在 Hadoop 生态系统中,NameNode 是文件系统的中心管理器,负责管理 HDFS 的元数据。为了避免单点故障(Single Point of Failure,SPOF),Hadoop 引入了 NameNode 的高可用性架构。主要组件包括:
火之高兴
2024/08/04
3820
Hadoop2.7.6_08_Federation联邦机制 1.1. HDFS-federation图解2.1. 注意事项3.1. 部署3.2. 环境变量3.3. c
本文章是在 Hadoop2.7.6_07_HA高可用 的基础上完成的,所以不清楚的可参见这篇文章。
踏歌行
2020/10/15
7910
Hadoop2.7.6_08_Federation联邦机制
    




        1.1. HDFS-federation图解2.1. 注意事项3.1. 部署3.2. 环境变量3.3. c
大数据必知必会:Hadoop(4)高可用集群安装
高可用集群是在多个节点上运行进程来实现Hadoop集群,并在集群中提供两个NameNode、两个ResourceManager节点。
wux_labs
2023/02/09
1K1
Hadoop HDFS-高可用集群部署
前面介绍高可用集群部署的几个组件,本小节就以常见的3节点来搭建一个高可用的HDFS集群。基于下面的规划来实现(实际为了简单,这里的ZooKeeper使用的单节点)。由于进程比较多,所以我这里给了每台机器8G内存,实际4G应该也可以。
运维小路
2025/07/17
1500
Hadoop HDFS-高可用集群部署
hadoop-spark-hive-hbase配置相关说明
或者 ./runRemoteCmd.sh '~/och200/zookeeper/bin/zkServer-initialize.sh --myid=1' zoo
用户3003813
2018/09/06
7060
Hadoop完全分布式搭建部署
1)在各个JournalNode节点上,输入以下命令启动journalnode服务:(前提zookeeper集群已启动)
星哥玩云
2022/08/08
5340
Hadoop完全分布式搭建部署
Hadoop集群配置
hadoop集群配置 1.多台机器ssh免密配置 修改用户名 # 1.更改hostname hostnamectl --static set-hostname <主机名> scp传输文件 scp <文件路径> <目标账号@地址>: 目标路径 scp /etc/hosts root@hadoop2: /etc/ ssh免密登录 # 配置公钥 ssh-keygen # 配置免密登录 ssh-copy-id <目标ip> 2. 多台主机时间核对 所有机器安装ntp yum -y
俺也想起舞
2019/07/24
1.5K0
Hadoop高可用(HA)集群搭建
HA:High Available,高可用 在Hadoop 2.0之前,在HDFS集群中NameNode存在单点故障 (SPOF:A Single Point of Failure) 对于只有一个NameNode的集群,如果NameNode机器出现故障(比如宕机或是软件、硬件升级),那么整个集群将无法使用,直到NameNode重新启动
CoderJed
2018/09/13
4.5K0
Hadoop高可用(HA)集群搭建
相关推荐
HDFS Federation(HDFS 联邦)(Hadoop2.3)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档