开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

hadoop集群为什么要奇数台

Hadoop集群为什么要奇数台？

Hadoop是一个开源的分布式计算平台，用于存储和处理大规模数据集。在Hadoop集群中，节点的数量通常建议是奇数台，而不是偶数台。以下是解释为什么要选择奇数台Hadoop集群的原因：

解决主节点选举问题：Hadoop集群中有一个主节点（NameNode），负责管理和控制整个集群。当集群中的节点数量是奇数时，可以避免出现主节点选举的死锁问题。如果节点数量是偶数，可能会出现选举过程中的平局情况，导致无法决定谁应该成为主节点。
高可用性：奇数台的节点数量可以提供更高的系统可用性。当节点数量是奇数时，集群可以容忍某些节点的故障，仍然能够维持正常的运行。如果节点数量是偶数，当一半节点发生故障时，集群将无法正常工作。
数据均衡：Hadoop集群中的数据通常会被划分成多个块，并存储在不同的节点上。当节点数量是奇数时，数据块的分布更均衡，每个节点上存储的数据量相对较少，读取和写入操作可以更高效。
故障恢复：奇数台的节点数量可以更好地支持故障恢复。当某个节点出现故障时，可以使用其他节点上的备份数据进行恢复操作。如果节点数量是偶数，可能会出现数据恢复时的冲突，增加了故障恢复的复杂性。

总结起来，选择奇数台Hadoop集群可以解决主节点选举问题、提供更高的系统可用性、实现数据均衡以及支持故障恢复。在腾讯云的产品中，适用于Hadoop集群的产品有腾讯云数据工场（https://cloud.tencent.com/product/df）、弹性MapReduce（https://cloud.tencent.com/product/emr）等。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

工具 | 大数据系列（3）——Hadoop集群完全分布式坏境搭建

文|指尖流淌前言上一篇我们讲解了Hadoop单节点的安装，并且已经通过VMware安装了一台CentOS 6.8的Linux系统，咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群，闲言少叙，进入本篇的正题。技术准备 VMware虚拟机、CentOS 6.8 64 bit 安装流程我们先来回顾上一篇我们完成的单节点的Hadoop环境配置，已经配置了一个CentOS 6.8 并且完成了java运行环境的搭建，Hosts文件的配置、计算机名等诸多细节。其实完成这一步之后我们就已经完成了

06

ZooKeeper故障节点替换过程详解

一、环境描述我的生产环境ZooKeeper 版本3.4.6，5个节点组成的ZooKeeper集群。ZooKeeper集群为一套8个节点的Hadoop集群和HBase 集群提供高可用保障。二、问题描述因为某些特殊原因，需要替换掉myid为5（IP：10.10.10.30）的ZooKeeper节点，故障节点IP：10.10.10.30替换为10.10.10.37。10.10.10.37节点是现有环境的namenode节点，Hadoop用户、相关目录，授权、hosts文件已经满足ZooKeeper的部署要求

05

ZooKeeper集群安装与Hbase全分布式安装

Apache ZooKeeper 是一个面向分布式应用程序的高性能协调服务器。要实现Hbase全分布式安装，需要安装ZooKeeper，当然后面kafka也需要安装这个东西。

01

大数据系列（1）——Hadoop集群坏境搭建配置

文|指尖流淌前言关于时下最热的技术潮流，无疑大数据是首当其中最热的一个技术点，关于大数据的概念和方法论铺天盖地的到处宣扬，但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案，更有很多数据相关的项目比如弄几张报表，写几个T-SQL语句就被冠以“大数据项目”，当然了，时下热门的话题嘛，先把“大数据”帽子扣上，这样才能显示出项目的高大上，得到公司的重视或者高层领导的关注。首先，关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前，关于大数据项目可以真正

05

配置Hadoop集群客户端

在Hadoop和Spark集群搭建好了以后，如果我们需要向集群中发送、获取文件，或者是执行MapReduce、Spark作业，通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时，集群和客户端的结构如下图所示（简化图，没有考虑NameNode的高可用），本文将介绍如何快速搭建一个集群客户端（有时也叫gateway）。

04

2021年大数据Hadoop（三）：Hadoop国内外应用

Yahoo是Hadoop的最大支持者，Yahoo的Hadoop机器总节点数目已经超过42000个，有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点（每个节点双路4核心CPUboxesw，4×1TB磁盘，16GBRAM）。总的集群存储容量大于350PB，每月提交的作业数目超过1000万个。

04

大数据系列（1）——Hadoop集群坏境搭建配置

关于时下最热的技术潮流，无疑大数据是首当其中最热的一个技术点，关于大数据的概念和方法论铺天盖地的到处宣扬，但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案，更有很多数据相关的项目比如弄几张报表，写几个T-SQL语句就被冠以“大数据项目”，当然了，时下热门的话题嘛，先把“大数据”帽子扣上，这样才能显示出项目的高大上，得到公司的重视或者高层领导的关注。

04

如何在VMware上部署Hadoop

本文主要讲述如何在虚拟机(VM)上部署Hadoop，因为虚拟化技术很多家都有，但本文讨论的是VMware。建议阅读人群为：系统管理员，架构师或者开发人员。

大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署

7、启动集群 a)格式化集群在第一个节点执行 hadoop namenode -format

02

基于Hadoop集群的大规模分布式深度学习

前言在过去的十年里，Yahoo一直持续投资建设和扩展Apache Hadoop集群，到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的，我们

Hive多用户模式安装

hadoop01-hadoop04：hadoop集群 hadoop01：MySQL服务器 hadoop02：Hive服务端 hadoop03-hadoop04：Hive客户端

02

大数据成长之路------hadoop集群的部署(2)

7、启动集群 a)格式化集群在第一个节点执行 hadoop namenode -format

03

基于Hadoop集群的大规模分布式深度学习

前言在过去的十年里，Yahoo一直持续投资建设和扩展Apache Hadoop集群，到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的，我们在自己的服务器上开发了可扩展的机器学习算法，用于分类、排序和计算词向量。目前，Hadoop集群已成为Yahoo大规模机器学习的首选平台。深度学习（Deep Learning, DL）是雅虎很多产品的核心技术需求。在2015 RE.WORK深度学习峰会上，Yahoo Flickr团队（Simon Osinder

08

部署Spark2.2集群(on Yarn模式)

部署spark2.2集群on Yarn模式的前提，是先搭建好hadoop集群环境，请参考《Linux部署hadoop2.7.7集群》一文，将hadoop集群环境部署并启动成功；

02

Yahoo基于Hadoop集群的大规模分布式深度学习

前言在过去的十年里，Yahoo一直持续投资建设和扩展Apache Hadoop集群，到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的，我

02

基于Hadoop集群的大规模分布式深度学习

转自|CSDN:http://www.csdn.net/ 前言在过去的十年里，Yahoo一直持续投资建设和扩展Apache Hadoop集群，到目前为止共有超过4万台服务器和600PB数据分布在19

08

Hive单用户模式安装

hadoop01-hadoop04：hadoop集群 hadoop01：MySQL服务器 hadoop02：Hive

03

带你快速搭建Hadoop的HA集群!

相信在看了上一篇博客《带你快速认识NamenodeHA和Yarn HA,为搭建HadoopHA集群打下基础!》后，大家一定对于如何搭建HA集群非常期待٩(๑❛ᴗ❛๑)۶不要慌，本篇博客即将为大家带来搭建HA集群的详细教程!

01

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件，为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。（比如，IO密集型工作负载的用户将会为每个核心主轴投资更多）。在这个博客帖子中，你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用。在这个过程中，你也将学到Hadoop管理员应该考虑到各种因素。结合

03

眼前一亮的大数据毕业设计来咯~

好多人问我，这种「基于大数据平台的xxxx」的毕业设计要怎么做。这个可以参考之前写得关于我大数据毕业设计的文章大数据方向毕业设计，选题和实现思路。这篇文章是将对之前的毕设进行优化。

02

国外、国内Hadoop的应用现状

摘要：Hadoop是一个开源的高效云计算基础架构平台，其不仅仅在云计算领域用途广泛，还可以支撑搜索引擎服务，作为搜索引擎底层的基础架构系统，同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国外、国内Hadoop的主要应用现状。

02

搭建hadoop集群必参考的文章：为Hadoop集群选择合适的硬件配置

问题导读 1.哪些情况会遇到io受限制？ 2.哪些情况会遇到cpu受限制？ 3.如何选择机器配置类型？ 4.为数据节点/任务追踪器提供的推荐哪些规格？随着Apache Hadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件，为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。（比如，IO密集型工作负载的用户将会为每个核心主轴投资更多）。在

07

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

01

从主机名谈Hadoop集群管理

最近处理的数据越来越复杂，互联网上很火的Hadoop久闻盛名，想去学习一下。按照网上的例子配置了一番，老是出错误。但是正因为这个错误，才引发出对Hadoop集群管理的话题。

01

【上进小菜猪】使用Ambari提高Hadoop集群管理和开发效率:提高大数据应用部署和管理效率的利器

Hadoop是一种开源的分布式处理框架，用于在一组低成本硬件的集群上存储和处理大规模数据集。Ambari是一种基于Web的管理工具，用于轻松管理和监控Hadoop集群。在本文中，我们将探讨如何使用Ambari在Hadoop集群上运行应用程序，包括编写示例代码并将其部署到集群中。

02

技术分享 | 提升Hadoop性能和利用率你知道有哪些吗？

时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件，即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型，可以用来编写我们的业务逻辑并获取所需的数据。而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是，Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的

05

在腾讯云CVM上搭建Hadoop集群

本教程将介绍如何在腾讯云CVM上搭建Hadoop集群。Hadoop中是一个Apache的框架，可以让你通过基本的编程处理跨服务器集群的分布式方式的大型数据集。Hadoop提供的可扩展性允许你从单个服务器扩展到数千台计算机。它还在应用层提供故障检测，因此它可以检测和处理故障，作为高可用性服务。

05

Hadoop集群搭建，14张过程截图超详细教程

• Hadoop是由Apache基金会开源的分布式储存+分布式计算平台提供分布式的储存和计算

03

我攻克的技术难题 - 如何快速搭建Hadoop3集群

距离唯一一次搭建Hadoop集群，已是六年有余。那时候大数据的学习资料还是我从某宝25买来的，如今大数据已遍地开花。最近想写一些关于大数据的东西，例如Spark、flink等，想放在Yarn上跑，所以就从Hadoop的搭建开始写起。

04

京东万台规模Hadoop集群 | 分布式资源管理与作业调度

吴怡燃，京东大数据平台高级技术专家，擅长大数据平台的资源管理与调度系统的开发与建设。目前专注于以万台分布式调度系统及深度学习平台的开发与建设。

03

Hadoop集群运维

场景1：namenode节点故障，active namenode节点状态切换？如何恢复？

01

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

04

大数据技术笔试题库

12、在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（）。

03

如何为Hadoop集群选择正确的硬件

当我们想搭建一个Hadoop大数据平台时，碰到的第一个问题就是我们到底该如何选择硬件。

05

Hadoop中HDFS读取和写入的工作原理

HDFS和HBase是Hadoop中两种主要的存储文件系统，两者适用的场景不同，HDFS适用于大文件存储，HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的，也可以说是block策略。

02

HDFS部署最佳实践

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- HDFS是组成Hadoop平台的关键服务，部署的正确与否直接影响到你整个集群的健康状态，以及所有应用能否正常的运行或者高效的运行，包括SQL，MapReduce，Spark等。前面Fayson也介绍过《CDH网络要求(Lenovo参考架构)》，《CDH安装前置准备》，《如何为Had

04

Hadoop 部署模式

Hadoop的部署模式有四种：本地模式、伪分布式模式、完全分布式模式、HA完全分布式模式。

02

大数据入门：Hadoop伪分布式集群环境搭建教程

在大数据的学习过程中，对于集群的掌握，从理论到实操都是要熟练的。然而很多小伙伴在学习之初，往往遇到这样那样的问题。今天我们就从大数据入门的角度，来分享一份Hadoop伪分布式集群环境搭建教程。

02

《使用IBCS虚拟专线搭建Hadoop集群：详细步骤与优势》

摘要：本文将详细介绍如何使用IBCS虚拟专线搭建Hadoop集群，同时阐述IBCS虚拟专线在提高Hadoop集群性能和稳定性方面的优势。

02

Docker部署Hadoop集群

前几天写了文章“Hadoop 集群搭建”之后，一个朋友留言说希望介绍下如何使用Docker部署，这个建议很好，Docker不仅在生产环境威力巨大，对于我们在自己电脑中搭建学习实验环境更是非常便利搭建一个集群环境时需要多台服务器，对于我们个人，这通常是个门槛，需要使用虚拟机，安装操作系统，然后运行起来多个虚机安装操作系统是个不太轻松的任务，并且运行多个虚机对个人电脑性能也有一定要求，这些门槛影响了很多小伙伴的实践积极性使用Docker的话就简单了，不用安装操作系统，直接下载一个镜像，如centos，这样

07

Hadoop安装与配置详细教程「建议收藏」

我的三台CentOS7服务器：主机：master（192.168.56.110）从机：slave0（192.168.56.111）从机：slave1（192.168.56.112）

03

hadoop集群知识小结

1 ）Hadoop 集群启停脚本（包含 HDFS ，Yarn ，Historyserver ）：

03

eBay：如何用HDFS分层策略优化数千节点、数百PB的数据存储

目前在eBay的Hadoop集群有数千个节点，支持成千上万的用户使用。他们的Hadoop集群存储数百PB的数据。这篇文章中将探讨eBay如何基于数据使用频率优化大数据存储。这种方法有助于有效地降低成本。 eBay对于大家来说都非常熟悉，是美国的一家电商网站，对于他们来讲每天的数据都是海量的。目前在eBay的Hadoop集群有数千个节点（具体不方便透漏），支持成千上万的用户使用。他们的Hadoop集群存储数百PB的数据。这篇文章中将探讨eBay如何基于数据使用频率优化大数据存储。这种方法有助于有效地降低成本。

06

HBase篇--搭建HBase完全分布式集群

完全分布式基于hadoop集群和Zookeeper集群。所以在搭建之前保证hadoop集群和Zookeeper集群可用。可参考本人博客地址

03

安装和配置Hadoop集群(3节点)

在安装和配置Hadoop(单节点) 这篇文章中，已经进行了Hadoop单机伪集群模式的部署。生产环境中，Hadoop都是以集群方式进行安装和部署的，否则，就不需要使用Hadoop了，分布式存储和分布式运算是Hadoop提供的核心功能。这篇文章将在单机安装的基础上，进行3个节点Hadoop集群的安装，因此如果你还没有单机安装过Hadoop，那么请先查看一下单机安装的这篇文章。

04

CentOS7搭建Hadoop-3.3.0集群

这篇文章是基于Linux系统CentOS7搭建Hadoop-3.3.0分布式集群的详细手记。

03

手把手教你入门Hadoop（附代码&资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

06

手把手教你入门Hadoop（附代码资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

04

使用hadoop进行大规模数据的全局排序

1. Hellow hadoop~~! Hadoop（某人儿子的一只虚拟大象的名字）是一个复杂到极致，又简单到极致的东西。说它复杂，是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成，你运行的每一个任务都要在这些计算机上做任务的分发，执行中间数据排序以及最后的汇总，期间还包含节点发现，任务的重试，故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成，没事儿罢个工什么的，实在是再寻常不过的事情。而说其简单，则是因为，上面说到的那些

05

Hadoop之--集群环境搭建

07

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭