开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

hadoop2.7.2多节点中的作业历史记录webui-19888在作业完成后不显示任何内容

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的分布式存储和处理。Hadoop的核心组件包括Hadoop Distributed File System（HDFS）和Hadoop MapReduce。

在Hadoop中，作业历史记录是指记录了作业的执行情况、任务的状态和统计信息等的日志文件。作业历史记录WebUI是Hadoop提供的一个Web界面，用于查看和分析作业历史记录。

然而，在hadoop2.7.2多节点环境中，有时候会出现作业历史记录WebUI在作业完成后不显示任何内容的情况。这可能是由于以下原因导致的：

配置错误：检查Hadoop配置文件中与作业历史记录相关的配置项，如mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address等，确保其正确配置。
权限问题：确保作业历史记录日志文件的权限正确设置，以便Hadoop用户可以访问这些文件。
日志文件损坏：检查作业历史记录日志文件是否完整且没有损坏。如果日志文件损坏，可以尝试删除这些文件并重新启动Hadoop集群，让Hadoop重新生成日志文件。
资源限制：作业历史记录WebUI需要一定的系统资源来显示作业历史记录，如果系统资源不足，可能导致WebUI无法正常显示内容。可以尝试增加系统资源或优化系统配置。

如果以上方法都无法解决问题，可以尝试查看Hadoop的官方文档或社区论坛，寻求更详细的帮助和解决方案。

对于Hadoop的相关产品和推荐，腾讯云提供了云原生数据仓库TDSQL、云原生数据仓库TDSQL-C、云原生数据仓库TDSQL-M、云原生数据仓库TDSQL-P等产品，用于支持大数据存储和分析需求。具体产品介绍和链接地址可以参考腾讯云官方网站的相关页面。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop jobhistory历史服务器介绍

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的，我们可以通过下面的命令来启动Hadoop历史服务器

01

快速学习-Oozie的部署

oozie-site.xml 属性：oozie.service.JPAService.jdbc.driver 属性值：com.mysql.jdbc.Driver 解释：JDBC的驱动

01

第20篇-不和谐如何索引数十亿条消息

另外Elasticsearch入门，我强烈推荐ElasticSearch新手搭建手册和这篇优秀的REST API设计指南给你，这两个指南都是非常想尽的入门手册。

00

Spark简介

2）文档查看地址：https://spark.apache.org/docs/3.1.3/

03

Spark简介

2）文档查看地址：https://spark.apache.org/docs/3.1.3/

02

保姆级教程：还愁不会搭建伪分布式吗？（其实很简单）

在上面三篇文章我们已经把基本环境搭建好了，也进行了相应的案例演示，下面我们将进入伪分布式的环境搭建，并运行实例，建议先看上面三篇文章在进行操作。看一百遍，不如手过一遍。快点拿起你的键盘和我一起操作起来吧。

01

Spark快速入门系列(5) | Spark环境搭建—standalone(2) 配置历史日志服务器

默认情况下，Spark程序运行完毕关闭窗口之后，就无法再查看运行记录的Web UI(4040)了，但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后, 依然能够查看运行过程。本篇博客，博主就为大家带来在Spark上配JobHistoryServer的详细过程。在 Spark-shell 没有退出之前, 我们是可以看到正在执行的任务的日志情况:http://hadoop102:4040. 但是退出 Spark-shell 之后, 执行的所有任务记录全部丢失. 所以需要配置任务的历史服务器, 方便在任何需要的时候去查看日志.

02

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

04

8h删 ComfyUI汉化500张工作流分享请收藏

在webui中我们可以使用大量的插件去汉化，翻译，使我们提示词的描述更加简洁，但是转到comfyui中，除了页面的汉化有没有类似的插件可以进行汉化翻译呢？当然也是有的，但是我不建议对页面进行汉化，一些翻译会造成与他人的节点不同，导致你导入别人的工作流时报错不能第一时间解决。

01

大数据面试题（四）：Yarn核心高频面试题

Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序等。

09

大数据面试题（四）：Yarn核心高频面试题

Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序等。

01

大数据之Hadoop面试官的11个灵魂拷问！

接下来还有很多大数据组件的灵魂拷问准备好了吗？各位小伙伴们！！！咱们下期再见！

06

【MapReduce】作业调试

因为yarn集群重启之后，作业的历史运行日志和信息就被清理掉了，对于定位历史任务的错误信息很不友好，所以首先开启History Server用于保存所有作业的历史信息。

03

一文教你快速了解伪分布式集群搭建(超详细!)

首先，我们需要知道配置伪分布式集群要修改的配置文件所有配置文件都在 /opt/module/hadoop-2.7.2/etc/hadoop/内

01

Hadoop3.0分布式集群安装知识

05

Hadoop3.0集群安装知识

问题导读 1.本文是如何定义master的？ 2.如何配置hadoop守护进程环境？ 3.配置Hadoop守护进程需要哪些配置文件？ 4.yarn-site配置文件，主要配置哪两个进程？ 5.mapred-site.xml配置文件，配置哪些内容？ 6.hadoop如何配置监测NodeManagers的健康状况？ 7.hadoop3.0slaves做了什么更改？ 8.如何单独启动DataNode？ 9.访问hadoop web界面都有哪些接口？目的本文档介绍如何安装和配置Hadoop集群，从少数节点到数

07

Hadoop（十三）分析MapReduce程序

刚才发生了悲伤的一幕，本来这篇博客马上就要写好的，花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受！想哭，但是没有办法继续站起来。

02

在Hadoop YARN群集之上安装，配置和运行Spark

Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。Spark最初设计用于运行Scala应用程序，但也支持Java，Python和R.

03

第一天：spark基础

Hadoop 的概念可追溯到 2003，2004 Google2篇论文(老版三辆马车)，2011年发布1.0版本，2012年发布稳定版。Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。

03

Cloudera Manager监控介绍

Cloudera Manager提供了许多功能，用于监控集群组件（主机，服务）的运行状况和性能，以及集群上运行的作业的性能和资源情况。具体的包括以下项目：

08

Hadoop框架：单服务下伪分布式集群搭建

以下配置文件所在路径：/opt/hadoop2.7/etc/hadoop，这里是Linux环境，脚本配置sh格式。

01

大数据Flink进阶（十一）：Flink History Server配置使用

基于Standalone或者Yarn模式提交Flink任务后，当任务执行失败、取消或者完成后，可以在WebUI中查看对应任务的统计信息，这些统计信息在生产环境中对我们来说非常重要，可以知道一个任务异常挂掉前发生了什么，便于定位问题。

01

【Hadoop 分布式部署三：基于Hadoop 2.x 伪分布式部署进行修改配置文件】

首先在 hadoop-senior 的这台主机上进行解压 hadoop2.5 按照伪分布式的配置文件来进行配置

07

颤抖吧Hadoop 、干碎大数据之Hadoop完全分布式平台搭建

【讲在前面】 Hadoop完全分布式集群的搭建需要多台虚拟机，每台虚拟机单独安装配置比较麻烦，因此我们可以在VMware中创建一个虚拟机后完成公共的基础配置然后直接创建完整克隆，这样效率比较高。 Hadoop完全分布式集群的搭建是典型的主从架构，即一台master节点多台slave节点，这里我采用三台虚拟机，一台作为master节点，另外两台作为slave1节点和slave2节点。

03

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化项目，2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目，Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处： 1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。 2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。 3、能够构建出无缝整合不同处理模型的应用。 Spark 的内置项目如下：

02

快速学习-HDFS的数据流

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block上传到哪几个DataNode服务器上。 4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。 5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。 6）dn1、dn2、dn3逐级应答客户端。 7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。 8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

01

使用SQL Server维护计划实现数据库定时自动备份

在SQL Server中出于数据安全的考虑，所以需要定期的备份数据库。而备份数据库一般又是在凌晨时间基本没有数据库操作的时候进行，所以我们不可能要求管理员每天守到晚上1点去备份数据库。要实现数据库的定时自动备份，最常用的方式就是使用SQL Server代理中的作业。启动SQL Server Agent服务，然后在其中新建作业，作业中添加1个备份步骤，类型是T-SQL脚本，然后在命令中输入如下SQL语句，该语句实现了对数据库TestDB1的完整备份，备份文件在C盘Backup文件夹中，文件名就是TestDB1+当时备份的日期字符串.bak。

01

大数据随记 —— Hadoop 环境搭建

在每个虚拟机的 hosts 文件后面增加自己所安装的虚拟机的 IP 地址以及主机名。

01

Hadoop分布式环境搭建(简单高效~)

因为在之前的博客在Linux中部署集群(零基础速学！)中,上述的准备操作均已详细描述,这里对于准备工作的内容就不做过多讲解。接下来正式开始进行集群环境的搭建

01

大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。 Hadoop官方网站：http://hadoop.apache.org/

02

Hadoop（十三）分析MapReduce程序

前言　　刚才发生了悲伤的一幕，本来这篇博客马上就要写好的，花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受！想哭，但是没有办法继续站起来。　　前面的一篇博文中介绍了什么是MapReduce，这一篇给大家详细的分享一下MapReduce的运行原理。一、写一个MapReduce程序例子 1.1、数据准备　　准备要处理的数据（假定数据已经存放在hdfs的/data目录下）　　　　$> hdfs dfs -ls /data 　　看到测试数据目录。天气数据目录/data/weather,专利数据目

09

初尝腾讯云HAI和StableDiffusion模型进行文生图

进入高性能应用服务购买界面，这里我选择的是最便宜的一款。新用户有优惠，1块钱抵10元，可以尝试8个小时。

00

教程|Cloudera数据科学工作台CDSW之旅

Cloudera数据科学工作台CDSW是一个安全的企业数据科学平台，它使的数据科学家能够通过为其提供自己的分析管道来加快从勘探到生产的工作流程。CDSW使数据科学家能够利用现有的技能和工具（例如Python、R和Scala）在Hadoop集群中运行计算。

01

YARN——标签调度

hadoop2.7.2开始，yarn在容量调度器的基础上增加了标签调度功能，使用该功能的一个典型场景是：某个任务需要用到gpu资源，而gpu并非在每个节点上都有，通过对节点设置标签，可以使作业任务正确调度到含gpu资源的节点上，确保作业任务正确运行。

02

大数据Flink进阶（十）：Flink集群部署

Flink的安装和部署主要分为本地（单机）模式和集群模式，其中本地模式只需直接解压就可以使用，不用修改任何参数，一般在做一些简单测试的时候使用。本地模式在这里不再赘述。集群部署模式主要包含Standalone、Hadoop Yarn 、Kubernetes等，Flink可以借助以上资源管理器来实现分布式计算，目前企业使用最多的是Flink 基于Hadoop Yarn资源管理器模式，下面我们重点讲解Flink 基于Standalone集群、Yarn资源管理器以及Kubernetes集群部署方式。

03

Hadoop完全分布式安装

完全分布式安装部署，其实步骤上来说与伪分布式没有太大的区别，主要增加2台虚拟机部署称为一个3台的集群

03

100PB级数据分钟级延迟：Uber大数据平台（下）

到2017年初，我们的大数据平台被整个公司的工程和运营团队使用，使他们能够在同一个地方访问新数据和历史数据。用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB的数据和100000个vcores。每天支持100,000个Presto查询， 10,000个Spark作业，以及 20,000个Hive查询。我们的Hadoop分析架构遇到了可扩展性限制，许多服务受到高数据延迟的影响。

02

进击大数据系列（九）Hadoop 实时计算流计算引擎 Flink

Apache Flink 是一个框架和分布式处理引擎，用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行，并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache Storm、Spark Streaming、Apache Flink等，但能够同时支持低延迟、高吞吐、Exactly-Once（收到的消息仅处理一次）的框架只有Apache Flink。

02

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理，本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系本文结构首先，我们来分别部署一套hadoop、hbase、hive、spark，在讲解部署方法过程中会特殊说明一些重要配置，以及一些架构图以帮我们理解，目的是为后

大数据常用组件默认端口号

.colspan{ background:#f4f4f4; font-weight: bold;}

06

Hadoop高可用(HA)集群搭建

HA：High Available，高可用在Hadoop 2.0之前，在HDFS集群中NameNode存在单点故障 (SPOF：A Single Point of Failure) 对于只有一个NameNode的集群，如果NameNode机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到NameNode重新启动

02

Hadoop集群安装配置实验

一、环境四台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。 IP与主机名： 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划： 192.168.56.101做master，运行NameNode和ResourceManager进程。其它三台主机做slave，运行DataNode和NodeManager进程。操作系统：CentOS release 6.4 (Final) java版本：jdk1.7.0_75 hadoop版本：hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh（这里配置了任意两台机器都免密码）（1）分别在四台机器上生成密钥对： cd ~ ssh-keygen -t rsa 然后一路回车（2）在master上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ （3）在slave1上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ （4）在slave2上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ （5）在slave3上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此，免密码ssh配置完成。三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件（1）编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件，添加如下内容，如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>

01

hadoop（2.6）集群搭建

http://mirrors.hust.edu.cn/apache/hadoop/common/

01

Hadoop使用学习笔记（1）

本文是用的Hadoop版本是最新的2.7.2发行版。本文分两个机器环境，分别是研发环境和测试环境：

02

YARN的基础配置

添加：export JAVA_HOME=/opt/module/jdk1.8.0_144

00

【溯源反制】CDN&域前置&云函数-流量分析|溯源

使用CDN内容分发网络的多节点分布式技术，通过“加速、代理、缓存”隐藏在后面的静态文件或服务；最终实现对外暴露的是CDN多节点的公网域名IP，很难甚至无法溯源真实后端服务器的域名或IP

01

搭建hadoop集群的三种方式_hadoop集群部署

安装VMware，使用三台 Ubuntu18.04 虚拟机进行集群搭建，下面是每台虚拟机的规划：

04

【许晓笛】EOS 系统架构图解

相信关心 EOS 系统的同学肯定见过下面这张蓝图。对，目前只是一个蓝图，而且以 BM 的尿性，肯定在心理已经把这张图改的面目全非了（比如图中的 eosd 早就改名了）。所以这张图只能作为未来 EOS 发展方向的参考而已，目前的 EOS 还远没有这么复杂和完善。

01

AI绘画专栏之 SDXL 查看历史提示词的N种方法(44)

在使用stablediffusion进行绘画时，插件会自动记录输入的所有提示词，方便随时查看和回顾。

01

Hadoop完全分布式环境搭建(三节点)

本篇引用文章地址： https://blog.csdn.net/u014454538/article/details/81103986

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭