开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Oozie:为什么错误日志显示在mapreduce作业中，而不是Spark作业中？

Oozie是一个用于协调和调度Hadoop作业的工作流引擎。它可以管理和监控作业的执行，并提供错误日志和状态信息。

在错误日志显示在mapreduce作业中而不是Spark作业中的情况下，可能有以下几个原因：

Oozie的设计初衷：Oozie最初是为Hadoop的MapReduce作业设计的，因此在错误日志中显示的信息主要是与MapReduce作业相关的。Spark作业是在后来引入的，因此可能没有被完全集成到Oozie的错误日志中。
日志记录方式的不同：MapReduce和Spark作业在执行过程中会生成不同的日志信息。MapReduce作业的日志通常会被记录在Hadoop集群的日志文件中，而Spark作业的日志则可能会被记录在Spark的日志文件中。Oozie可能更容易获取和显示MapReduce作业的日志信息。
Oozie版本的限制：不同版本的Oozie可能对不同类型的作业支持程度不同。如果使用的是较旧的Oozie版本，可能会导致Spark作业的错误日志无法正常显示。

综上所述，错误日志显示在mapreduce作业中而不是Spark作业中可能是由于Oozie的设计初衷、日志记录方式的不同或Oozie版本的限制所导致的。为了更好地了解和解决这个问题，建议查阅Oozie的官方文档或寻求相关技术支持。

相关搜索:为什么在mapreduce作业中需要setMapOutputKeyClass方法在Java中提交作业时，如何解决Spark jobserver中的“作业加载失败”错误？laravel在本地运行失败的作业，而不是将其推回到队列中为什么用户注册而不是在mongoose中显示错误11000？在虚拟机服务器中设置CI的作业，而不是在docker映像中为什么同样的逻辑在Java中失败并显示索引错误，而不是JavaScript？在jenkins中获取父作业的内部版本号，而不是升级的内部版本号在工作项的作业状态中，即使处理因异常而失败，" Status“也会显示”success 为什么贴纸包在列表中显示贴纸，而不是在MSMessagesAppViewController的网格中为什么我在Python中得到错误的hmac结果而不是Perl？如何在警报中显示错误信息而不是在AspNet MVC中显示span类是否可以通过在实际脚本中列出参数，而不是在作业配置中列出参数，从而在Jenkins中创建参数化脚本管道 HTML:为什么Android浏览器在键盘中显示"Go"而不是"Next"？为什么Ava js不在本地显示错误记录，而只在ci中显示？我希望客户端Firebase日志显示在StackDriver中，而不是用户的浏览器中为什么在flutter应用中登录后会显示黑屏而不是背景图片？为什么Android webview只在type ="number"而不是type ="text"时才在键盘中显示"Next"？如何将异步错误记录到控制台，而不是在flutter中显示ErrorWidget？为什么这可以在for循环中工作，而不能在forEach中工作？(数组不是构造函数错误)为什么在生产环境中运行我的rails应用程序时会出现此错误，而不是在开发中？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop的生态系统介绍

Tez项目的目标是支持高度定制化，这样它就能够满足各种用例的需要，让人们不必借助其他的外部方式就能完成自己的工作，如果 Hive和 Pig 这样的项目使用Tez而不是MapReduce作为其数据处理的骨干...另一个不同的是HBase基于列的而不是基于行的模式。...2.15 Spark GraphX（Spark图计算） graphx是一个图计算引擎，而不是一个图数据库，它可以处理像倒排索引，推荐系统，最短路径，群体检测等等。...，而Storm更是流计算技术中的佼佼者和主流。...2.23 Oozie（作业流调度系统） Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。

1.2K4 0

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

格式化原始web日志（1）准备文件与目录（2）建立一个用于Mapper的转换（3）建立一个调用MapReduce步骤的作业（4）执行作业并验证输出六、提交Spark作业 1....节点上执行包含在JAR文件中的MapReduce作业 Oozie job executor 执行Oozie工作流 Pentaho MapReduce 在Hadoop中执行基于MapReduce...如果不选，MapReduce作业会自己执行，而Kettle在提交MapReduce作业后立即会执行下一个作业项。除非选中该项，否则Kettle的错误处理在这里将无法工作。...在本示例中，我们先为Kettle配置Spark，然后修改并执行Kettle安装包中自带的Spark PI作业例子，说明如何在Kettle中提交Spark作业。 1....Master URL：因为yarn运行在CDH集群，而不是Kettle主机上，所以这里选择“yarn-cluster”。

6.3K2 1

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

这里建立一个内容如下的shell脚本文件regular_etl.sh，调用Kettle的命令行工具kitchen.sh执行此作业，并将控制台的输出或错误重定向到一个文件名中带有当前日期的日志文件中： #...使用Oozie主要基于以下两点原因：在Hadoop中执行的任务有时候需要把多个MapReduce作业连接到一起执行，或者需要多个作业并行处理。...而SSH动作已经从Oozie schema 0.2之后的版本中移除了。所有由动作节点触发的计算和处理任务都不在Oozie中运行。它们是由Hadoop的MapReduce框架执行的。...Oozie支持很多种动作节点，包括Hive脚本、Hive Server2脚本、Pig脚本、Spark程序、Java程序、Sqoop1命令、MapReduce作业、shell脚本、HDFS命令等等。...图7-11 “Oozie job executor”作业项执行该Kettle作业，日志中出现以下错误： Oozie job executor - ERROR (version

6.4K5 4

hadoop记录

因此，NameNode 可以直接从 FsImage 加载最终的内存状态，而不是重放编辑日志。这是一种更有效的操作，并减少了 NameNode 的启动时间。检查点由辅助 NameNode 执行。...为什么我们在有大量数据集的应用程序中使用 HDFS 而不是在有很多小文件时？与分布在多个文件中的少量数据相比，HDFS 更适合单个文件中的大量数据集。...“MapReduce”框架中用户需要指定的主要配置参数有：分布式文件系统中作业的输入位置作业在分布式文件系统中的输出位置数据输入格式数据输出格式包含地图功能的类包含 reduce...RDD 中的分区数据是不可变的和分布式的，这是 Apache Spark 的一个关键组件。 Oozie 和 ZooKeeper 面试问题 49....以同样的方式，当我们对外部刺激做出反应时，Oozie 协调器会对数据的可用性做出反应，否则就会休息。 50. 如何在 Hadoop 中配置“Oozie”作业？

9673 0

大数据Hadoop生态圈介绍

Jobtracker：master节点，只有一个，管理所有作业，任务/作业的监控，错误处理等，将任务分解成一系列任务，并分派给Tasktracker。...Flink VS Spark Spark中，RDD在运行时是表现为Java Object，而Flink主要表现为logical plan。...被编号的日志数据称为此日志数据块在队列中的偏移量（offest），偏移量越大的数据块越新，即越靠近当前时间。生产环境中的最佳实践架构是Flume+KafKa+Spark Streaming。...12、Oozie（工作流调度器） Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。...Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。

9672 0

【20】进大厂必须掌握的面试题-50个Hadoop面试

16.为什么在具有大量数据集的应用程序中使用HDFS，而不是在存在大量小文件的情况下使用HDFS？与分散在多个文件中的少量数据相比，HDFS更适合单个文件中的大量数据集。...用户需要在“ MapReduce”框架中指定的主要配置参数是：作业在分布式文件系统中的输入位置作业在分布式文件系统中的输出位置数据输入格式数据输出格式包含地图功能的类包含reduce函数的类...RDD中的分区数据是不可变的且是分布式的，这是Apache Spark的关键组件。 Oozie和ZooKeeper面试问题 49.什么是Apache ZooKeeper和Apache Oozie？...Oozie协调器\：这些是Oozie作业，这些作业在数据可用时触发。将此视为我们体内的反应刺激系统。...以同样的方式，当我们对外部刺激做出响应时，Oozie协调员会对数据的可用性做出响应，而其他情况则不然。 50.如何在Hadoop中配置“ Oozie”作业？

1.9K1 0

hadoop记录 - 乐享诚美

因此，NameNode 可以直接从 FsImage 加载最终的内存状态，而不是重放编辑日志。这是一种更有效的操作，并减少了 NameNode 的启动时间。检查点由辅助 NameNode 执行。...为什么我们在有大量数据集的应用程序中使用 HDFS 而不是在有很多小文件时？与分布在多个文件中的少量数据相比，HDFS 更适合单个文件中的大量数据集。...“MapReduce”框架中用户需要指定的主要配置参数有：分布式文件系统中作业的输入位置作业在分布式文件系统中的输出位置数据输入格式数据输出格式包含地图功能的类包含 reduce...RDD 中的分区数据是不可变的和分布式的，这是 Apache Spark 的一个关键组件。 Oozie 和 ZooKeeper 面试问题 49....以同样的方式，当我们对外部刺激做出反应时，Oozie 协调器会对数据的可用性做出反应，否则就会休息。 50. 如何在 Hadoop 中配置“Oozie”作业？

2283 0

【Dr.Elephant中文文档-4】开发者指南

1.Dr.Elephant设置请按照快速安装说明操作 2.先决条件 2.1.Play/Activator 参照快速安装说明操作中的Step 3 2.2.Hadoop/Spark on Yarn 为了在本地部署...关于伪分布式模式在 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common...$> mysql -u root -p mysql> create database drelephant 可以在Dr.Elephant的配置文件app-conf/elephant.conf中配置数据库的...Elephant的全部功能，需要提供以下 4 个ID 作业定义 ID：整个作业流程中定义的唯一 ID。...Elephant只能在执行过程中（Mapreduce 作业级别）显示作业的性能数据。除了上述的 4 个 ID 之外，Dr.

1.2K2 0

大数据Hadoop生态圈各个组件介绍（详情）

JobTracker：master节点，只有一个，管理所有作业，任务/作业的监控，错误处理等，将任务分解成一系列任务，并分派给TaskTracker。...和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍 Cluster Manager：在standalone模式中即为Master主节点，控制整个集群...开发者可以在同一个应用程序中无缝组合使用这些库。 Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。...Oozie(工作流调度器） Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。...Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。

4.9K2 1

HADOOP生态圈知识概述

相关概念： Jobtracker：master节点，只有一个，管理所有作业，任务/作业的监控，错误处理等，将任务分解成一系列任务，并分派给Tasktracker。...Event：日志文件、avro对象等源文件。 9. Oozie(工作流调度器） Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。...Oozie工作流是放置在控制依赖DAG（有向无环图 DirectAcyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。...Flink vs Spark Spark中，RDD在运行时是表现为Java Object，而Flink主要表现为logical plan。...被编号的日志数据称为此日志数据块在队列中的偏移量（offest），偏移量越大的数据块越新，即越靠近当前时间。生产环境中的最佳实践架构是Flume+KafKa+Spark Streaming。

2.6K3 0

大数据方面核心技术有哪些？新人必读

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。...用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。...这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成（因为有些大作业可能会执行很久(几个小时甚至几天)）。...Impala将整个查询分成一执行计划树，而不是一连串的MapReduce任务，相比Hive没了MapReduce启动时间。...Spark拥有Hadoop MapReduce所具有的特点，它将Job中间输出结果保存在内存中，从而不需要读取HDFS。

1.7K0 0

五分钟学后端技术：一篇文章教你读懂大数据技术栈！

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。...用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。...这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成（因为有些大作业可能会执行很久(几个小时甚至几天)）。...Impala将整个查询分成一执行计划树，而不是一连串的MapReduce任务，相比Hive没了MapReduce启动时间。...Spark拥有Hadoop MapReduce所具有的特点，它将Job中间输出结果保存在内存中，从而不需要读取HDFS。

1.1K0 0

Hadoop及其生态系统的基本介绍【转载】

HIVE（数据仓库）由facebook开源，最初用于解决海量结构化的日志数据统计问题。 Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。...它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。...Oozie(工作流调度器） Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。...Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。...和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍 17.

5892 0

CDH——Cloudera’s Distribution Including Apache Hadoop

shiffer) 如何将合适的版本启动安装, 集群异常预警, 版本自动兼容这些都是在搭建大数据环境下架构师需要考虑的事情补充: 为什么在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程...在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中，考虑到向下兼容的问题， NameNode 进程没有嵌入 ZKFC 中的代码，而另外开辟一个进程 ZKFC 。...为什么集群个数更倾向于奇数个，而不是偶数个？以 3 台集群和 4 台集群举例： 3 台集群，若其中有一台宕机了，3 / 2 = 1.5 < 2,达到了过半的条件，集群可以运行。...调试和开发 Pig开发和调试 oozie任务的开发，监控，和工作流协调调度 Hbase数据查询和修改，数据展示 Hive的元数据（metastore）查询 MapReduce任务进度查看，日志追踪创建和提交...查看该任务的MapReduce ? 查看MapReduce中的Map任务 ? 查看map 任务的日志信息 ? 通过标准输出查看workflow.xml 定义的工作流结果 ?

1.5K3 0

HADOOP生态圈简介

Hadoop的核心是YARN,HDFS和Mapreduce 在未来一段时间内，hadoop将于spark共存，hadoop与spark 都能部署在yarn、mesos的资源管理系统之上下面将分别对以上各组件进行简要介绍...Oozie(工作流调度器） Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。...Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。...Yarn是下一代 Hadoop 计算平台，yarn是一个通用的运行时框架，用户可以编写自己的计算框架，在该运行环境中运行。用于自己编写的框架作为客户端的一个lib，在运用提交作业时打包即可。...和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍 17.

7651 0

Hadoop 生态系统的构成（Hadoop 生态系统组件释义）

所具有的优点；但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce...尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。...这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像 Hadoop 一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。...Oozie Oozie由 Cloudera 公司贡献给 Apache 的基于工作流引擎的开源框架,是用于 Hadoop平台的开源的工作流调度引擎,是用来管理 Hadoop 作业,属于 web 应用程序，...由 Oozie client 和 Oozie Server 两个组件构成,Oozie Server 运行于Java Servlet 容器（Tomcat）中的 web 程序。

8832 0

Dr.Elephant实战常见问题及解决方法

主要分为hadoop的MapReduce，和spark作业信息采集。...的历史日志 SparkFetcher：通过SHS REST API拉取spark的eventlogs，需要spark版本在 1.5.0 以上。...3.2.2.问题点 MapReduce作业正常采集并分析，为什么spark作业没有分析数据？...首先参照上面hadoop版本打包问题检查，打包前是否同样在配置文件中修改为正确的spark版本检查hdfs上spark eventlogs存放目录是否产生了日志文件，以及程序是否有相应的操作权限如果使用了老版本的...为什么部分spark作业缺失，dr.elephant没有显示所有作业？

1.9K3 0

10级商用版Kettle作业调度工具taskctl免费开源

总结来说，利用自动化简化IT运维有以下好处：降低成本- 没有一家公司是不想降低成本的，而自动化运维可以通过提高效率、减少人为错误和人力需求，降低企业IT成本。...更可靠- 运维常常包括一些重复的但完全必要的工作，这也就是为什么它容易出错。当人为因素从这个过程中消除时，那些昂贵的人为错误也自然消失了，这对于具有多个操作系统的大型网络尤其有用。...传统运维方式想要满足这些需求是很困难的，而自动化运维工具则可以填补此类需求，在无需雇佣更多员工的情况下，最大限度地提高性能。调度工具对比 Oozie Oozie：训象人（调度mapreduce）。...一个基于工作流引擎的开源框架，Oozie需要部署到java servlet中运行，主要用于定时调度，多任务之间按照执行的逻辑顺序调度。...透过taskctl，个人和企业无需过多关注大数据底层存储和计算引擎的复杂的安装、繁琐的配置和日常运维，即可将自有的多来源业务系统数据进行集成和开发，形成数据资产，并赋能于自有作业场景，在云端轻松构建自有数据中台

2.3K4 0

如何使用Oozie API接口向Kerberos集群提交Java程序

Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群外的节点向集群提交MapReduce...作业的方式有多种，前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》，本篇文章主要介绍如何在...6.总结 ---- 通过Oozie API提交作业，需要先定义好workflow.xml文件参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties...在指定HDFS上运行的jar或workflow的路径时需要带上HDFS的路径，否则默认会找到本地的目录向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos...认证的AuthOozieClient API接口 Fayson示例中使用的是Oozie Server的HA地址，所以不是Oozie默认的11000端口，关于Oozie Server HA的启用可以参考Fayson

2.6K7 0

【开源】etl作业调度工具性能综合对比

为什么需要调度系统？开局我们先扫盲。我们都知道大数据的计算、分析和处理，一般由多个任务单元组成（Hive、Sparksql、Spark、Shell等），每个任务单元完成特定的数据处理逻辑。...调度工具对比 Oozie Oozie：训象人（调度mapreduce）。...一个基于工作流引擎的开源框架，Oozie需要部署到java servlet中运行，主要用于定时调度，多任务之间按照执行的逻辑顺序调度。...Oozie支持Web，RestApi，Java API操作； Azkaban Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。...透过taskctl，个人和企业无需过多关注大数据底层存储和计算引擎的复杂的安装、繁琐的配置和日常运维，即可将自有的多来源业务系统数据进行集成和开发，形成数据资产，并赋能于自有作业场景，在云端轻松构建自有数据中台

2K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭