首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark应用程序崩溃后如何在Yarn中保留Spark executor日志

Spark应用程序崩溃后,可以通过以下步骤在Yarn中保留Spark executor日志:

  1. 首先,需要在Spark应用程序中配置相关参数来保留executor日志。可以通过设置以下参数来实现:
代码语言:txt
复制

spark.eventLog.enabled=true

spark.eventLog.dir=<日志存储目录>

spark.executor.logs.rolling.maxRetainedFiles=<保留的日志文件数>

代码语言:txt
复制
  • spark.eventLog.enabled=true:启用Spark事件日志记录。
  • spark.eventLog.dir=<日志存储目录>:指定Spark事件日志的存储目录。
  • spark.executor.logs.rolling.maxRetainedFiles=<保留的日志文件数>:指定要保留的executor日志文件数。
  1. 确保Yarn的日志聚合功能已启用。Yarn的日志聚合功能可以将应用程序的日志收集到一个统一的位置,方便查看和管理。可以通过以下参数来启用Yarn的日志聚合功能:
代码语言:txt
复制

yarn.log-aggregation-enable=true

yarn.log-aggregation.retain-seconds=<日志保留时间>

代码语言:txt
复制
  • yarn.log-aggregation-enable=true:启用Yarn的日志聚合功能。
  • yarn.log-aggregation.retain-seconds=<日志保留时间>:指定要保留的日志的时间,单位为秒。
  1. 提交Spark应用程序到Yarn集群并运行。在应用程序运行期间,executor的日志将被写入到指定的日志存储目录中。
  2. 当Spark应用程序崩溃后,可以通过以下步骤在Yarn中查看并保留executor日志:
  • 使用Yarn的日志聚合工具来查看日志。可以使用以下命令来查看应用程序的日志:
代码语言:txt
复制
 ```
代码语言:txt
复制
 yarn logs -applicationId <应用程序ID>
代码语言:txt
复制
 ```
代码语言:txt
复制
 其中,`<应用程序ID>`是Spark应用程序在Yarn中的唯一标识符。
  • 在日志中查找executor的日志文件。executor的日志文件通常以<应用程序ID>和executor的ID命名,可以根据这些信息来查找对应的日志文件。
  • 将需要保留的executor日志文件复制到其他位置进行备份或进一步分析。

在腾讯云中,可以使用Tencent Spark Streaming服务来运行Spark应用程序,并通过Tencent Cloud Monitor来监控和管理应用程序的日志。具体产品介绍和相关链接如下:

  • Tencent Spark Streaming:Tencent Spark Streaming是腾讯云提供的一种实时流处理服务,支持运行Spark应用程序并自动管理日志。详细信息请参考Tencent Spark Streaming产品介绍
  • Tencent Cloud Monitor:Tencent Cloud Monitor是腾讯云提供的一种监控和管理云资源的服务,可以用于监控Spark应用程序的日志。详细信息请参考Tencent Cloud Monitor产品介绍
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • 调优 | Apache Hudi应用调优指南

    通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。 输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在Spark2.4.0版本之后去除了该限制),如果有更大的输入,则相应地进行调整。我们建议设置shuffle的并发度,配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism,以使其至少达到inputdatasize/500MB。 Off-heap(堆外)内存:Hudi写入parquet文件,需要使用一定的堆外内存,如果遇到此类故障,请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存:通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作,因此执行程序的内存应足以容纳此文件。另外,Hudi会缓存输入数据以便能够智能地放置数据,因此预留一些 spark.memory.storageFraction通常有助于提高性能。 调整文件大小:设置 limitFileSize以平衡接收/写入延迟与文件数量,并平衡与文件数据相关的元数据开销。 时间序列/日志数据:对于单条记录较大的数据库/ nosql变更日志,可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据,它往往更加庞大,每个分区的记录更多。在这种情况下,请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度,以加速目标索引查找时间,另外可考虑一个以事件时间为前缀的键,这将使用范围修剪并显着加快索引查找的速度。 GC调优:请确保遵循Spark调优指南中的垃圾收集调优技巧,以避免OutOfMemory错误。[必须]使用G1 / CMS收集器,其中添加到spark.executor.extraJavaOptions的示例如下: -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误:如果出现OOM错误,则可尝试通过如下配置处理:spark.memory.fraction=0.2,spark.memory.storageFraction=0.2允许其溢出而不是OOM(速度变慢与间歇性崩溃相比)。 以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

    02

    大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。   目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目,Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。   大一统的软件栈,各个组件关系密切并且可以相互调用,这种设计有几个好处:   1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。   2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了,一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。   3、能够构建出无缝整合不同处理模型的应用。   Spark 的内置项目如下:

    02

    spark面试题目_面试提问的问题及答案

    1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。standby节点要从zk中,获得元数据信息,恢复集群运行状态,才能对外继续提供服务,作业提交资源申请等,在恢复前是不能接受请求的。另外,Master切换需要注意2点 1)在Master切换的过程中,所有的已经在运行的程序皆正常运行!因为Spark Application在运行前就已经通过Cluster Manager获得了计算资源,所以在运行时Job本身的调度和处理和Master是没有任何关系的! 2) 在Master的切换过程中唯一的影响是不能提交新的Job:一方面不能够提交新的应用程序给集群,因为只有Active Master才能接受新的程序的提交请求;另外一方面,已经运行的程序中也不能够因为Action操作触发新的Job的提交请求; 2.Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么? 答:因为程序在运行之前,已经申请过资源了,driver和Executors通讯,不需要和master进行通讯的。 3.Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么? 答:1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;好处:作业特别多时,资源复用率高,适合粗粒度;不好:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。 4.如何配置spark master的HA? 1)配置zookeeper 2)修改spark_env.sh文件,spark的master参数不在指定,添加如下代码到各个master节点 export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk01:2181,zk02:2181,zk03:2181 -Dspark.deploy.zookeeper.dir=/spark” 3) 将spark_env.sh分发到各个节点 4)找到一个master节点,执行./start-all.sh,会在这里启动主master,其他的master备节点,启动master命令: ./sbin/start-master.sh 5)提交程序的时候指定master的时候要指定三台master,例如 ./spark-shell –master spark://master01:7077,master02:7077,master03:7077 5.Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思? 答:常见的大的稳定版本有Spark 1.3,Spark1.6, Spark 2.0 ,Spark1.6.0的数字含义 1)第一个数字:1 major version : 代表大版本更新,一般都会有一些 api 的变化,以及大的优化或是一些结构的改变; 2)第二个数字:6 minor version : 代表小版本更新,一般会新加 api,或者是对当前的 api 就行优化,或者是其他内容的更新,比如说 WEB UI 的更新等等; 3)第三个数字:0 patch version , 代表修复当前小版本存在的一些 bug,基本不会有任何 api 的改变和功能更新;记得有一个大神曾经说过,如果要切换 spark 版本的话,最好选 patch version 非 0 的版本,因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的,有可能会有一些隐藏的 bug 或是不稳定性存在,所以最好选择 1.2.1, … 1.6.1 这样的版本。 通过版本号的解释说明,可以很容易了解到,spark2.1.1的发布时是针对大版本2.1做的一些bug修改,不会新增功能,也不会新增API,会比2.1.0版本更加稳定。 6.driver的功能是什么? 答: 1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到E

    02
    领券