开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

EMR spark未遵守executor conf的数量

EMR（Elastic MapReduce）是亚马逊AWS提供的一项云计算服务，用于处理大规模数据集的分布式处理框架。EMR支持多种计算框架，其中包括Spark。

Spark是一种快速、通用的集群计算系统，可用于大规模数据处理和分析。它提供了丰富的API和工具，支持多种编程语言，如Scala、Java和Python。Spark的一个关键概念是Executor，它是在集群中运行的计算单元。

根据提供的问答内容，问题是关于EMR Spark未遵守Executor配置的数量。这可能是指在EMR集群中配置的Executor数量与实际运行时的数量不一致。

要解决这个问题，可以采取以下步骤：

检查集群配置：首先，确保在EMR集群配置中正确设置了所需的Executor数量。可以通过EMR控制台或使用AWS CLI进行配置。
检查Spark配置：确认Spark的相关配置是否正确。可以通过查看Spark的配置文件（spark-defaults.conf）来检查。确保executor.instances参数设置为所需的数量。
检查资源限制：确保EMR集群的资源限制足够支持所需的Executor数量。这包括CPU、内存和存储资源。如果资源不足，可以考虑调整集群规模或升级到更高配置的实例类型。
检查日志和错误信息：查看EMR集群和Spark的日志文件，以了解是否有任何错误或警告信息。这些日志可以提供有关Executor数量未遵守配置的更多细节。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云提供了一系列云计算服务，包括弹性MapReduce（EMR）和云服务器（CVM）等。您可以通过以下链接了解更多信息：

弹性MapReduce（EMR）：腾讯云的大数据处理和分析服务，支持Spark等计算框架。详情请参考：https://cloud.tencent.com/product/emr
云服务器（CVM）：腾讯云提供的可扩展的云计算实例，可用于运行各种应用程序和服务。详情请参考：https://cloud.tencent.com/product/cvm

请注意，以上链接仅供参考，具体产品和服务选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

EMR入门学习之通过SparkSQL操作示例（七）

导语：Spark 为结构化数据处理引入了一个称为 Spark SQL 的编程模块。它提供了一个称为 DataFrame 的编程抽象，并且可以充当分布式 SQL 查询引擎。

03

Container exited with a non-zero exit code 134 Container exited code 134

--driver-class-path "$yarn_client_driver_classpath" \

04

深入理解Spark 2.1 Core （八）：Standalone模式容错及HA的原理与源码分析

第五、第六、第七篇博文，我们讲解了Standalone模式集群是如何启动的，一个App起来了后，集群是如何分配资源，Worker启动Executor的，Task来是如何执行它，执行得到的结果如何处理，以及app退出后，分配了的资源如何回收。

03

「EMR 开发指南」之 Kylin 快速构建 Cube

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

01

Notes: Spark metrics

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

02

基于SSSD同步OpenLDAP账号

涉及组件版本为：hdfs-3.2.2,yarn-3.2.2,openldap-2.4.44,spark-3.2.2,krb5-1.15.1

03

Spark Core源码精读计划16 | 通过ExecutorAllocationManager实现动态Executor分配

按照SparkContext初始化的顺序，接下来就轮到调度系统的三大金刚——SchedulerBackend、TaskScheduler、DAGScheduler——出场了。与它们相关的细节非常多，绝不是一两篇文章能够讲清楚的，所以我们之后讲到Spark作业执行时，再自然地回过头详细看它们。本篇来讲解SparkContext初始化的倒数第二个组件：Executor分配管理器，即ExecutorAllocationManager。前面已经讲过，ExecutorAllocationManager可以通过与集群管理器联系，根据当前的负载动态增加或删除Executor，是一个比较智能的机制。

01

腾讯云EMR使用说明: 配置工作流

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

spark-submit介绍

spark-submit脚本通常位于/usr/local/spark/bin目录下，可以用which spark-submit来查看它所在的位置，spark-submit用来启动集群中的应用，它使用统一的提交接口支持各种类型的集群服务器。为了将应用发布到集群中，通常会将应用打成.jar包，在运行spark-submit时将jar包当做参数提交。

01

Spark参数配置说明

1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件

05

Spark 2.2 on K8S Dynamic Resource Allocation

离线计算的 Spark 任务中，会提供「最小副本数」作为离线计算任务的 Executor 数。也就是说，当 Spark Job 最大的资源数就是500个 Executor，这样会导致 task 数量较多的任务一直在等待资源，并发度其实是被限制的，当然，写成1000个，也可能会导致资源浪费的问题。task 数量多，并行处理数为 cores * executors = 2 * 500 = 1000，也就是说同时处理1000个 task。

03

用PySpark开发时的调优思路（下）

下面我们就来讲解一些常用的Spark资源配置的参数吧，了解其参数原理便于我们依据实际的数据情况进行配置。

04

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

02

Spark性能调优01-资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。 Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。

02

Apache Kylin的实践与优化

从2016年开始，美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎，但是随着业务的高速发展，在构建和查询层面都出现了效率问题。于是，技术团队从原理解读开始，然后对过程进行层层拆解，并制定了由点及面的实施路线。本文总结了一些经验和心得，希望能够帮助业界更多的技术团队提高数据的产出效率。

03

Spark性能调优06-JVM调优

再JVM虚拟机中，当创建的对象的数量很多时，Eden 和 Survior1 区域会很快的满溢，就需要进行频繁地 Minor GC，这样会导致有一些生命周期较短的对象迅速长到15岁并放入到老年代中，导致老年代中存放大量的短生命周期的对象(正常请况下，老年代应该存放的是数量比较少并且会长期使用的对象，比如数据库连接池)，当老年代满溢后，会进行Full GC，Full GC是开启一个很消耗性能和时间的线程，而且不管 Minor GC 还是 Full GC 都会导致 JVM 的工作线程停止，因为 Scala 也是基于 JVM 的编程语言，所以运行 Spark 程序和运行 Java 程序在 JVM 中的内存分配情况是相同的。

01

【技术博客】Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合

06

Spark性能优化指南——基础篇

原文：https://tech.meituan.com/spark-tuning-basic.html

02

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spakr数据调优(文末附完整文档)

一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task，都是以每个task一条线程的方式，多线程并发运行的。

01

Spark-submit 参数调优完整攻略

该参数主要用于设置该应用总共需要多少executors来执行，Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数，并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况，太少了无法充分利用集群资源，太多了则难以分配需要的资源。

02

Spark性能调优方法

主要原因是SparkSQL是一种声明式编程风格，背后的计算引擎会自动做大量的性能优化工作。

03

Spark系列(三)Spark的工作机制

什么时候才能回归到看论文，写感想的日子呀~刚刚交完房租的我血槽已空。看了师妹关于Spark报告的PPT，好怀念学生时代开组会的时光啊，虽然我已经离开学校不长不短两个月，但我还是非常认真的翻阅了，并作为大自然的搬运工来搬运知识了。

03

Spark2.3.1使用技巧

因为在spark-submit时配置的executor-memory 2g等没有生效，后来问同事说他也碰到这样的问题，解决方案就是动态的分配executor,官方文档,中文文档

02

Pyspark学习笔记（二）--- spark-submit命令

http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications,

02

如何调优Spark Steraming

云计算和大数据密不可分，这里有必要详细讨论下我的老本行——大数据领域。未来几年，我们将很荣幸地见证大数据技术的容器化。首先我们用几篇文章深入地了解一下大数据领域的相关技术。

05

spark on mesos 两种运行模式

原文地址：http://blog.csdn.net/lsshlsw/article/details/47104913 Spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式，细粒度模式在spark2.0后开始弃用。细粒度模式优点 spark默认运行的就是细粒度模式，这种模式支持资源的抢占，spark和其他frameworks以非常细粒度的运行在同一个集群中，每个application可以根据任务运行的情况在运行过程中动态的获得更多或更少

04

Spark资源调优

Spark 作者：章华燕编辑：龚赛概述 1 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效

07

基于Apache Hudi的多库多表实时入湖最佳实践

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

01

Spark on Kubernetes PodTemplate 的配置

本文主要讲 Apache Spark 在 on Kubernetes 的 PodTemplate 的问题，以及也会讲到 Spark Operator 里关于 PodTemplate 的问题，当然也会讲到 Apache Spark 2.2 on Kubernetes 那个 Fork 的版本，感兴趣的同学可以往下看看。

03

[1015]spark-submit提交任务及参数说明

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。

02

Spark 性能调优之资源调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

06

Spark性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

Spark性能调优-Shuffle调优及故障排除篇（万字好文）

在划分stage时，最后一个stage称为FinalStage，它本质上是一个ResultStage对象，前面的所有stage被称为ShuffleMapStage。

04

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

01

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

随着大数据技术架构的演进，存储与计算分离的架构能更好的满足用户对降低数据存储成本，按需调度计算资源的诉求，正在成为越来越多人的选择。相较 HDFS，数据存储在对象存储上可以节约存储成本，但与此同时，对象存储对海量文件的写性能也会差很多。

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

随着大数据技术架构的演进，存储与计算分离的架构能更好的满足用户对降低数据存储成本，按需调度计算资源的诉求，正在成为越来越多人的选择。相较 HDFS，数据存储在对象存储上可以节约存储成本，但与此同时，对象存储对海量文件的写性能也会差很多。

04

Spark Kubernetes 的源码分析系列 - scheduler

这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器，来调度生成 Executor Pod 的。

03

浅析SparkContext中的组件与创建流程

在Spark框架中，应用程序的提交离不开Spark Driver，而Spark Driver的初始化始终围绕SparkContext的初始化，可以说SparkContext是Spark程序的发动机引擎，有了它程序才能跑起来，在spark-core中，SparkContext重中之重，它提供了很多能力，比如生成RDD，比如生成广播变量等，所以学习SparkContext的组件和启动流程有助于剖析整个Spark内核的架构。

03

「EMR 开发指南」之 Hue 配置工作流

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

02

Spark SQL报错：org.apache.spark.sql.catalyst.errors.package$TreeNodeException 排查记录

在EMR集群上按小时跑的spark sql 任务有时会失败，在driver端的日志中可以看到报错： org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree

Spark2.3.0 使用spark-submit部署应用程序

Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。可以通过一个统一的接口使用 Spark 所有支持的集群管理器，因此不必为每个集群管理器专门配置你的应用程序。

04

Apache Spark 2.2.0 中文文档 - Submitting Applications | ApacheCN

Spark的调度系统

一，简介 Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可以理解为SparkContext内部调度。之所以会出现这种情况，主要是生产中可能会希望一个SparkContext作为服

08

Spark踩坑记：Spark Streaming+kafka应用及调优

该文介绍了如何利用Spark Streaming进行实时数据处理，包括批处理和流处理。文章首先介绍了Spark Streaming的基本概念、适用场景、工作原理和关键概念，然后详细讲解了如何利用Spark Streaming进行批处理和流处理，以及如何处理Kafka等分布式消息队列。最后，作者提供了一些优化建议，以提升Spark Streaming的性能和稳定性。

03

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

引言随着大数据技术架构的演进，存储与计算分离的架构能更好的满足用户对降低数据存储成本，按需调度计算资源的诉求，正在成为越来越多人的选择。相较 HDFS，数据存储在对象存储上可以节约存储成本，但与此同时，对象存储对海量文件的写性能也会差很多。腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务，支持 Spark、Hbase、Presto、Flink、Druid 等大数据框架。近期，在支持一位 EMR 客户时，遇到典型的存储计算分离应用场景。客户使用了 EMR

02

3万字长文，PySpark入门级学习教程，框架思维

关于PySpark，我们知道它是Python调用Spark的接口，我们可以通过调用Python API的方式来编写Spark程序，它支持了大多数的Spark功能，比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法，那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark，让我们对于这个神器有一个框架性的认识，知道它能干什么，知道去哪里寻找问题解答，争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说，马上开始！

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭