我们如何预先确定Spark作业的数量？

根据我的经验，Spark驱动程序可以为给定的应用程序运行多个作业，这些作业被分阶段分解为每个执行器的任务。我似乎不能理解的是，什么时候以及为什么一个sparkcontext会运行多个作业？

浏览 5提问于2017-08-28得票数 0

2回答

Submitted在提交员工节点/作业IOException后无休止地重新提交

、、、

在我们的应用程序中，我们有一个内置的火花独立集群(Version2.4.3)，它通过submit主URL接收主数据引擎加载程序提交的作业。在不同的VM上有3个工作从节点。有趣的是，由于一些IOException，我张贴在一个非常有限和神秘的格式，以限制系统内部。主程序假定它需要一次又一次地将相同的作业/应用程序提交给，相同的工作人员(10次，数千次)。工人应用程序&#x

浏览 1提问于2020-04-28得票数 0

回答已采纳

2回答

星火如何独立实施资源分配

我一直在阅读Spark的源代码，但我仍然无法理解Spark是如何独立实现资源隔离和分配的。例如，Mesos使用LXC或Docker来实现容器，以限制资源。那么，如何独立地实现这一点。例如，我在一个执行器中运行了10个线程，但是Spark只给了执行器一个内核，那么如何保证这10个线程只在一个cpu内核上运行。经过下面的测试代码，发现火花独立资源分配在某种程度上是假的。我只有一个执行者(执行者)，只给执行者一个核心(机器总共有6个核心)

浏览 10提问于2016-11-26得票数 3

回答已采纳

1回答

如何设置apache spark应用程序的执行参数

我们设置了一个多节点集群，用于测试具有4个节点的Spark应用程序。每个节点具有250 48，48个核心。在一个节点上运行master，在3个节点上运行从节点。我们已经使用scala开发了一个spark应用程序。我们使用spark-submit选项来运行作业。现在，这是我们的观点，需要更多的澄清才能继续进行。问题1:运行spark作业的最佳选项

浏览 1提问于2017-05-02得票数 0

2回答

使用Cassandra的Spark任务

、、、

我是Spark和Cassandra的新手一种观察是，spark作业的任务数量增加了w.r.t数据增长。正因为如此，我们在获取数据时面临着大量的延迟。应该考虑什么来提高Cassandra在Spark

浏览 1提问于2015-09-08得票数 2

1回答

在EMR中运行并行作业时触发提交配置

、、、

我们目前正在使用Datapipeline中的HadoopActivity任务在EMR集群上运行并行Spark作业。默认情况下，较新版本的EMR集群将spark dynamic allocation设置为true，这将根据负载增加/减少所需的执行器数量。那么，我们是否需要在spark-submit中设置任何其他属性，例如内核数量、执行器内存等，或者最好是让EMR集群动态处理它？

浏览 2提问于2017-11-27得票数 1

1回答

Apache中的MultipleOutputs 0.20.203

可能重复：干杯!

浏览 2提问于2011-06-14得票数 1

1回答

是什么决定了spark应用程序中的作业数量

、

以前我的理解是，一个动作会在spark应用程序中创建一个职位。但是让我们看看下面的场景，其中我只是使用.range()方法创建一个数据帧因为我的spark.default.parallelism是10，所以结果数据帧是10个分区现在我只是在数据帧上执行.show()和.count()操作df.count() 现在，当我检查了spark历史记录时，我可以看到.show()的3个作业</

浏览 1提问于2021-03-24得票数 0

2回答

如何控制Spark* job在写入时创建的输出部品文件的数量？*

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。/path/in/hdfs"); ORSpark job在最终输出目录中创建了大量的小零件文件。据我所知，Spark<

浏览 4提问于2015-07-06得票数 2

回答已采纳

2回答

对于YARN中的单个队列，如何将state=RUNNING中spark应用的数量限制为1？

、、

我有很多火种的工作。通常，我将我的spark作业提交给yarn，我有一个选项是--yarn_queue，它告诉它进入哪个yarn队列。我已经在页面上找到了一个容量调度器。

浏览 1提问于2017-03-03得票数 3

1回答

是什么决定了Spark中操作的映射器和减法器的数量

我正在阅读，这篇文章谈到了基于映射器和reducers任务的数量生成的文件数量。你能帮帮我吗。

浏览 2提问于2018-11-16得票数 0

1回答

"spark.sql.shuffle.partitions“配置是否影响非sql洗牌？

、、、

在星火作业中，我们没有太多的SQL (这是我知道的问题，但目前这是一个事实)。我想优化我们的星火洗牌分区的大小和数量，以优化我们的火花使用。我在很多资料中看到，设置spark.sql.shuffle.partitions是一个很好的选择。但是，如果我们几乎不使用spark，它会有什么效果吗？

浏览 3提问于2022-04-18得票数 1

回答已采纳

1回答

集成火花和弹簧引导

、、

在与记录器依赖项进行斗争之后，我终于用常用的"java -jar“命令成功地启动了spring引导应用程序。编译后的Jar包含mongodb库：825351 Mon Jul 30 14:42:22 CEST 2018 BOOT-INF/lib/mongo-spark-connector_2.11有没有人知道如何让火花看到它需要的罐子？编辑：按照@Ramdev

浏览 0提问于2018-09-24得票数 0

回答已采纳

1回答

spark历史记录服务器不显示作业或阶段

、

我们正在尝试使用spark历史服务器来进一步改进我们的spark工作。spark作业正确地将事件日志写入HDFS，并且spark历史服务器也可以访问此事件日志:我们确实在spark历史服务器作业列表中看到了该作业，但除了环境变量和执行器之外，所有内容都是空的……关于如何让spark历史服务器显示所有内容(例如，我们</e

浏览 2提问于2015-11-23得票数 0

2回答

如何克服AWS胶作业中的“设备上无空间”错误

、、

我在PySpark中使用了AWS作业从超过10 TB的s3拼板文件中读取数据，但是作业在执行Spark查询时失败了。所以我们试图增加工人的数量。是否有方法将星火本地临时目录配置为s3而不是本地文件系统？或者我们可以在胶水工人上安装EBS音量。我曾尝试在Spark会话构建

浏览 1提问于2020-12-28得票数 10

1回答

资源匮乏下Kubernetes上的Spark作业无限期等待SPARK_MIN_EXECUTORS

、

我正在使用Spark 3.0.1，并在Kubernetes上进行项目spark部署，其中Kubernetes代理spark作业的集群管理器，spark使用客户端模式提交作业。如果群集没有足够的资源(CPU/内存)用于最小数量的执行器，则执行器将无限期地处于挂起状态，直到资源释放。假设集群配置为： total Memory=204Gifree memory= 4Gi <e

浏览 7提问于2021-02-05得票数 0

3回答

如何设置火花壳的纱线队列？

、

我在spark shell中执行一些spark(scala) sql代码。我想知道我正在使用哪个队列，如果可能的话，我想知道我正在使用多少内存和执行器，以及如何优化它？

浏览 22提问于2018-12-29得票数 5

回答已采纳

2回答

是否有限制可以使用的容器数量的Hive on Hue (CDH 5.9.3)的配置设置？

、、

这是我们组中的一个普遍问题，我们的Hive查询经常扩展到消耗CDH集群上大多数可用的纱线执行器和内存。虽然根本的问题在于表中分区的数量和连接的复杂性，但我们不能自由地重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的

浏览 14提问于2017-10-12得票数 3

回答已采纳

1回答

Apache Flink -为多租户应用程序多次运行相同的任务

、、、、

我们有一个多租户应用程序，其中维护每个租户的消息队列。我们已经实现了一个Flink作业来处理消息队列中的流数据。基本上，每个消息队列都是Flink作业中的一个源。这是建议的做法吗？还是可以根据租户的数量多次运行同一个作业(使用一个源)？我们预计每个租户都会产生不同数量的数据。在多任务方法中会有什么可伸缩性的优势吗？方法1:具有

浏览 2提问于2020-07-03得票数 0

回答已采纳

1回答

AWS Glue -作业监视:作业执行、活动执行器和最大需要的执行器未显示

、、、、

我在AWS Glue中设置了一个ETL作业，设置如下: Glue v.3.0、Pythonv.3、Sparkv.3.1和支持10个工人和作业度量的工人类型G.1X。当我查看作业完成后的作业指标时，我在作业执行中看到:活动执行器、已完成阶段&只显示已完成阶段的数量的最大需要的执行器。火花会话已经根据下面的代码设置。为什么我不能看到活动执行者的数量和最大需要<

浏览 5提问于2022-03-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Submitted在提交员工节点/作业IOException后无休止地重新提交

星火如何独立实施资源分配

如何设置apache spark应用程序的执行参数

使用Cassandra的Spark任务

在EMR中运行并行作业时触发提交配置

Apache中的MultipleOutputs 0.20.203

是什么决定了spark应用程序中的作业数量

如何控制Spark* job在写入时创建的输出部品文件的数量？*

对于YARN中的单个队列，如何将state=RUNNING中spark应用的数量限制为1？

是什么决定了Spark中操作的映射器和减法器的数量

"spark.sql.shuffle.partitions“配置是否影响非sql洗牌？

集成火花和弹簧引导

spark历史记录服务器不显示作业或阶段

如何克服AWS胶作业中的“设备上无空间”错误

资源匮乏下Kubernetes上的Spark作业无限期等待SPARK_MIN_EXECUTORS

如何设置火花壳的纱线队列？

是否有限制可以使用的容器数量的Hive on Hue (CDH 5.9.3)的配置设置？

Apache Flink -为多租户应用程序多次运行相同的任务

AWS Glue -作业监视:作业执行、活动执行器和最大需要的执行器未显示

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐