spark如何将训练任务均匀地分配给执行者？

文章/答案/技术大牛

发布

1回答

、

我已经设置了一个包含4个worker(每个有4个核心)和1个master的spark独立集群。每台都有Windows10操作系统。我向我们的spark独立集群提交了spark的ML示例: multilayer_perceptron_classification.py。但它是将所有任务都交给一个执行者在一个worker上执行。enter image description here 火花代码是(代码使用multilayer_perceptron_classification.py MLlib)： spark

浏览 33提问于2019-02-26得票数 0

回答已采纳

2回答

火花如何将分区分配给执行器

、、

我有一个性能问题，在分析了Spark之后，我发现了数据的倾斜性：一开始我认为分区分布不均匀，所以我分析了每个分区的行数，但这似乎很正常(没有异常值)：因此，现在的假设是，分区在执行程序中的分布并不均匀，问题是：如何将火花分区分配给执行者？"print(df.count()) 在发布此问题后，我进行了进一步的

浏览 1提问于2021-04-16得票数 3

回答已采纳

3回答

Spark :如何将我的记录均匀地分布在所有分区中

我有一个包含30条记录的RDD (键/值对:键是时间戳，值是JPEG字节数组) 我管理着30个执行者。我想将这个RDD重新划分为30个分区，这样每个分区就可以得到一条记录，并被分配给一个executor。有没有办法在Spark中我可以均匀地将我的记录分配到所有分区。

浏览 1提问于2015-11-18得票数 5

1回答

具有输入大小的Spark+yarn规模内存

、、

目前，我将spark.executor.memory和spark.yarn.executor.memoryOverhead设置为在大多数情况下都有效的“正常”值，但是某些键最终具有比平均值大得多的数据量理想情况下，我会有一个系统，在这个系统中，我可以发送一个作业，并拥有具有输入大小的executor级别的内存，但我知道这不是spark的模型。

浏览 0提问于2017-02-03得票数 3

1回答

如何在星火中计算虚拟内存？

、、

我在Hadoop上使用Spark，并想知道Spark如何将虚拟内存分配给executor。它是如何在星火上工作的？下面的说法是否正确？如果我给执行者内存=1GB，如果没有，那么虚拟内存是如何在星火中计算的？

浏览 2提问于2016-11-01得票数 2

1回答

spark何时以及如何在执行器上分发分区

、

spark如何将分区分配给executor。当我在spark shell中使用1个驱动程序和5个执行器运行以下代码行时： > var data = sc.textFile("file") // auto generates 2 partitions这似乎非常低效，因为在包含分区的每个节点上重复运行5个任务，而不是均匀地分布在节点上。对于在相同rdds上重复多次的迭代任务来说，效率低下是最明显的。所以我的问题是，spark如何

浏览 1提问于2016-12-07得票数 5

1回答

如何激发纱线的动态资源分配工作(关于NodeManagers)？

、

那么，如果我再加上更多的NM，执行者的数量会增加吗？我可以根据其他指标添加/删除执行者吗？

浏览 10提问于2017-06-20得票数 1

2回答

理解mesos上火花作业的资源分配

、

令人欣慰的是，我很好地控制了运行的执行者的数量和分配给每个人的资源。在上面的例子中，我知道我得到了240/8=30个执行器，每个执行器都有16 In的内存和8个内核。给定集群中每台机器上的内存，这相当于在每台机器上运行的不超过两个执行者。如果我想要更多的执行者，我可以这样做

浏览 2提问于2015-12-11得票数 6

回答已采纳

3回答

星星之火:在没有com.databricks.spark.avro的情况下读取avro文件

我想在spark中读取avro文件，但不幸的是，我的公司中的集群没有com.databricks.spark.avro。所以我试着这就产生了未解决的依赖关系。也试过这不会打开外壳。spark.read.format("com.databricks.<e

浏览 1提问于2018-03-28得票数 3

回答已采纳

2回答

为什么缓存小火花RDDs在Yarn中占用很大的内存分配？

、、、

缓存的RDDs (总共8)并不大，只是围绕着30G，然而，在Hadoop上，它表明Spark应用程序占用了大量内存(没有正在运行的活动作业)，即1.4T，为什么这么多？是否有任何潜在的火种配置/齐柏林配置可以导致这种现象？更新1 在检查Spark (齐柏林)

浏览 2提问于2020-12-22得票数 3

回答已采纳

3回答

PySpark PandasUDF on GCP -内存分配

、、、、

考虑提高spark.yarn.executor.memoryOverhead或禁用yarn.nodemarager.vmem-检查启用，因为纱-4714。spark = SparkSession.builder \ .config('spark.executor.memory', '180g') \ .config('spark.executor.cores', '63')

浏览 7提问于2020-09-25得票数 2

4回答

Spark任务似乎分配得不太好

、

我正在运行一个Spark作业，似乎任务分配得不太好(见附件)。有没有办法让任务分布得更均匀呢？谢谢!

浏览 1提问于2015-06-17得票数 6

1回答

pySpark容错配置

、

运行spark的VM工作人员托管在上，其中大多数都可以在执行过程中销毁(成本较低的可抢占VM)。当发生这种情况时，作业会失败，因为在失败的工人的容器日志中有此错误的任务正在被破坏的工人上失败：我尝试过将spark.task.maxFailures设置为1000，但这似乎不太有效:即使任务完成，任务似乎也不会自动重新分配，分配给该特定员工的任务的计算似乎回到了初始阶段。会不会有一种更容错的配置，简单地排除没有响应的执行者并重新分配他们的任务？如果被问

浏览 2提问于2015-11-18得票数 3

回答已采纳

1回答

如何在Nginx中使用hash_ip作为负载均衡器将客户端均匀地分发到服务器？

、、

我的问题是，当Nginx使用客户机IP进行散列时，它是否均匀地将客户端分配到服务器，而不管所使用的是什么客户端IP，还是取决于所使用的IP？如果它依赖于客户端IP，那么如何将客户端均匀地分配给服务器？此外，是否有任何方法检查hash_ip创建的散列表Nginx？

浏览 0提问于2015-11-12得票数 1

1回答

星星之火:通过UDF分配低数量的计算密集型任务。

、、、、

我的意图是基本上将这60项任务分配给5名工作人员，以便每个工作人员处理60/5 = 12任务。要做到这一点，我明白执行者的数目应相等于工人的数目。这似乎是这样的，运行sdf = spark.createDataFrame只使用单个工作人员，如

浏览 2提问于2021-09-28得票数 3

回答已采纳

1回答

优化火花资源以避免内存和空间的使用

、、

=10g、spark.sql.shuffle.partitions=500、spark.dynamicAllocation.enabled=truespark.shuffle.MetadataFetchFailedException40G分配给执行者，10G分配给开销。但是我想我已经达到极限了，因为我不能超过56。博客指出，如果我们手动计算资源，那么最好将属性设置为false，因为如果计算不一致，spark往往会错误地分

浏览 3提问于2021-01-24得票数 1

回答已采纳

1回答

Apache Spark DAGScheduler数据流

、、

我正在尝试理解Apache Spark调度程序到底是如何工作的。为此，我设置了一个包含一个master和两个worker的本地集群。我只提交了一个应用程序，它简单地读取4个文件(2个小文件(~10MB)和2个大文件(~1.1 the ))，连接它们并收集结果。另外，我在内存中缓存了这两个小文件。这就像是调度器不确定地工作。干杯, 吉姆

浏览 0提问于2018-02-27得票数 0

1回答

木星笔记本执行器是否动态分布在Apache中？

、、、、

或者，是动态分配的执行者，并在数据所在的节点(节点1、2和3)启动。在这种情况下，我的观察在纱线网络-用户界面一定是错误的。

浏览 3提问于2016-08-19得票数 3

回答已采纳

1回答

AWS胶水将所有任务分配给同一个工人

、、、

然而，该作业始终将所有文件分配给单个工作进程，而不是分布到所有工作进程。logInfo(54)): Initialized BlockManager: BlockManagerId(3, 172.31.0.109, 35849, None)这是下面的作业脚本：from awsglue.transforms import * from awsglue.utils importargs = getResolvedOptions(sy

浏览 34提问于2021-09-01得票数 0

1回答