谷歌云spark。在整个处理过程中，一个集群工作线程保持空闲状态

在谷歌云（Google Cloud）上运行Apache Spark时，如果发现集群中的一个工作线程（Worker）在整个处理过程中保持空闲状态，可能有以下几种原因：

1. 资源分配不均

任务分配不均：Spark的任务调度器可能没有均匀地将任务分配给各个Worker。这可能是由于数据倾斜（Data Skew）或任务本身的复杂性不同导致的。
动态资源分配：如果你启用了Spark的动态资源分配功能，某些Worker可能在任务较少时被暂时释放资源。

2. 数据本地性

网络延迟：如果数据不在Worker所在的节点上，Worker需要从远程节点读取数据，这可能导致效率降低，甚至某些Worker在等待数据时处于空闲状态。
数据分区不合理：不合理的数据分区可能导致某些Worker处理的数据量远小于其他Worker。

3. 任务执行时间差异

长尾任务：如果某些任务执行时间特别长，而其他任务很快就完成了，那么一些Worker可能会在等待这些长尾任务完成时处于空闲状态。

4. 集群配置问题

Worker数量过多：如果集群中的Worker数量超过了实际需要的数量，可能会有多余的Worker处于空闲状态。
内存和CPU配置不当：不合理的内存和CPU配置可能导致某些Worker无法充分利用其资源。

5. Spark配置问题

调度器设置：Spark的调度器设置（如Fair Scheduler或Capacity Scheduler）可能需要调整以更好地分配任务。
并行度设置：Spark作业的并行度设置可能过低，导致Worker没有充分利用。

解决方案

1. 检查和优化数据分区

使用repartition或coalesce方法重新分区数据，确保任务均匀分布。

df.repartition(numPartitions)

2. 启用数据本地性优化

确保Spark配置中启用了数据本地性优化。

spark.conf.set("spark.locality.wait", "10s")

3. 监控和分析任务执行

使用Spark UI监控任务执行情况，找出执行时间长或资源消耗大的任务。
分析日志文件，查找可能的瓶颈。

4. 调整集群规模和资源配置

根据实际需求调整Worker的数量和资源配置。
使用Google Cloud的自动伸缩功能动态调整集群规模。

5. 优化Spark配置

调整调度器设置，确保任务公平分配。
增加并行度，充分利用集群资源。

spark.conf.set("spark.default.parallelism", "100")

示例代码

以下是一个简单的示例，展示如何重新分区和调整Spark配置：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Optimize Spark Job")
  .config("spark.locality.wait", "10s")
  .config("spark.default.parallelism", "100")
  .getOrCreate()

val df = spark.read.option("header", "true").csv("path/to/your/data.csv")

// 重新分区数据
val repartitionedDf = df.repartition(100)

// 执行你的Spark作业
repartitionedDf.write.mode("overwrite").parquet("path/to/output")

通过以上方法，你应该能够找到并解决导致Worker空闲的原因，从而提高Spark作业的整体效率。

页面内容是否对你有帮助？

有帮助

没帮助

谷歌云spark。在整个处理过程中，一个集群工作线程保持空闲状态

、

我正在运行一项工作，其中我结合了维基百科和维基百科的页面浏览量，并且我正在使用一个由两到三个节点组成的小型google集群。我的问题是，大多数时候，一个节点是完全空闲的，尽管我在开始作业之前尝试通过将数据分区到多个分区来提高并行度。此外，我根据Spark的parallelism参数对数据进行重新分区，但无论我尝试什么，都只有一个节点在使用中。我最后的努力是下面的脚本，它没有做太多的事情。它提高了工作节点的性能，但空闲</em

浏览 6提问于2017-03-16得票数 0

1回答

apache火花执行器和数据局部性

、

星火文学说如果在所有节点上都获得了执行者，并且在整个应用程序期间将一直分配给该应用程序，那么许多节点是否有可能仍然处

浏览 0提问于2018-07-28得票数 2

1回答

什么时候应该重新划分一个RDD？

、、

我知道我可以repartition一个RDD来增加它的分区，并使用合并来减少它的分区。我有两个问题，在阅读了不同的资源后，我无法完全理解。在生成RDD时，Spark将使用合理的默认设置(每个块一个分区，最初版本为64 in，现在为128 in)。但我也读到，建议使用2到3倍的核心运行作业。例如，假设我有一个10 3gb的.parquet文件，3个带有2个内核的执行器和每个3GB的内存。我应该重新划分吗？我应该使用多少分区？有什么更好的方式来做出这样的选择？

浏览 4提问于2017-08-18得票数 9

回答已采纳

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。而且看起来DataProc比DataFlow便宜一点。有没有人知道相对于DataProc，DataFlow的优缺点为什么谷歌同时提供这两种服务？

浏览 1提问于2017-09-27得票数 66

1回答

基于事件时间的Flink空闲状态保持

、、

这可能是一个简单的问题，但我无法在文档中显式地找到它:Flink的空闲状态保留是根据使用StreamExecutionEnvironment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime与示例的唯一不同是，在工作启动时，我编写了一个自定义源函数，最初从S3读取历史事件(处理最后N天的数据)，然后切换到Kafka获取新的传入事件。假设我将空闲状态<em

浏览 0提问于2020-09-30得票数 0

回答已采纳

0回答

Apache Spark能否加快从Oracle DB读取数百万条记录，然后将这些记录写入文件的过程？

、、、、

我是新来Apache-Spark的，我需要从Oracle数据库中读取数百万(~500万)条记录，然后对这些记录进行一些处理，并将处理后的记录写入一个文件。目前，这是在Java中完成的，在这个过程中-数据库中的记录被分类到不同的子集，基于一些数据标准-在Java进程中，4个线程并行运行-每个线程读取记录的子集，处理并将处理的记录写入新文件-最后将所有这些文件合并到单个文件中尽管如此，完成整个

浏览 9提问于2017-06-23得票数 1

1回答

不频繁发布消息的RabbitMQ最佳实践

、、

我有几个消息生成线程，它们只是偶尔发布消息(例如，短时间的消息突发，然后休眠6个小时)。在发布后启动一个新的连接并将其关闭是不是更好？或者，通过心跳来保持连接更好？至于消费者线程。处理每条消息并不需要很长时间(在心跳间隔内)，但大多数时候接收方连接是空闲的，因为没有发布消息。我注意到，通常情况下，如果连接处于空闲状态太长时间，它将被断开。这是预期的行为吗？我认为只有当整个使用者线程被长时间运行的消

浏览 0提问于2018-11-26得票数 0

2回答

如何在等待状态下调试Java线程

、、、

我试着用NFS连接器测试spark 1.6并提交作业，作业成功完成，并在控制台上打印结果。网络用户界面也说它已经完成了。然而，火花-提交永远不会终止。

浏览 13提问于2017-05-13得票数 0

回答已采纳

1回答

Google运行执行后台作业时总是分配CPU

、、、

我有一个web应用程序和一个后台工作人员服务运行在云运行。我不会用Popen调用阻止主线程，并立即返回响应。但是，经过15分钟的处理后，实例似乎仍然会死掉。根据文档，只要正在进行某种CPU处理(不太清楚)，这个<em

浏览 7提问于2022-01-24得票数 0

回答已采纳

1回答

自动标度星火簇

、、、

我在集群上运行了一个火花流作业。Spark作业从Kafka提取消息，并在将处理后的数据转储到数据库之前进行所需的处理。我已经按照当前负载调整了集群的大小。但这一负荷要求今后可能会上升/下降。我想知道的技术，以方便这种自动缩放而不重新启动的工作。如果使用kakfa (在我的例子中)，缩放变得更加复杂，因为我不希望分区在有状态流中被移动。目前，集群完全在内部，但是如果这有助于扩展用例，我不介意

浏览 2提问于2018-01-30得票数 1

2回答

创建许多小型星团还是较小数量的超大星团更好？

、、

我目前正在开发一个应用程序，可以使用Spark来处理大量的数据。数据是Apache (和其他)日志文件以及csv和json文件的混合。我的谷歌桶的目录结构如下所示： system_logsSpark作业从\input目录中获取所有数据，并将其放在\output目录中。有任意数量的*_logs目录。我目前的计划是将整个争用任务分解为大约20

浏览 4提问于2018-01-10得票数 0

1回答

Kafka主题分区到星火流

、、

据我所知，根据文档，在星火流中引入并行性的方法是使用分区的kafka主题-> RDD，当我使用星火-卡夫卡直接流集成时，其分区数将与Kafka相同。因此，如果我在主题中有一个分区，以及一个执行者核心，那么这个核心将依次从Kafka读取。主题中的两个分区和两个核心？那么，一个执行器核心将从一个分区读取，第二个

浏览 3提问于2016-06-14得票数 17

回答已采纳

1回答

有火花的任务调度

、、、、

我正在我的4节点集群上运行相当大的任务。我从一个表中读取了大约4GB的过滤数据，并运行Na ve的训练和预测。我让HBase区域服务器运行在一台机器上，这台机器与spark集群分离，运行在公平的调度模式下，尽管HDFS在所有机器上运行。在执行过程中，在集群上活动任务的数量方面，我遇到了奇怪的任务分布。我观察到，在任何时候，只有一个活动任务或最多两个任务在一个/两个机器上运行，而另

浏览 1提问于2014-09-29得票数 3

回答已采纳

1回答

当使用Cloud和Stackdriver时，千分尺自定义度量是如何工作的？

、、、

我一直在阅读Cloud文档和部分千分尺文档，但我还不相信定制度量的无服务器工作流完全支持千分尺，甚至是它应该如何工作。云运行自动标度的声明：实例可能在“一段时间”内

浏览 4提问于2019-12-19得票数 2

1回答

火花流+卡夫卡对卡夫卡

、、、

假设我有一个系统，每秒钟通过Kafka接收上千条信息。我需要对这些消息应用一些实时分析，并将结果存储在DB中。我有两个选择：创建我自己的工作人员，从Kafka读取消息，运行分析算法并将结果存储在DB中。在Docker时代，只需使用scale命令就可以轻松地在我的整个集群中缩放这个工作人员。我只需要确保我有一个相等的或更多的分区比我的工作人员，一切都是好的，我有一个真正的并发。

浏览 1提问于2017-07-23得票数 13

2回答

星星之火:并行转换多个数据格式

paths.foreach(path => { df.transform(processData).write.parquet这限制了一次只能处理一个数据，而且我的大部分集群资源都是空闲的。由于处理每个数据都是独立的，所以我将Array转换为scala的ParArray。(path+"_processed")现在，它正在集群中使用更多的资源。我仍在努力理解它是如

浏览 2提问于2019-04-03得票数 4

3回答

如果派生的线程仍在工作，则保持webservice活动

、、、

我有一个job服务，它将被一个夜间作业调用来处理文档，每个文档将被排队并在它自己的后台处理器上执行。这个过程可能需要几个小时或几分钟，具体取决于负载。如果它什么都不做我就不想让它活着。但是，当A产生一个线程并立即返回时，即使有一个线程在工作，空闲时钟也会开始。我没有将线程设置为IsBackground，它仍然因为空闲而终止。对于我的测试，我将空闲

浏览 2提问于2010-12-04得票数 2

回答已采纳

1回答

立即触发所有云运行实例以完成异步工作(重新生成缓存)

、、

我有一个云运行，、多个实例、运行或空闲。定期检查对象存储桶上是否有新版本的JSON文件，对JSON进行一些处理，并将其存储为一个变量(缓存)，供API端点使用。因此，我不需要就每个请求与数据库联系。云运行不能在后台执行异步任务(只有在处理request).webcron时才分配它们的CPU资源)。只有一个实例将处理请求，缓存将仅在添加到

浏览 2提问于2022-04-02得票数 -1

1回答

使用云服务的并行文件处理

、、、、

我有很多图像，我需要通过java程序来创建更多的图像文件--这是一个令人尴尬的平行案例。每个输入文件大约是500 mb，在处理过程中需要大约4GB的内存，运行需要30秒到2分钟。java程序是多线程的，但是更多的好处来自于对输入文件的并行化，而不是使用更多的线程。我需要每天启动几次进程(我不想手动打开/关闭集群，也不想24/7支付费用)。我有点迷失在云端的各种选择中： 谷歌</

浏览 2提问于2015-10-09得票数 2

回答已采纳

4回答

要创建多少个火花会话？

、

我们正在建立一个数据摄入框架。第一步是使用我们的应用程序名获取/创建一个闪烁会话。dataLoader.py的结构概述如下。spark = SparkSession \ .appName('POC') \ #create data frame from file如果我必须同时执行这个dataLoader.py来加载不同

浏览 0提问于2018-09-19得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

谷歌云spark。在整个处理过程中，一个集群工作线程保持空闲状态

1. 资源分配不均

2. 数据本地性

3. 任务执行时间差异

4. 集群配置问题

5. Spark配置问题

解决方案

1. 检查和优化数据分区

2. 启用数据本地性优化

3. 监控和分析任务执行

4. 调整集群规模和资源配置

5. 优化Spark配置

示例代码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐