为什么在Spark/Dataproc上运行这个程序需要这么长时间？

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交，但有时我需要更容易地访问Scala&

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答

将包从airflow传递到在dataproc上运行的pyspark？

、、

我们有一个Airflow DAG，它涉及在Dataproc上运行pyspark作业。在作业期间，我们需要一个jdbc驱动程序，我通常会将其传递给dataproc提交命令：--cluster my-cluster\ --properties spark.jars.packages=mysql:mysql-connector-java:6.0.

浏览 2提问于2017-11-14得票数 0

1回答

如何在集群模式下提交火花作业？

、、、、

我知道这上面有10个google页面的信息，但是他们都告诉我把--master yarn放在spark-submit命令中。但是，在集群模式下，我的本地笔记本电脑怎么可能知道这意味着什么呢？假设我有我的笔记本电脑和一个正在运行的dataproc集群。如何使用我的笔记本电脑中的火花提交来向这个集群提交作业？

浏览 3提问于2022-01-07得票数 2

回答已采纳

2回答

dataproc抛出FileNotFoundException上的火花流

、

当我试图向google dataproc集群提交火花流作业时，我得到了以下例外： at org.apache.spark.storage.BlockManager.stop(Blo

浏览 13提问于2016-12-13得票数 2

回答已采纳

2回答

如何确保Spark主节点正在使用工作节点？(Google集群)

、、、、

我刚刚创建了一个Google Cloud集群(1个master和6个worker)，并且默认情况下配置了Spark。如何确保master正在使用worker，以减少执行时间？

浏览 3提问于2018-08-09得票数 0

1回答

如何管理冲突的Guava、Protobuf和DataProc依赖关系

、、、

我正在做一个scala Spark工作，它需要使用java库(youtube/vitess)，它依赖于比目前DataProc 1.1镜像上提供的更新版本的GRPC (1.01)，Guava (19.0)在本地运行项目并使用maven构建时，会加载这些依赖项的正确版本，作业将不会出现问题。将作业提交到DataProc时，首选这些库的DataProc版本，并且作业将引用无法解析的类函数。在DataProc<em

浏览 5提问于2016-11-09得票数 5

1回答

Spark 2.4从容器连接到数据处理: java.net.UnknownHostException

、、

我在将Spark 2.4从kubernetes中运行的docker容器连接到dataproc集群(使用Spark 2.4)时遇到了问题。同样的网络配置也适用于Spark 2.2，因此Spark进行主机名解析的方式似乎发生了一些变化。nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME. 2019-02-01 18:47

浏览 155提问于2019-02-05得票数 2

1回答

Dataproc参数未在submit上读取

、、、、

我正在使用dataproc提交工作的火花。然而，在火花提交时，非火花参数被解读为火花参数！gclouddataproc jobs submit spark \--

浏览 0提问于2019-06-10得票数 3

回答已采纳

1回答

在DataProc上运行Spark时如何排队新作业

只有提交作业才不适用于排队，这里是下列任何作业的输出： ...但是，我找不到与dataproc一起使用它的文档.？

浏览 0提问于2016-04-08得票数 2

回答已采纳

1回答

pyspark ml模型的顶点ai自定义模型训练

、、、、

是否可以使用VertexAI自定义容器模型构建来训练spark/pyspark ML库模型？我在vertex ai文档中找不到任何关于spark模型训练的参考。

浏览 30提问于2021-09-03得票数 0

1回答

Pyspark GroupBy和计数太慢

、、、

我在有4个节点的dataproc集群上运行pyspark，每个节点有2个核心和8 GB RAM。我有一个dataframe，它有一个包含单词列表的列。我分解了这个专栏，并计算了出现次数- df.groupBy("exploded_col").count() 爆炸前约有78MN排。但是，运行上述代码的时间太长(超过4个小时)。为什么spark花了不寻常的长时间？我仍然是spark的新手，所以我还没有完全意识到适当的设

浏览 132提问于2020-07-17得票数 1

3回答

在Dataproc集群节点上设置环境变量

我希望在我的dataproc集群的每个节点上设置一个环境变量，以便它可以用于将运行在该集群上的pyspark作业。做这件事最好的方法是什么？我想知道是否有一种使用Compute Engine元数据的方法(虽然到目前为止我的研究表明Compute Engine元数据可以通过Compute Engine实例上的元数据服务器获得，而不是通过环境变量除此之外，除了在dataproc初始化脚本中发出export命令之外，我想不出有什么方法可以做到这一点。有人能

浏览 1提问于2020-04-14得票数 4

回答已采纳

1回答

在Cloud中调整工作节点大小后如何更新火花配置

、、、

我有一个DataProc星系团。特别是，在第一个辅助节点上只有2个执行程序，在第二个辅助节点上只有一个执行程序，spark.executor.memory 4655m而且，web控制台的DataP

浏览 0提问于2016-08-03得票数 6

回答已采纳

1回答

无法在纱线上运行Spark* 1.2*

、

我在使用spark 1.2的YARN上运行一个简单的java应用程序时遇到了问题。运行时：--executor-cores 1 target/learning-spark-mini-example-0.0.1.jar在执行过程中，spark</e

浏览 0提问于2015-04-26得票数 0

1回答

Google Dataproc* -经常断开与执行者的连接*

、

我正在使用Dataproc在使用spark-shell的集群上运行Spark命令。我经常收到错误/警告消息，表明我失去了与执行器的连接。: Lost executor 5 on spark-cluster-femibyte-w-0.c.gcebook-1039.internal: remote Rpc client disassociatedReason: [Disassociated] 16/01/20 10:10:24 WARN or

浏览 0提问于2016-01-20得票数 1

1回答

尝试在数据处理工作流中使用PySpark读取BigQuery表时出现问题

、、

我正在尝试使用GCP + Dataproc + PySpark自动化一个过程。', '/dev/spark')\ --initialization-actions=gs://datastudio_d

浏览 28提问于2021-04-29得票数 0

1回答

在dataproc上触发默认设置，特别是spark.yarn.am.memory

、、

在google dataproc上，我想知道火花设置是如何确定的？在我的示例中，我运行的是一个3节点N1标准-4集群，自动生成的星火默认. case如下所示： # User-supplied properties.正如我所理解的那样，此设置仅在客户端模式下生效，其中驱动程序在提交机器(主服务器)上运行。另外，AM“只”负责为工作进程请求资源并协调这些资源。为什么am.memory会那么高？在

浏览 4提问于2016-12-16得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云