通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交,但有时我需要更容易地访问Scala&
我在将Spark 2.4从kubernetes中运行的docker容器连接到dataproc集群(使用Spark 2.4)时遇到了问题。同样的网络配置也适用于Spark 2.2,因此Spark进行主机名解析的方式似乎发生了一些变化。nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
2019-02-01 18:47
我正在使用Dataproc在使用spark-shell的集群上运行Spark命令。我经常收到错误/警告消息,表明我失去了与执行器的连接。: Lost executor 5 on spark-cluster-femibyte-w-0.c.gcebook-1039.internal: remote Rpc client disassociatedReason: [Disassociated]
16/01/20 10:10:24 WARN or