我正在使用气流中的DataprocSubmitJobOperator来安排火花放电作业,而且当我无法将pyfiles传递给火花放电作业时达格
# working - passing-4.0.5.jar','gs://dataproc-spark-jars/mongo-spark-connector_2.12-3.0.2.jar','gs://dataproc
我在Googledataproc集群版本1.4和spark版本2.4.5中运行spark作业,它从GS存储桶中读取路径中具有正则表达式的文件,并获取以下错误。Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path)
at org.apache.spark.sql.exe
我正在尝试从dataprocspark作业中获取GCP密钥管理器密码。但是我得到了错误"Exception in thread "main“java.lang.NoClassDefFoundError: com/google/cloud/secretmanager/v1/AccessSecretVersionResponse".我已经在dataprocspark作业依赖项中添加了jar
通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交,但有时我需要更容易