以编程方式提交pyspark作业，不使用提交pyspark，在python中

、、、

我想将spark作业从我的本地系统提交到安装了cloudera的远程服务器(Spark on YARN)。已经尝试了所有的可能性。尝试创建SparkSession和SparkContext 代码如下： 1) from pyspark import SparkConf, SparkContext from pyspark.sql import

浏览 14提问于2020-01-06得票数 0

1回答

设置pyspark jvm内存(Xmx)

、

当我运行一个用pyspark编写的spark作业时，我运行了一个jvm，它有一个我似乎不能设置的Xmx1g设置。下面是ps aux的输出： /usr/lib/jvm/jre/bin/java -cp /home/ec2-user/miniconda3/lib/python3.6/site-packages/pyspark我可以使用SPARK_DAEMON_MEMORY和SPA

浏览 2提问于2018-04-30得票数 1

1回答

火花提交python作业的过程泄漏

、、、、

我有一个奇怪的问题，火花提交进程无限期挂起&在工作完成后泄漏内存。我一直有三个火花提交进程挂起前3个作业，这些作业是使用客户端模式提交到集群的。相应的作业在spark中显示为“已完成”，并且已经关闭了会话&根据日志退出。这些作业不再占用员工资源&后续作业能够接收最大的执行器并按预期运行。然而，这三个进程以缓慢增长的速度消耗内存，这最终导致

浏览 2提问于2020-09-22得票数 0

回答已采纳

1回答

使用livy向AWS EMR提交虚拟环境中的pyspark作业

、、、、

": "/usr/bin/python3" },'file': self.py_file, "spark.yarn.appMasterEnv.PYSPARK_<

浏览 3提问于2018-10-16得票数 4

1回答

如何在集群模式下设置驱动程序python路径

、、、、

我的程序在客户端模式下运行良好，但是当我尝试在集群模式下运行时，如果失败，原因是集群节点上的python版本是不同的。spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executor-coresconf spark.yarn.keytab=keytab_path --conf

浏览 5提问于2022-08-04得票数 1

1回答

从pyspark shell连接到memsql

、

可以从pyspark连接到memsql吗？我听说memsql最近在pyspark之上构建了streamliner基础设施，以允许自定义的python转换。但这是否意味着我可以运行pyspark或提交连接到memsql的python spark作业？

浏览 3提问于2016-02-25得票数 1

2回答

如何提交包含多个python文件的pyspark作业？

、、

我正在考虑如何提交使用pycharm ide开发的pyspark作业。有4个python文件和1个python文件是主python文件，它是通过pyspark作业提交的，但其余3个文件都导入到主python文件中，但我不能理解如果我的python文件都在s3 bukcet中可用，spark作业如何能够引用那些没有通过py

浏览 49提问于2020-09-22得票数 0

1回答

launch_container.sh中纱线如何执行PYSPARK环境设置

、、、

我会在这里一步一步地指出这些要求当您将提交一个火花作业时，在纱线上提交具有-pyfiles和--文件的集群模式：。如果我们已经显式地导出了任何东西，比如PYSPARK_PYTHON在.bash_profile中，或者在构建星火提交作业时在shell脚本中或在spark_env.sh中，默认值将被我们提供的值所取代。因此，如果不

浏览 5提问于2020-08-15得票数 0

2回答

无法启动--在s3桶上提交pyspark文件

、、、、

我有一个pyspark代码，它既存储在AWS集群的主节点上，也存储在一个s3桶中，该桶从MySQL数据库中获取超过1.4亿行，并将列的总和存储在s3上的日志文件中。当我在主节点上提交电火花代码时，作业成功完成，输出存储在S3桶上的日志文件中。但是，当我使用这些-(在SSH-ing之后在终端上使用下面的命令向主节

浏览 15提问于2020-07-02得票数 0

1回答

GCP Dataproc自定义图像Python环境

、、、

我有一个问题，当我创建一个DataProc自定义图像和Pyspark。我的自定义镜像基于DataProc 1.4.1-debian9，并使用我的初始化脚本从一个requirements.txt文件安装python3和一些包，然后设置python3环境变量以强制pyspark使用python3。但是，当我在使用此镜像创建的集群上提交作业时(为简单起见，使用单节点标志

浏览 23提问于2019-07-12得票数 7

回答已采纳

1回答

sc.textFile()命令中的作业文件错误

下面是我在Dataproc中作为PySpark作业提交的文件，通过UI提交 # Load file data fro Google Cloud Storage to Dataproc cluster,我需要在我的代码中添加什么，这样它才能被接受为火花命令

浏览 1提问于2016-02-11得票数 0

回答已采纳

1回答

运行python脚本，在windows 7上使用spark submit

、

我正在尝试提交一个python脚本，使用的是windows 7上的spark submit，我使用的是为hadoop 2.7构建的spark 2.3.0。python脚本应该读取csv文件和绘图图中的数据。是否有可能使用火花提交来运行这样的脚本？在python脚本中，我包含了火花上下文的代码块。import findsparkimport pyspark from

浏览 0提问于2018-04-15得票数 2

1回答

即使使用PYSPARK_PYTHON=python3，Pyspark也不会在纱线集群模式下使用python3

、、、

我已经使用ambari在spark-env.sh中设置了PYSPARK_PYTHON=python3，当我在命令行中尝试'pyspark‘时，它可以在python3.4.3中运行。但是，当我使用yarn集群模式提交作业时，它使用python 2.7.9运行。如何让它使用</e

浏览 5提问于2016-07-26得票数 0

3回答

由于python版本而运行PySpark* DataProc作业时出错*

、、

我使用以下命令创建dataproc集群--initialization-actions \然而，当我提交我的PySpark作业时，我得到了以下错误例外情况: worker中的Python版本与驱动程序3.7中的

浏览 0提问于2018-07-19得票数 7

回答已采纳

1回答

火花/火花事件日志访问被拒绝的错误

、、、、

然而，当我在Anaconda木星中运行我的代码时，我会得到下面的错误，它引用拒绝访问火花事件文件的权限。

浏览 12提问于2022-05-02得票数 0

1回答

如何发送和运行火花-提交与虚拟

、、

我试图在独立集群上提交spark作业，我将虚拟主机压缩为venv.zip，并将该作业作为shell脚本提交PYSPARK_PYTHON=./venv/bin/python \spark-submit \ --jars

浏览 3提问于2021-07-04得票数 3

回答已采纳

1回答

EMR 6.1.0上的默认Python3内核不在我的集群上吗？

、、

我注意到在将EMR笔记本附加到带有Hadoop、Spark和Livy的EMR 6.1.0集群上时，出现了一些奇怪的情况。您知道，我在主节点上安装的包在缺省的Python3内核中不可用，但在缺省的PySpark内核中可用。当我在PySpark内核上获得主机名时，我可以看到它与我的主节点的私有DNS名相匹配。然而，当我运行Python3或终端内核时，我得到了一个不同的主机名，该主机名与我的集群上的任何节点都不匹配。当我使用</

浏览 12提问于2020-09-18得票数 0

1回答

在无SSH的Dataproc集群上触发火花提交来自气流的作业

、、、

目前，我们正在使用BashOperator & BashCommand在气流中执行星火提交命令，但是我们的客户端不允许我们在集群中执行SSH命令，这样就可以在不执行SSH命令的情况下从气流执行Spark-submit

浏览 3提问于2022-04-25得票数 0

回答已采纳

2回答

将Python项目提交到Dataproc作业

、、

我有一个python项目，它的文件夹结构如下 main_directory - lib - lib.py run/我找到的唯一方法是删除绝对路径，将此更改为script.py from lib imp

浏览 27提问于2020-04-23得票数 4

1回答

如何使PySpark在集群上工作

、、、

我有一系列问题(很抱歉，Google文档太糟糕了，而且不方便用户使用)：您可以将ssh放入头计算机并在整个集群中运行星火，还是使用Google的gcloud dataproc jobs submit ...命令？当我在本地运行Spark作业并尝试访问时，我这样做是没有问题的。当我尝试使用Dataproc时，它会崩溃。我<em

浏览 3提问于2019-01-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

设置pyspark jvm内存(Xmx)

火花提交python作业的过程泄漏

使用livy向AWS EMR提交虚拟环境中的pyspark作业

如何在集群模式下设置驱动程序python路径

从pyspark shell连接到memsql

如何提交包含多个python文件的pyspark作业？

launch_container.sh中纱线如何执行PYSPARK环境设置

无法启动--在s3桶上提交pyspark文件

GCP Dataproc自定义图像Python环境

sc.textFile()命令中的作业文件错误

运行python脚本，在windows 7上使用spark submit

即使使用PYSPARK_PYTHON=python3，Pyspark也不会在纱线集群模式下使用python3

由于python版本而运行PySpark* DataProc作业时出错*

火花/火花事件日志访问被拒绝的错误

如何发送和运行火花-提交与虚拟

EMR 6.1.0上的默认Python3内核不在我的集群上吗？

在无SSH的Dataproc集群上触发火花提交来自气流的作业

将Python项目提交到Dataproc作业

如何使PySpark在集群上工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐