腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
以
编程
方式
提交
pyspark
作业
,不
使用
提交
pyspark
,
在
python
中
、
、
、
我想将spark
作业
从我的本地系统
提交
到安装了cloudera的远程服务器(Spark on YARN)。已经尝试了所有的可能性。尝试创建SparkSession和SparkContext 代码如下: 1) from
pyspark
import SparkConf, SparkContext from
pyspark
.sql import
浏览 14
提问于2020-01-06
得票数 0
1
回答
设置
pyspark
jvm内存(Xmx)
、
当我运行一个用
pyspark
编写的spark
作业
时,我运行了一个jvm,它有一个我似乎不能设置的Xmx1g设置。下面是ps aux的输出: /usr/lib/jvm/jre/bin/java -cp /home/ec2-user/miniconda3/lib/
python
3.6/site-packages/
pyspark
我可以
使用
SPARK_DAEMON_MEMORY和SPA
浏览 2
提问于2018-04-30
得票数 1
1
回答
火花
提交
python
作业
的过程泄漏
、
、
、
、
我有一个奇怪的问题,火花
提交
进程无限期挂起&
在
工作完成后泄漏内存。 我一直有三个火花
提交
进程挂起前3个
作业
,这些
作业
是
使用
客户端模式
提交
到集群的。相应的
作业
在
spark
中
显示为“已完成”,并且已经关闭了会话&根据日志退出。这些
作业
不再占用员工资源&后续
作业
能够接收最大的执行器并按预期运行。然而,这三个进程
以
缓慢增长的速度消耗内存,这最终导致
浏览 2
提问于2020-09-22
得票数 0
回答已采纳
1
回答
使用
livy向AWS EMR
提交
虚拟环境
中
的
pyspark
作业
、
、
、
、
": "/usr/bin/
python
3" },'file': self.py_file, "spark.yarn.appMasterEnv.
PYSPARK
_<
浏览 3
提问于2018-10-16
得票数 4
1
回答
如何在集群模式下设置驱动程序
python
路径
、
、
、
、
我的程序
在
客户端模式下运行良好,但是当我尝试
在
集群模式下运行时,如果失败,原因是集群节点上的
python
版本是不同的。spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executor-coresconf spark.yarn.keytab=keytab_path --conf
浏览 5
提问于2022-08-04
得票数 1
1
回答
从
pyspark
shell连接到memsql
、
可以从
pyspark
连接到memsql吗? 我听说memsql最近在
pyspark
之上构建了streamliner基础设施,
以
允许自定义的
python
转换。但这是否意味着我可以运行
pyspark
或
提交
连接到memsql的
python
spark
作业
?
浏览 3
提问于2016-02-25
得票数 1
2
回答
如何
提交
包含多个
python
文件的
pyspark
作业
?
、
、
我正在考虑如何
提交
使用
pycharm ide开发的
pyspark
作业
。有4个
python
文件和1个
python
文件是主
python
文件,它是通过
pyspark
作业
提交
的,但其余3个文件都导入到主
python
文件
中
,但我不能理解如果我的
python
文件都在s3 bukcet
中
可用,spark
作业
如何能够引用那些没有通过
py
浏览 49
提问于2020-09-22
得票数 0
1
回答
launch_container.sh
中
纱线如何执行
PYSPARK
环境设置
、
、
、
我会在这里一步一步地指出这些要求 当您将
提交
一个火花
作业
时,
在
纱线上
提交
具有-pyfiles和--文件的集群模式:。如果我们已经显式地导出了任何东西,比如
PYSPARK
_
PYTHON
在
.bash_profile
中
,或者
在
构建星火
提交
作业
时
在
shell脚本
中
或在spark_env.sh
中
,默认值将被我们提供的值所取代。因此,如果
不
浏览 5
提问于2020-08-15
得票数 0
2
回答
无法启动--
在
s3桶上
提交
pyspark
文件
、
、
、
、
我有一个
pyspark
代码,它既存储
在
AWS集群的主节点上,也存储
在
一个s3桶
中
,该桶从MySQL数据库
中
获取超过1.4亿行,并将列的总和存储
在
s3上的日志文件
中
。当我
在
主节点上
提交
电火花代码时,
作业
成功完成,输出存储
在
S3桶上的日志文件
中
。但是,当我
使用
这些-(
在
SSH-ing之后
在
终端上
使用
下面的命令向主节
浏览 15
提问于2020-07-02
得票数 0
1
回答
GCP Dataproc自定义图像
Python
环境
、
、
、
我有一个问题,当我创建一个DataProc自定义图像和
Pyspark
。我的自定义镜像基于DataProc 1.4.1-debian9,并
使用
我的初始化脚本从一个requirements.txt文件安装
python
3和一些包,然后设置
python
3环境变量
以
强制
pyspark
使用
python
3。但是,当我
在
使用
此镜像创建的集群上
提交
作业
时(为简单起见,
使用
单节点标志
浏览 23
提问于2019-07-12
得票数 7
回答已采纳
1
回答
sc.textFile()命令
中
的
作业
文件错误
下面是我
在
Dataproc
中
作为
PySpark
作业
提交
的文件,通过UI
提交
# Load file data fro Google Cloud Storage to Dataproc cluster,我需要在我的代码
中
添加什么,这样它才能被接受为火花命令
浏览 1
提问于2016-02-11
得票数 0
回答已采纳
1
回答
运行
python
脚本,
在
windows 7上
使用
spark submit
、
我正在尝试
提交
一个
python
脚本,
使用
的是windows 7上的spark submit,我
使用
的是为hadoop 2.7构建的spark 2.3.0。
python
脚本应该读取csv文件和绘图图中的数据。是否有可能
使用
火花
提交
来运行这样的脚本?
在
python
脚本
中
,我包含了火花上下文的代码块。import findsparkimport
pyspark
from
浏览 0
提问于2018-04-15
得票数 2
1
回答
即使
使用
PYSPARK
_
PYTHON
=
python
3,
Pyspark
也不会在纱线集群模式下
使用
python
3
、
、
、
我已经
使用
ambari
在
spark-env.sh
中
设置了
PYSPARK
_
PYTHON
=
python
3,当我
在
命令行
中
尝试'
pyspark
‘时,它可以
在
python
3.4.3
中
运行。但是,当我
使用
yarn集群模式
提交
作业
时,它
使用
python
2.7.9运行。如何让它
使用</e
浏览 5
提问于2016-07-26
得票数 0
3
回答
由于
python
版本而运行
PySpark
DataProc
作业
时出错
、
、
我
使用
以下命令创建dataproc集群--initialization-actions \然而,当我
提交
我的
PySpark
作业
时,我得到了以下错误 例外情况: worker
中
的
Python
版本与驱动程序3.7
中
的
浏览 0
提问于2018-07-19
得票数 7
回答已采纳
1
回答
火花/火花事件日志访问被拒绝的错误
、
、
、
、
然而,当我
在
Anaconda木星
中
运行我的代码时,我会得到下面的错误,它引用拒绝访问火花事件文件的权限。
浏览 12
提问于2022-05-02
得票数 0
1
回答
如何发送和运行火花-
提交
与虚拟
、
、
我试图
在
独立集群上
提交
spark
作业
,我将虚拟主机压缩为venv.zip,并将该
作业
作为shell脚本
提交
PYSPARK
_
PYTHON
=./venv/bin/
python
\spark-submit \ --jars
浏览 3
提问于2021-07-04
得票数 3
回答已采纳
1
回答
EMR 6.1.0上的默认
Python
3内核不在我的集群上吗?
、
、
我注意到
在
将EMR笔记本附加到带有Hadoop、Spark和Livy的EMR 6.1.0集群上时,出现了一些奇怪的情况。您知道,我
在
主节点上安装的包在缺省的
Python
3内核
中
不可用,但在缺省的
PySpark
内核
中
可用。 当我
在
PySpark
内核上获得主机名时,我可以看到它与我的主节点的私有DNS名相匹配。然而,当我运行
Python
3或终端内核时,我得到了一个不同的主机名,该主机名与我的集群上的任何节点都不匹配。 当我
使用</
浏览 12
提问于2020-09-18
得票数 0
1
回答
在
无SSH的Dataproc集群上触发火花
提交
来自气流的
作业
、
、
、
目前,我们正在
使用
BashOperator & BashCommand
在
气流
中
执行星火
提交
命令,但是我们的客户端不允许我们
在
集群
中
执行SSH命令,这样就可以
在
不
执行SSH命令的情况下从气流执行Spark-submit
浏览 3
提问于2022-04-25
得票数 0
回答已采纳
2
回答
将
Python
项目
提交
到Dataproc
作业
、
、
我有一个
python
项目,它的文件夹结构如下 main_directory - lib - lib.py run/我找到的唯一方法是删除绝对路径,将此更改为script.py from lib imp
浏览 27
提问于2020-04-23
得票数 4
1
回答
如何使
PySpark
在
集群上工作
、
、
、
我有一系列问题(很抱歉,Google文档太糟糕了,而且不方便用户
使用
): 您可以将ssh放入头计算机并在整个集群
中
运行星火,还是
使用
Google的gcloud dataproc jobs submit ...命令?当我
在
本地运行Spark
作业
并尝试访问时,我这样做是没有问题的。当我尝试
使用
Dataproc时,它会崩溃。我<em
浏览 3
提问于2019-01-18
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
0483-如何指定PySpark的Python运行环境
0485-如何在代码中指定PySpark的Python运行环境
如何在CDH集群上部署Python3运行环境及运行Python作业
PySpark数据分析基础:PySpark原理详解
一个Python大数据处理利器:PySpark入门指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券