腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
删除
字段
中
的
值
python
或
pyspark
、
、
、
我有一个看起来像这样
的
字段
231-206-2222231-206-1111我尝试对其进行正则表达式,但无济于事。
浏览 10
提问于2019-11-06
得票数 0
2
回答
未知解释器
PySpark
。toree无法安装
PySpark
当我为木星笔记本安装
PySpark
时,我使用以下cmd:但是,我知道 [ToreeInstall] ERROR | Unknown interpreter
PySpark
.Skipping installation of
PySpark
int
浏览 0
提问于2019-03-15
得票数 9
3
回答
运行火花时出错
、
从我
的
终端,我运行snotebook,它将自动加载木星。在此之后,当我选择
python
3时,错误就来自终端。处理PYTHONSTARTUP文件/Users/simon/spark-1.6.0-bin-hadoop2.6/
python
/
pyspark
/shell.py
中
的
IPKernelApp警告 export SPARK_HOME=~/spark-1.6
浏览 10
提问于2017-10-04
得票数 2
1
回答
删除
阈值编号为null
的
列
、
、
有一个数据集,并希望使用
pyspark
进行一些清理。
删除
空
值
大于75%
的
所有列。使用
python
:
如何
使用
pyspark
实现这一点?
浏览 0
提问于2019-05-14
得票数 0
3
回答
java.io.IOException:无法运行程序"
python
3":CreateProcess error=2,系统找不到指定
的
文件
、
、
在PYCHARM上运行
pyspark
程序时,我得到以下错误,Error:在windows命令提示符
中
运行相同
的
程序时,我遇到了类似的问题,并使用解决了这个问题。
浏览 9
提问于2021-08-08
得票数 9
2
回答
如何
在火花执行器上设置
Python
的
优化模式(-O)?
、
如何
在运行在火花从上
的
执行器上设置
python
优化模式(用于解释器
的
-O param )?(显然,执行程序
的
Python
解释器是使用以下行启动
的
在org/apache/spark/api/
python</
浏览 10
提问于2015-09-29
得票数 2
回答已采纳
2
回答
斯卡拉是星火
的
必备品吗?
、
我是火花
的
新手。在它
的
文档
中
,它说它可以在Scala
或
Python
中使用。 一些博客说,火花依赖于scala (例如,)。因此,我想知道:scala是Spark
的
必修课吗?
浏览 2
提问于2014-12-21
得票数 6
1
回答
python
3:无法打开文件“记事本”:errno 2没有这样
的
文件
或
目录
、
我正面临着运行火花木星笔记本
的
问题。我在/.bashrc
中
设置了以下变量export PATH=$SPARK_HOME:$PYTHONPATH export
PYSPARK
_DRIVER_
PYTHON
_OPTS='notebook'
py
浏览 0
提问于2020-02-03
得票数 2
3
回答
将木星笔记本与火花连接起来
、
、
、
、
我有一台装有Hadoop和Spark
的
机器。下面是我目前
的
环境。display_name": "
PySpark
(Spark 2.0.0)", "argv": [import osos.environ["
浏览 7
提问于2017-04-26
得票数 2
3
回答
将带有日期
的
星火数据转换为熊猫数据时出错
、
、
、
/lib/
python
2.7/site-packages/
pyspark
/sql/dataframe.pyc in toPandas(self) 1705"values")
浏览 1
提问于2019-02-27
得票数 9
3
回答
无法识别
Pyspark
命令
、
、
.bash_profile和.profile
中
-bash:
pyspark
: command not found
pyspark
在终端
中
的
任何目录,但是即使是shell
中
的
<e
浏览 4
提问于2016-08-06
得票数 6
1
回答
星火DataFrame
如何
区分不同
的
VectorUDT对象?
、
、
、
、
当然,DataFrame不是一个物化
的
对象,它只是一组Spark
的
指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM
中
可能出现
的
对象类型。()root |-- SparseVector'> DenseVector <class '
pyspark
.ml.l
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
2
回答
如何
将
值
传递给表
中
的
pyspark
变量?
、
、
这可能是一个愚蠢
的
问题,但我有一个表,其中
的
每一列都包含要传递给变量
的
值
: select sfObject from db.tblwhere Id = {} 我看到
的
是一个名为sfObject
的
列,它
的
预期
值
为'ValueA‘,我得到一个<e
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
3
回答
如何
在Spark (
Python
)
中
对Row对象
的
字段
进行排序
、
、
、
、
我正在Spark
中
创建Row对象。我不希望我
的
字段
按字母顺序排序。但是,如果我这样做,它们是按字母顺序排序
的
。row = Row(foo=1, bar=2)Row(bar=2, foo=1) 然后,当我在这个对象上创建一个dataframe时,列
的
顺序将是bar优先,foo第二,而我更喜欢
的
是相反
的
顺序。我知道我可以使用"_1“和"_2”(分别表示"foo“和"bar”),然后
浏览 1
提问于2016-02-11
得票数 14
回答已采纳
1
回答
使用
Python
或
pyspark
读取基于位置
的
CSV文件
、
、
我是
Python
和它
的
库
pyspark
的
新手,我需要做一些POC,我需要读取来自上游
的
CSV文件,我收到
的
CSV文件没有任何分隔符,它将是一个基于位置
的
文件。我们可以在Oracle控制文件
中
这样做,在那里我们可以定义每一列
的
位置,并检索与在
pyspark
中
相同
的
值
。 我正在使用Apache Spark来处理我
的
Pyspark
<e
浏览 16
提问于2019-11-12
得票数 1
3
回答
将模式数据类型JSON混合到
PySpark
DataFrame
、
、
我需要将JSON
的
列表转换为
pySpark
DataFrames。JSON都有相同
的
架构。问题是JSON
中
dicts
的
值
条目有不同
的
数据类型。如果我使用df = spark.createDataFrame(json_list)从jsons
中
创建我
的
DataFrame,因为他无法正确地推断模式,所以
pyspark
“
删除
”了一些数据。DataType用于嵌套MapType
的
值<
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
从其他文件导入时,PyCharm无法找到“SPARK_HOME”
、
、
test.py from
pyspark
import SparkConf from
pyspark
import SQLContext
浏览 1
提问于2016-04-14
得票数 1
1
回答
在员工节点上安装火花模块
、
、
、
我在cloudera环境
中
以独立模式运行SPARK 1.3。我可以从ipython笔记本上运行
pyspark
,但是一旦我添加了第二个工作节点,我
的
代码就会停止运行并返回一个错误。我很确定这是因为我
的
主节点上
的
模块对worker节点不可见。我试着导入numpy,但是它没有工作,即使我通过anaconda在我
的
工人身上安装了numpy。我用同样
的
方式安装在主人和工人身上。但是,按照乔希·罗森
的
建议,我确保在工作节点上安装了库。 然而,我似乎仍然有问题。包
浏览 6
提问于2015-06-25
得票数 6
回答已采纳
2
回答
无法启动吡火花OSX
的
木星笔记本: IPYTHON和IPYTHON_OPTS在火花2.0+中被
删除
、
、
我下载了:spark 2.2.0-bin-hadoop2.7export PATH="/Users/spandan.chakraborty/anaconda/bin:$PATH" export<
浏览 2
提问于2017-10-16
得票数 0
1
回答
如何
批量收集RDD
中
的
元素
、
、
我有一个
pyspark
RDD,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。
如何
批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/
python
/reference/api/
pyspark
.RDD.take.html#
pysp
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python如何透过某个字段取得集合里面的值
Pandas中如何删除空值所在的行
0483-如何指定PySpark的Python运行环境
Python字典中的值为列表或字典的构造方法
3秒快速、大批量删除或修改Excel中的空值
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券