腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pySpark
中
的
数据
帧
级
计算
、
我正在使用
PySpark
,并希望利用多节点
的
优势来提高性能时间。| % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要
计算
新
的
薪水列,并希望使用
pyspark
中
多个节点
的
能力来减少整体处理时间。我不想做一个迭代
的
逐行
计算
新工资。 df.withColumn是否在
数据
浏览 16
提问于2021-03-24
得票数 0
2
回答
为什么groupBy()比
pyspark
中
的
distinct()快得多?
当我用groupBy()替换spark
数据
帧
上
的
distinct()时,我在我
的
pyspark
代码中看到了很大
的
性能改进。但是我不能理解背后
的
原因。整个意图是从
数据
帧
中
删除行
级
重复项。我尝试在谷歌上搜索groupBy()和distinct()在
pyspark
中
的
实现,但没有找到。 有没有人能给我解释一下或者给我指出正确
的
方向?
浏览 0
提问于2018-09-11
得票数 6
1
回答
计算
带有点‘’
的
数据
帧
列
的
approxQuantile。
我无法
计算
列名称
中
包含点
的
pyspark
数据
帧
的
approxQuantile。例如,
数据
帧
模式是 root |-- col.dot: double (nullable = true) 那我就不能 df.approxQuantile(('`col.dot`'), [0.5], 0.25) 导致错误:
pyspark
.sql.utils.IllegalArgumentException:‘字段&qu
浏览 7
提问于2019-06-12
得票数 1
3
回答
将
pyspark
groupedData对象转换为spark Dataframe
我必须在
pyspark
数据
帧
上进行2
级
分组。我
的
试探性
的
:grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组
的
对象转换为<e
浏览 2
提问于2017-10-18
得票数 7
回答已采纳
1
回答
如何在AWS胶水作业中将多个源映射到单个目标
、
、
我有一个MySQL
数据
库和一个包含200个表
的
Mongo
数据
库,我正在尝试将它连接到Glue并合并一些表,最终得到合并
数据
的
20个表,以及一些过滤器和脚本,在
数据
到达需要
的
地方之前过滤掉其中
的
一些
数据
。我应该使用不同
的
工具,还是应该在其他地方执行该步骤(例如,使用DMS并为爬虫生成另一个目的地?)
浏览 6
提问于2018-08-17
得票数 1
回答已采纳
2
回答
将
数据
类型从yyyy-MM-dd格式
的
字符串更改为DateType
、
、
、
我正在尝试将
数据
帧
中
的
列从yyyy-MM-dd格式
的
字符串类型转换为DateType。我目前正在运行这段代码,但它不会改变类型,但它也不会失败--所以我想我遗漏了一些相当基本
的
东西我从得到了这个格式,但我不确定我错过了什么 谢谢你
的
帮助!
浏览 0
提问于2020-01-18
得票数 0
1
回答
如何
计算
pyspark
数据
帧
的
协方差矩阵?
、
、
、
我有一个很大
的
pyspark
数据
框架,其中列是一些产品,行是其随时间变化
的
价格。我需要
计算
所有产品
的
协方差矩阵,但
数据
太大,无法转换为pandas
数据
帧
,因此我需要使用
pyspark
进行
计算
。我到处都找过了,但我想不出解决这个问题
的
办法。有没有人知道该怎么做? 我已经有了相关矩阵,所以任何使用标准差对角矩阵
的
方法都是非常受欢迎
的
。 Here是我<
浏览 68
提问于2021-06-15
得票数 0
1
回答
用总行和列计数
PySpark
数据
帧
中
的
空值
、
、
、
我正在尝试使用
PySpark
编写一个查询来
计算
大型
数据
帧
中
的
所有null值。在读取
数据
集后,我执行以下操作: import
pyspark
.sql.functions as F df_agg = df.agg(*[F.count(F.when(F.isnull(c), c))total_rows和total_columns
数据
帧
的
末尾添加两列,以便在写入.csv文件后可以运行一些
计算</e
浏览 17
提问于2020-03-28
得票数 0
回答已采纳
2
回答
迭代和
计算
列
的
更有效
的
方法
、
我有一个非常宽
的
数据
帧
> 10,000列,我需要
计算
每个列中空值
的
百分比。现在我正在做
的
是:for c in df_a.columns[:]: # print(c)当然,这是一个缓慢
的
过程,有时会崩溃。有没有我错过
的</
浏览 0
提问于2017-09-24
得票数 1
0
回答
如何使用
pyspark
计算
apache spark
数据
帧
的
大小?
、
、
有没有办法使用
pyspark
计算
Apache spark
数据
帧
的
字节大小?
浏览 2
提问于2016-07-04
得票数 11
1
回答
如何统计
pyspark
dataframe
中
某一列
中
每个分类变量
的
出现频率?
、
、
假设我有一个
pyspark
数据
帧
:+-----+---++-----+---+|beta | 2||alpha| 2|我想
计算
一下在x列中出现了多少次alpha、beta和gamma。我如何在
pyspark
中
做到这一点?
浏览 0
提问于2018-03-20
得票数 4
1
回答
PySpark
滑动窗口
计算
、
、
我有一个
PySpark
数据
帧
,我想在其上运行滑动窗口
计算
。下面是我想要运行
的
操作
的
示例代码(显示为pandas dataframe):有人能告诉我如何在
PySpark
中
复制这个操作吗?
浏览 0
提问于2018-03-18
得票数 0
3
回答
取消持久化(py)spark
中
的
所有
数据
帧
、
、
、
、
这通常是在一个大
的
步骤之后,或者缓存一个我想要多次使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存
中
。在我
的
应用程序
中
,这会导致在扩展时出现内存问题。尽管在我当前
的
测试
中
,给定
的
数据
帧
最大大约为100MB,但中间结果
的
累积大小超出了executor上分配
的
内存。请参见下面的小
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
完整
数据
帧
的
火花散列
、
是否可以找到完整
PySpark
数据
的
哈希值(最好是散列256)。我不想找到单个行或列
的
散列。我知道
pySpark
中
存在函数,用于从
pyspark
.sql.functions导入sha2进行列
级
哈希
计算
。读取
数据
<em
浏览 8
提问于2022-12-04
得票数 0
1
回答
将Numpy数组追加到
Pyspark
Dataframe
中
、
、
、
、
我需要在
PySpark
数据
帧
中
追加一个NumPy数组。| 39205.17000| False|+----+------+-------------+-------+ 首先,我
计算
了一个近似117310.979016494值
的
数组。
的
数据
计算
得出
的
。
数据
帧
中转换,但没有成功。
浏览 7
提问于2020-12-08
得票数 0
回答已采纳
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接
中
,用户可以在Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
1
回答
Pyspark
: PicklingError:无法序列化对象:
、
、
我有以下两个
数据
帧
: df_whitelist和df_text|keyword| whitelist_terms ||this client has l...| client;LA|在df_whitelist
中
,每个关键字对应一组术语在df_text
中
,我有文本和在这个文本中找到
的
一些关键字。我想要做
的
是,对
浏览 4
提问于2017-11-12
得票数 9
回答已采纳
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中
删除重复项。显然,它在我
的
Jupyter Notebook
中
工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebo
浏览 110
提问于2019-06-20
得票数 1
1
回答
如何获取row_number is
pyspark
数据
帧
、
、
、
为了排名,我需要让row_number是一个
pyspark
数据
帧
。我看到在
pyspark
的
窗口函数中有row_number函数,但这是使用HiveContext所必需
的
。我尝试用HiveContext替换sqlContext self.sc =
pyspark
.SparkContext() #self.sqlContext =
pyspark
.sql.SQL
浏览 0
提问于2016-10-30
得票数 2
2
回答
PySpark
列向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
点击加载更多
相关
资讯
tcp/ip模型中,帧是第几层的数据单元?
PySpark,一个大数据处理利器的Python库!
pyspark 一个大数据处理神器的Python库!
将多个Excel工作表合并到一个Pandas数据帧中
计算机一级MS Office中的Excel条件格式
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券