腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
统计
每行
数据
帧
中
的
合计
值
、
、
我在
数据
框中有一列,其中每一行都有一个用逗号分隔
的
日期列表。我想创建一个名为date_count
的
新列,其中包含
每行
的
日期数。我试过
使用
pandas,但我想在
pyspark
中
实现它,而且我也是spark
的
新手。
浏览 8
提问于2019-10-13
得票数 1
回答已采纳
4
回答
Pyspark
:有没有等同于pandas info()
的
方法?
、
、
、
在
PySpark
中
是否有与pandas info()方法等效
的
方法?我正在尝试获取有关
PySpark
中
数据
帧
的
基本
统计
信息,例如:列数和行数、空
值
数、
数据
帧
大小 pandas
中
的
Info()方法提供了所有这些
统计
信息。
浏览 4
提问于2017-06-08
得票数 6
3
回答
如何编写select sum(col),count(other_col) form pandas_df
、
我是来自
pyspark
的
pandas
的
初学者,我想用pandas编写以下sql查询:我想让它返回一个新
的
数据
帧
。我发现了返回计数或
合计
的
代码,但从未在新
的
数据
帧
中
返回过
浏览 13
提问于2019-08-02
得票数 0
回答已采纳
1
回答
在spark
数据
帧
上实现pythonic
统计
函数
、
、
、
我在spark
数据
帧
中有非常大
的
数据
集,它们分布在节点上。我可以
使用
spark库
pyspark
.sql.functions进行简单
的
统计
,如mean、stdev、skewness、kurtosis等。如果我想
使用
像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级
统计
测试,我会
使用
像scipy这样
的
python库,因为标准
的
apache <e
浏览 30
提问于2020-09-13
得票数 0
1
回答
pyspark
使用
'in‘子句将一个RDD馈送到另一个RDD
、
、
、
我有一个
pyspark
RDD (myRDD),它是一个可变长度
的
ID列表,比如我有一个包含列ID和value
的
pyspark
数据
框架(myDF)。myDF.select(F.collect_set("value&qu
浏览 26
提问于2017-08-24
得票数 0
1
回答
从两个
值
不同
的
数据
帧
中
获取列
、
、
、
我有两个几乎相同
的
Pyspark
数据
帧
:相同
的
行数和row_id,相同
的
模式,但
每行
的
某些列上
的
值
不同。 我想确定每一行
的
列是什么。示例:
数据
帧
A id fname lname email2 Roger Moore rm@rocketmail.com3 Angela
浏览 22
提问于2020-03-23
得票数 1
回答已采纳
1
回答
如何将SQLContext
数据
转换为向量
的
RDD?
、
我有一个SQLContext
数据
框架,它是由几个数字列组成
的
熊猫
数据
框架。我想
使用
pyspark
.mllib.stats包进行多元
统计
分析。
统计
函数期望向量
的
RDD。我无法将此
数据
帧
转换为向量
的
RDD。有办法转换
数据
帧
吗?df_new df_new = df.applymap(lambda s: dic.get(s) if s in dic else s) #d
浏览 0
提问于2015-07-01
得票数 1
回答已采纳
2
回答
获取
PySpark
数据
帧
中
每行
的
空
值
个数
、
这可能是一个副本,但不知何故,我已经搜索了很长时间: ABC 1 a 1 2 ABC ABC 2编辑:假设我有
浏览 0
提问于2018-09-21
得票数 1
1
回答
PySpark
-如何
使用
Pyspark
计算每个字段
的
最小、最大
值
?
、
、
、
、
我正在尝试找出sql语句产生
的
每个字段
的
最小
值
和最大
值
,并将其写入csv文件。我试着在下面的时尚
中
得到结果。你能帮帮我吗。我已经用python编写了代码,但现在正在尝试将其转换为
pyspark
,以便直接在hadoop集群
中
运行。from
pyspark
import SparkContext sc =SparkC
浏览 2
提问于2018-11-20
得票数 1
1
回答
主成分分析在
PySpark
中
的
应用
、
、
、
、
Spark MLlib是否支持Python
的
主成分分析?如果是这样,请给我举个例子。如果没有,如何将Spark与scikit-learn结合起来?
浏览 2
提问于2015-08-03
得票数 10
回答已采纳
1
回答
基于列存储索引创建新
的
数据
帧
、
我正在致力于在
pyspark
上
使用
ALS来做协同过滤。这些模型在
数据
框
中
给出了预测结果,如下所示。1 7 2.3 2 3 3.1 我希望将
数据
帧
转换为用户到项目矩阵,如下所示,其中productID变为列,
每行
表示一个用户对所有产品
的
评分。4.2 0 3 0 0.5 0 0
浏览 21
提问于2019-05-21
得票数 0
回答已采纳
2
回答
获取列表
中
嵌套
数据
帧
的
汇总
统计
信息
、
、
我有一个
数据
帧
列表,我希望将该列表
中
每个
数据
帧
的
摘要
统计
信息返回到一个新
的
数据
帧
中
-能够选择每个初始
数据
帧
中
的
列(
值
)来返回摘要
统计
信息。输出
数据
帧
中
的
每一行对应于初始列表
中
的
每个<em
浏览 8
提问于2019-09-14
得票数 0
回答已采纳
1
回答
R
中
两个
数据
帧
之间
的
统计
运算
、
、
我有两个大
的
数据
帧
,一个是模拟
数据
,另一个是观测
数据
。列表示要比较
的
点,行表示小时数。dim(SIM)[1] 400 1000} NA
值
从观测
数据
帧
中
删除,该
数据
<em
浏览 0
提问于2013-06-24
得票数 1
回答已采纳
2
回答
如何检查来自不同
数据
帧
的
列
值
?
、
、
、
我有两个
pyspark
数据
帧
,我想检查第一个
数据
帧
列
值
是否存在于第二列dataframe.If第一个
数据
帧
列
值
不存在于第二个
数据
帧
列
中
,我需要确定这些
值
并将其写入list.Is有没有更好
的
方法来
使用
pyspark
感谢您
的
回复。 df[Name].show()Oracle
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
2
回答
在
PySpark
中将完整文件路径转换为父级绝对路径
的
多行
、
、
在
PySpark
数据
帧
中
,我希望将字符串完整文件路径转换为每个父路径
的
多行。输入
数据
格式
值
:输出:
每行
都应该显示一个绝对路径和/分隔符 ParentFolder
浏览 0
提问于2021-02-06
得票数 1
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一列。 如果
数据
帧
没有列,那么添加一个带有null
值
的
列。如果列存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
在Access VBA
中
,根据变量组
的
数组计算总数
、
、
我有一个从动态查询创建
的
数组。对于一个范围内
的
每个项目和日期,我都会得到几个
值
。这一切都很好。但我需要能够计算每个组(而不是
每行
)
的
合计
,并
使用
该
合计
作为29周内以下日期范围
的
起始
值
。在VBA
中
,我有每一行
数据
的
结束
合计
。然后,我可以在以下日期范围内
使用
该总数。 我
的
代码
的
问题是结束
合
浏览 12
提问于2017-03-16
得票数 0
1
回答
Pyspark
-在空
数据
帧
上调用时withColumn不工作
、
我为一些需求创建了一个空
的
dataframe,当我在它上面调用withColumn函数时,我得到了列,但
数据
是null,如下所示-df = sqlContext.createDataFrame
浏览 17
提问于2018-07-26
得票数 2
回答已采纳
1
回答
如何从
PySpark
中一个DataFrames
的
每一行生成大量
的
DataFrame集合,然后将其缩减?
、
、
、
不幸
的
是,我不能分享我
的
实际代码或
数据
,因为它是专有的,但如果问题对读者来说不是很清楚,我可以生成一个MWE。 我正在处理一个包含大约5000万行
的
数据
帧
,
每行
都包含一个大型XML文档。从每个XML文档
中
,我提取了一个与出现次数和标记之间
的
层次关系相关
的
统计
数据
列表(没有什么比无文档记录
的
XML格式更让人愉快
的
了)。我可以在
数据
浏览 21
提问于2021-10-26
得票数 0
1
回答
统计
pyspark
数据
帧
中
的
出现次数
、
、
、
、
我需要计算
pyspark
数据
帧
中
重复
值
的
出现次数,如下所示。简而言之,当值相同时,它会累加,直到
值
不同为止。当该
值
不同时,将重置计数。我需要它出现在一个专栏里。0 || 1 || 2 || 3 || 3 |+------+ 我需要
的
是
浏览 43
提问于2020-09-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
一个Python大数据处理利器:PySpark入门指南
PySpark,大数据处理的Python加速器!
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券