腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
计数
PySpark
数据
帧
中
出现
的
次数
为
零
、
、
、
、
如何计算每个
PySpark
Dataframe's行
中
0s
的
出现
次数
?我想要这个结果,请注意,n0列包含逐行
计数
: +--------+-----+-----+----+-----+---++-
浏览 17
提问于2020-11-15
得票数 0
回答已采纳
1
回答
大熊猫在火花源中
计数
、
、
、
目前正在尝试将我从pandas创建
的
脚本转换为
pyspark
,我有一个
数据
帧
,其中包含以下形式
的
数据
: index | letter0 | a2 | b4 | a6 | b 我想创建以下
数据
帧
,其中存储了字母
的
每个实例
的
出现
次数
,例如,第一次看到"
浏览 4
提问于2019-06-20
得票数 0
回答已采纳
1
回答
统计
pyspark
数据
帧
中
的
出现
次数
、
、
、
、
我需要计算
pyspark
数据
帧
中
重复值
的
出现
次数
,如下所示。简而言之,当值相同时,它会累加,直到值不同为止。当该值不同时,将重置
计数
。我需要它
出现
在一个专栏里。0 || 1 || 2 || 3 || 3 |+------+ 我需要
的
是
浏览 43
提问于2020-09-09
得票数 0
2
回答
pyspark
数据
帧
中所有列
的
总
计数
为
零
、
、
我需要找出
pyspark
dataframe中所有列
中
0
的
百分比。如何在
数据
帧
中找到每一列
的
零
计数
? 附言:我尝试过将
数据
帧
转换为pandas
数据
帧
,并使用了value_counts。但是,对于大型
数据
集来说,推断它
的
观察值是不可能
的
。
浏览 0
提问于2018-08-20
得票数 4
1
回答
在
pyspark
数据
帧
中
查找结构类型列
中
的
文本
、
我想找出在
数据
帧
的
结构类型列中
出现
"matches_count“文本
的
次数
。我怎样才能在
pyspark
中
实现这一点。我需要返回一个包含
计数
的
列。此外,每一行
的
结构都不同,因此行
中
可能存在也可能不存在相同
的
键。"matches_count": 30 }
浏览 0
提问于2020-06-09
得票数 1
4
回答
Python Pandas:获取具有最高值
的
行
、
我有一个
数据
框架,以年份(1910 ~ 2014)、名称、
计数
(每个名称
出现
的
次数
)
为
列。我想创建一个新
的
数据
帧
,显示每年
出现
次数
最多
的
名称,但我不完全确定如何做到这一点。谢谢!
浏览 1
提问于2018-10-09
得票数 0
1
回答
如何在ggplot2
中
将条形图中y轴
的
比例更改为千?
、
、
、
我使用
的
是以下代码:绘制
数据
帧
DATAFRAME
中
变量
的
每一级中
出现
的
次数
。但是,这是一个相当长
的
数据
帧
,所以我希望
计数
以千
为
单位,而不是单位。有人知道怎么做吗?
浏览 7
提问于2017-07-20
得票数 0
回答已采纳
1
回答
Apache特征提取Word2Vec示例和异常
、
、
、
、
A.以下是我
的
配置:火花版本: 1.4.1 (版本也在1.4.0
中
)B.示例源代码:inp = sc.textFile(1.4.1-bin-hadoop2.6\python\lib\
pyspark
浏览 1
提问于2015-08-15
得票数 1
2
回答
Python Pandas:根据
出现
次数
删除条目
、
、
、
我正在尝试从
数据
帧
中
删除
出现
次数
少于100次
的
条目。
数据
帧
data如下所示:1 23 1 622 453 25现在,我像这样计算标记
出现
的
次数
: bytag = data.groupby('tag').aggregate(np.count_n
浏览 447
提问于2012-11-19
得票数 25
回答已采纳
1
回答
对于每一行,选择值不是'0‘
的
所有实例(在任何/所有列
中
)
、
0 0 0 12 尝试获取值不为
零
的
所有时间
的
总和/平均值,对于每一行(然后将其添加为“sum/mean”列),以进行输出: Col1 Col20 2 1 2 0 0 0 12 3 在df
中
,我记录了事件发生
的
次数
。我正在尝试获取平均
出现
次数<
浏览 20
提问于2019-07-01
得票数 1
2
回答
多个嵌套列表R
中
的
计数
假设我有一个长度
为
2
的
列表,其中是另一个长度
为
2
的
列表,其中有一个编码
为
0、1或2
的
数字
数据
帧
(请耐心等待!)l2<-data.frame(sample(0:2, 5, replace = TRUE))ll<-list(list(l,l), list(l,l)) 我需要计算在每个
数据
帧
中
出现
然后,我需要对以上级别的所有
计数
进行求和。
浏览 24
提问于2020-02-28
得票数 0
回答已采纳
1
回答
pandas:基于列表
中
的
值进行分组或过滤,而不是基于
数据
帧
、
我希望获得每个值
的
频率
的
行数,即使该值不存在于
数据
帧
中
。“伤害”
出现
次数
的
计数
。我实际上希望将
数据
帧
中
的
记录与外部值列表进行比较--在本例
中
为
['a','b','c','d']。因此,如果这个
数据
帧
中</e
浏览 0
提问于2016-06-24
得票数 0
1
回答
动态汇总和重命名
PySpark
中
的
聚合列
、
、
、
、
我有一个
PySpark
数据
帧
(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独
的
列表(Reqd_col)
中
。我想对列表(Reqd_col)
中
存在
的
PySpark
data frame(df)
中
的
那些列进行汇总(按固定列‘region’分组)和汇总总和或
计数
,汇总列
的
名称应与列
的
原始名称相同,而不是
PySpark
浏览 24
提问于2021-09-08
得票数 0
2
回答
计算google工作表单元格上
出现
的
次数
。
、
、
、
、
我正在尝试计算单元格上
的
出现
数,但在work.So看来似乎并非如此,例如,我有dumy_data表,其中包含我想要
计数
的
虚拟
数据
。在另一张试纸上,我想要显示结果。$A$2:$A$13,","),A2)}
的
事情,但是我得到
的
是露西肯
的
出现
次数
为
零
。假设结果
为
2作为发生
的
次数
,而不是0。同时发生
的</em
浏览 8
提问于2021-11-23
得票数 0
回答已采纳
1
回答
如何在Pandas中比较每个组
的
group by
计数
?
、
、
、
、
我将一个EAV表加载到一个Pandas
数据
帧
中
。我使用group by来计算每个实体
的
每个字段
的
出现
次数
。我想要比较价格和产品名称
的
计数
,提取
计数
不相等
的
,并提取它们进行处理(在本例
中
为
a和c)。目前,
计数
也
出现
在与标题不同
的
行
中
。任何帮助都将不胜感激。
浏览 1
提问于2017-07-24
得票数 1
1
回答
如何在
pyspark
dataframe列上拟合内核密度估计值,并使用它创建包含估计值
的
新列
、
我
的
用法如下。假设我有一个
pyspark
数据
帧
,它
的
格式如下: df.columns: 1. hh:包含一天
中
的
小时(类型
为
int) 2. userId :一些唯一
的
标识符。所以我首先做一个groupby : df=df.groupby("hh","userId).count().alias("LoginCounts) 现在
数据
帧
的
格式将是:
浏览 2
提问于2018-03-08
得票数 1
1
回答
Pyspark
: PicklingError:无法序列化对象:
、
、
我有以下两个
数据
帧
: df_whitelist和df_text|keyword| whitelist_terms ||this client has l...| client;LA|在df_whitelist
中
,每个关键字对应一组术语在df_text
中
,我有文本和在这个文本中找到
的
一些关键字。我想要做
的
是,对
浏览 4
提问于2017-11-12
得票数 9
回答已采纳
3
回答
从R中大矩阵
中
的
行中计算指定值
的
更快方法
MC是一个非常大
的
矩阵,有1E6行(或更多)和500列。我正在尝试获取每列
的
值1到13
的
出现
次数
。有时,这些值之一
的
出现
次数
将为
零
。我希望我
的
最终输出是具有这些
计数
值
的
300X13矩阵(或
数据
帧
)。我想知道是否有人可以提出一个比我目前所拥有的更有效
的
方式,这是:for (j
浏览 2
提问于2017-05-04
得票数 0
2
回答
计算Dataframe
中
的
特定值
、
、
如果我在
数据
帧
中有一列,并且该列包含两个可能
的
分类变量,我如何计算每个变量
出现
的
次数
? 那么,例如,我如何计算研究中有多少参与者是男性或女性?
浏览 0
提问于2018-07-03
得票数 0
3
回答
循环遍历
数据
帧
并获取
计数
。输出到其他
数据
帧
、
、
、
、
我有一个由1-9整数填充
的
30 *9
数据
帧
。每个整数都可以在列
中
多次使用,或者根本没有。我基本上想要计算一个数字
出现
的
次数
,以便
为
原始
数据
帧
的
每个元素生成一个9行(
计数
的
)列,最后得到一个9*9
的
计数
数据
帧
。我还希望在特定列
中
不显示数字
的
位置
为</e
浏览 5
提问于2022-09-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
PySpark,大数据处理的Python加速器!
几种常见的平滑算法
学习笔记DB4:大数据近似算法
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券