腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
按
agg
多
列
分组
、
、
我在下面的Spark数据框中查找groupBy
agg
,并获取col1、col2、col3
列
的平均值、最大值和最小值 sp = spark.createDataFrame([['a',2,4,5],| 7| 7|| b| 2| 4| 4|+---+----+----+----+ 我尝试过
使用
sp.groupBy('id').
agg
({'*':'m
浏览 77
提问于2019-06-21
得票数 1
1
回答
在对数据进行
分组
之前,是否可以安全地进行排序?
、
、
给定一个具有“ProductId”、“date”和“Price”
列
的
pyspark
df,
按
“date”进行排序并假定func.first('Price')总是检索与最小日期对应的价格有
多
安全?我是说:威尔返回每个产品的第一个价格及时支付,而不干扰or
浏览 2
提问于2018-02-23
得票数 1
1
回答
将
PySpark
数据帧提取列作为数组
、
是否可以将特定
列
的所有行提取到类型为array的容器中? 我希望能够提取它,然后将其重塑为数组。目前,我试图提取的
列
类型是udt类型。
浏览 47
提问于2021-11-02
得票数 0
回答已采纳
1
回答
pyspark
将事务转换为列表列表
、
、
、
、
我想在
pyspark
中
使用
PrefixSpan序列挖掘。
浏览 1
提问于2017-06-05
得票数 0
1
回答
将文本文件映射到键/值对,以便将它们
分组
、
我想从文本文件中创建一个火花数据文件,它有不同的行数和
列
数,并将其映射到key/value对,键是文本文件第一
列
中的前4个字符。我希望这样做,以便删除多余的行,并能够在以后按键值对它们进行
分组
。我的输入是一个包含以下内容的文本文件: 891011,sara,femal,germany 我希望能够
按
第一
列
的前六个字符对每一行进行
分组
。
浏览 4
提问于2018-10-29
得票数 3
回答已采纳
2
回答
pyspark
dataframe、groupby和
列
的方差计算
、
、
、
我想
按
pyspark
数据帧
分组
,并计算特定
列
的方差。对于一般人来说,这很容易,可以这样做AVERAGES=df.groupby('country').
agg
(func.avg
浏览 7
提问于2015-08-12
得票数 5
2
回答
多个列表中每个元素的焦火花平均值
、
、
、
我有一个有2
列
的df:这是一个关于它的外观的示例:| vector| id
浏览 1
提问于2022-03-04
得票数 1
2
回答
通过对
多
列
进行
分组
,用平均值填充缺失值
、
描述:“如何用平均、
按
条件
分组
数据和
按
Pyspark
中的模型
列
来填充价格
列
中缺失的值?像这样,代码:cars_new=cars.fillna((cars.groupBy("condition", "model").
agg
(mean("price"))['avg(price)']))错误:
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
使用
Pandas计算标准差时出现错误
、
、
我正在尝试
使用
groupby中的两个变量来计算
多
列
的标准差。然而,我的代码抛出了一个错误,我很难找出它。我正在
使用
https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/作为指南。P NaN -3 -100.0 这是我写的代码 home_std_dev = home_analysis_data.groupby('Book
浏览 8
提问于2019-04-08
得票数 1
回答已采纳
4
回答
如何
使用
pyspark
collect_list函数检索所有
列
、
我有一个
pyspark
2.0.1。我正在尝试
按
我的数据框
分组
,并从我的数据框中检索所有字段的值。我发现将给我的国家和名称的属性和名称属性的值,它将给出的
列
标题为collect_list但是对于我的工作,我有大约15
列
的数据帧&我会运行一个循环,每次在循环中改变groupby字段,需要所有剩余的fields.Can的输出,你能
浏览 6
提问于2017-10-18
得票数 3
1
回答
显示组和
agg
之后的所有火花放电
列
我希望
按
一
列
分组
,然后找到另一
列
的最大值。最后,显示基于此条件的所有
列
。然而,当我
使用
我的代码时,它只显示2
列
,而不是所有
列
。# Normal way of creating dataframe in
pyspark
(2,2,'0-2spark.createDataFrame([ (4,6,'4-6'),
浏览 0
提问于2020-01-19
得票数 0
回答已采纳
0
回答
Pandas
agg
函数,具有对
多
列
的操作
、
、
、
如果我们可以
使用
pandas.core.groupby.DataFrameGroupBy.
agg
函数对
多
列
进行算术运算,我很感兴趣。({0: 'mean', 1: 'sum', 2: 'nunique', 'C': 'mean0-mean1'})) 有没有可能我们收到像这个例子这样的结果:
按
列
'C‘
分组
的
列
0和
列
1的平均值之间
浏览 3
提问于2017-12-09
得票数 0
2
回答
将大熊猫转化为火花放电的表达
、
、
、
、
我需要将两
列
Dataframe转换为
按
其中一
列
分组
的列表。我已经在熊猫上成功地做到了:但是现在我尝试在
pySpark
中做同样的事情,如下所示:
浏览 4
提问于2016-10-22
得票数 5
回答已采纳
1
回答
最常出现的词
、
、
、
、
我有一个
列
:语言和单词的数据 ('eng', "cat"), ('eng','dog'|text|| eng| cat|| eng| dog|+----+----+lang count
浏览 1
提问于2021-11-02
得票数 0
回答已采纳
1
回答
如何在
Pyspark
中创建多个计数列?
、
、
、
| Fight Club (1999)| 3|如何将bin计算到新数据文件的每个单独
列
中
浏览 2
提问于2022-01-15
得票数 1
回答已采纳
1
回答
在
pySpark
数据帧上聚合的多个条件
、
、
我有一个看起来像这样的
pySpark
数据帧:| sku| date||MLA-605502281|02/10/2016|+-------------+----------+其行为与Pandas相同,
浏览 0
提问于2016-10-27
得票数 20
回答已采纳
1
回答
数据合并后柱的俾斯卡姆和
、
、
、
在合并两个dataframe之后,如何对所有
列
进行求和?-09| null| null| c| 11| 31|我想得到的是df2中所有
列
的总和(在实际情况中有10
列
),直到每个userid的日期为止,因此每个用户有一行:| date|16|| a| 3
浏览 4
提问于2022-01-10
得票数 0
回答已采纳
5
回答
星火中的
多
列
求和
、
、
如何将星火中的
多
列
和起来?例如,在SparkR中,下面的代码可以得到一个
列
的和,但是如果我试图在df中得到两个
列
的和,就会得到一个错误。# Create SparkDataFramehead(
agg
(df, totalWaiting = sum(df$waiting))) # Use
agg
to
浏览 4
提问于2017-06-12
得票数 12
回答已采纳
2
回答
带有groupby的
pyspark
collect_set或collect_list
、
、
、
、
在groupby之后,如何在数据帧上
使用
collect_set或collect_list。例如:df.groupby('key').collect_set('values')。
浏览 2
提问于2016-06-02
得票数 62
回答已采纳
5
回答
如何计算火花放电中groupBy后的唯一ID
、
、
我每年都会
使用
下面的代码来提高学生的年龄。目的是了解每年的学生总数。from
pyspark
.sql.functions import colgr = Df2.groupby(['Year'])gr.
agg
(fn.count(col('Student_ID')).alias('total_student_by_year')) 我发现这么
多
ID被重复
浏览 2
提问于2017-09-26
得票数 62
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel数据分组技巧:如何用函数将单列拆分为多列
Python Pandas模块数据统计与分析常用方法
Excel高级技能:按分隔符拆分成多行,支持多列批量拆分
Python之数据聚合与分组运算
PySpark,大数据处理的超级英雄,一个让数据分析提速100倍的Python库!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券