腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在spark中进行嵌套
collect_list
?
、
、
我正在寻找嵌套
的
collect_list
并试图找出答案。下面是我
的
星星之火sql查询 policy.CustomerId, group by 修改查询后,我得到了下面的错误 不允许在另一个聚合
函数
的
参数中使用聚合<e
浏览 4
提问于2021-06-11
得票数 2
回答已采纳
1
回答
如何将可变数量
的
变量传递给
pyspark
select表达式
、
、
我有一个简单
的
pyspark
函数
features=['x', 'y', 'z'] df.groupBy('id').agg(
collect_list
(features[0]),
collect_list
(features[1]), ....)我希望它是这样
的
:如果有人传入features='x','y','z
浏览 13
提问于2020-07-08
得票数 0
回答已采纳
1
回答
在
PySpark
1.5.0中,如何根据‘x’列
的
值列出‘y’列
的
所有项?
、
、
以下问题是针对
PySpark
版本1.5.0
的
,因为
PySpark
中不断添加新特性。| x| y||foo| 1||bar| 10||qux|999|我想要这样
的
东西在潘达斯,我可以通过以下方式来实现这个星座:pd.groupby('x')['y
浏览 4
提问于2016-03-20
得票数 1
回答已采纳
7
回答
MySQL
的
GROUP_CONCAT聚合
函数
的
Spark SQL替换
、
、
我有一个包含两个字符串类型列
的
表(username, friend),对于每个用户名,我希望将它
的
所有朋友收集在一行上,并以字符串
的
形式连接起来。例如:('username1', 'friends1, friends2, friends3') 我知道MySQL和GROUP_CONCAT就是这么做
的
。有没有办法用Spark SQL做到这一点?
浏览 246
提问于2015-07-27
得票数 40
回答已采纳
1
回答
Spark 2.0.2
PySpark
未能导入
collect_list
、
、
我有一个表格
的
DataFrame:| s|variant_hash|call| File "/usr/lib/spark/python/lib/
pyspark
.zip/
pyspark
/sql/utils.py不幸
的</e
浏览 2
提问于2017-05-05
得票数 1
1
回答
PySpark
-
未定义
的
函数
collect_list
、
、
、
我使用
的
是Python 2.6.6和Spark 1.6.0。我
的
df是这样
的
: id | name | number |1 | joe | 148590 |3 | linda | 148590 | 每当我尝试运行类似df2 = df.groupBy('id','length','type').pivot('id').agg(<e
浏览 62
提问于2020-07-02
得票数 1
回答已采纳
1
回答
pyspark
1.4如何在聚合
函数
中获取列表
、
、
、
我想在
pyspark
1.4中获取聚合
函数
中
的
列值列表。
collect_list
不可用。有没有人有建议怎么做?date, hour, cell1, 1030, 01, cell22, 1030, 02, cell4ID, date, hour, cell_list2, 1030, 01, cell3但
浏览 4
提问于2017-12-07
得票数 0
1
回答
到列表
的
Conver吡咯烷酮列
、
创建数据框架:from datetime import datetime+------+-------------------+-------------+ 我不确定收藏是否是我能做到
的
最接近
的
浏览 3
提问于2020-08-13
得票数 1
回答已采纳
1
回答
将用户定义
的
聚合
函数
应用于
pyspark
中
的
替代方法
、
、
、
我试图将用户定义
的
聚合
函数
应用于星火数据,以应用加性平滑,请参见下面的代码:findspark.init()from
pyspark
.sqlimport SQLContext return (sum(x)+5)
浏览 1
提问于2018-01-29
得票数 3
回答已采纳
1
回答
将
pyspark
groupedData转换为pandas DataFrame
、
、
、
、
我需要通过Spark分组一个大型数据集,我将其加载为两列
的
Pandas数据框架,然后重新转换为Pandas:基本上是做Pandas -> '
pyspark
.sql.group.GroupedData‘-两列中
的
元素都是整数,分组后
的
数据需要以列表
的
形式存储,如下所示:1 33 8...spark_
浏览 1
提问于2017-08-03
得票数 1
4
回答
如何使用
pyspark
collect_list
函数
检索所有列
、
我有一个
pyspark
2.0.1。我正在尝试按我
的
数据框分组,并从我
的
数据框中检索所有字段
的
值。我发现将给我
的
国家和名称
的
属性和名称属性
的
值,它将给出
的
列标题为
collect_list
但是对于我
的
工作,我有大约15列
的
数据帧&我会运行一
浏览 6
提问于2017-10-18
得票数 3
2
回答
火花放电中sql.dataframe.DataFrame阵列
的
扁平阵列(不同尺寸)
我有一个
pyspark
.sql.dataframe.DataFrame,是这样
的
:|
collect_list
(results) | userid | page |+---------------------------+-------------
浏览 5
提问于2019-12-09
得票数 0
回答已采纳
2
回答
将结构数组转换为字符串
、
、
----+-----+| Tom|physics| 70|+----+-------+-----+df.groupBy('name').agg(
collect_list
(struct('subject', 'score')).alias-----------
浏览 1
提问于2019-08-06
得票数 3
回答已采纳
1
回答
使用numpy.npv
函数
的
输出向数据帧添加列
、
、
我正尝试使用我
的
pyspark
框架中
的
2列来使用numpy.npv()
函数
来计算净现值。返回(value/ (1+rate)**np.arange(0,len(Value).sum(axis=0) TypeError: len() ('b',5,43)]).toDF(['Name','yr','cash']) df.sho
浏览 1
提问于2019-04-16
得票数 2
回答已采纳
2
回答
列上
PySpark
reduceByKey在
collect_list
之后
的
聚合
、
、
、
我想以下面的例子为例,根据
collect_list
收集
的
“状态”进行聚合。states.map(lambda x:(x,1)).reduceByKey(operator.add).collect()我
的
代码:from
pyspark
.sql.session import SparkSession f
浏览 1
提问于2017-11-23
得票数 0
回答已采纳
2
回答
带有groupby
的
pyspark
collect_set或
collect_list
、
、
、
、
在groupby之后,如何在数据帧上使用collect_set或
collect_list
。例如:df.groupby('key').collect_set('values')。
浏览 2
提问于2016-06-02
得票数 62
回答已采纳
1
回答
组合由多个值组成
的
数据格式列-火花
、
我有两个共享同一个ID列
的
Spark数据文件:+------+---------+---------++------+-------|| 2 | y |+------+-------++------+---------+---------+---------+ |ID | Name1 | N
浏览 1
提问于2019-05-10
得票数 0
回答已采纳
2
回答
PySpark
中
的
窗口
函数
和条件过滤器
、
、
是否有一种方法可以有条件地将筛选器应用于
pyspark
中
的
窗口
函数
?对于col1中
的
每个组,我希望只保留在col2中有X
的
行。如果一个组在X中没有col2,我希望保留该组中
的
所有行。
浏览 2
提问于2019-11-20
得票数 0
回答已采纳
1
回答
PySpark
-如何将列表传递给用户定义
函数
?
、
、
我有一个有2列
的
DataFrame。第一列是“代码”,可以重复一次以上;第二列是“值”。例如,列1是1,1,1,5,5,列2是15,18,24,38,41。我想要做
的
是首先按2列
的
值进行排序,然后执行("groupBy" "Code")和(agg ( df.sort("code","Values") ) ),但是我想对值应用一个列表,所以我需要将每个代码
的
正如你在这个例子中看到
的
,"Code“1有3个值,"
浏览 23
提问于2020-01-07
得票数 2
回答已采纳
1
回答
使用
Pyspark
函数
组合4列并按一列分组
、
、
、
我试图将四列(QBR、码、触地和截取)连接或组合到一个列中,并将它们按球衣编号分组,将sql
函数
作为
pyspark
中
的
f。下面列出了我试图使用
的
编码、实际数据和预期
的
数据结果。import
pyspark
.sql.functions as fdf = df.groupby(
浏览 5
提问于2020-09-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编程字典-详细的PySpark环境设置
0483-如何指定PySpark的Python运行环境
0485-如何在代码中指定PySpark的Python运行环境
PySpark数据分析基础:PySpark原理详解
SUM函数、SUMIF函数、DSUM函数的实战应用
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券