PySpark -未定义的函数collect_list_PySpark导入collect_list失败，函数没有collect_list为什么？_在pyspark的collect_list中包含空值 - 腾讯云开发者社区

、、

我正在寻找嵌套的collect_list并试图找出答案。下面是我的星星之火sql查询 policy.CustomerId, group by 修改查询后，我得到了下面的错误不允许在另一个聚合函数的参数中使用聚合<e

浏览 4提问于2021-06-11得票数 2

回答已采纳

1回答

如何将可变数量的变量传递给pyspark select表达式

、、

我有一个简单的pyspark函数 features=['x', 'y', 'z'] df.groupBy('id').agg(collect_list(features[0]), collect_list(features[1]), ....)我希望它是这样的:如果有人传入features='x'，'y'，'z

浏览 13提问于2020-07-08得票数 0

回答已采纳

1回答

在PySpark 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？

、、

以下问题是针对PySpark版本1.5.0的，因为PySpark中不断添加新特性。| x| y||foo| 1||bar| 10||qux|999|我想要这样的东西在潘达斯，我可以通过以下方式来实现这个星座：pd.groupby('x')['y&#x

浏览 4提问于2016-03-20得票数 1

回答已采纳

7回答

MySQL的GROUP_CONCAT聚合函数的Spark SQL替换

、、

我有一个包含两个字符串类型列的表(username, friend)，对于每个用户名，我希望将它的所有朋友收集在一行上，并以字符串的形式连接起来。例如：('username1', 'friends1, friends2, friends3') 我知道MySQL和GROUP_CONCAT就是这么做的。有没有办法用Spark SQL做到这一点？

浏览 246提问于2015-07-27得票数 40

回答已采纳

1回答

Spark 2.0.2 PySpark未能导入collect_list

、、

我有一个表格的DataFrame：| s|variant_hash|call| File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py不幸的</e

浏览 2提问于2017-05-05得票数 1

1回答

PySpark -未定义的函数collect_list

、、、

我使用的是Python 2.6.6和Spark 1.6.0。我的df是这样的： id | name | number |1 | joe | 148590 |3 | linda | 148590 | 每当我尝试运行类似df2 = df.groupBy('id','length','type').pivot('id').agg(<e

浏览 62提问于2020-07-02得票数 1

回答已采纳

1回答

pyspark 1.4如何在聚合函数中获取列表

、、、

我想在pyspark 1.4中获取聚合函数中的列值列表。collect_list不可用。有没有人有建议怎么做？date, hour, cell1, 1030, 01, cell22, 1030, 02, cell4ID, date, hour, cell_list2, 1030, 01, cell3但

浏览 4提问于2017-12-07得票数 0

1回答

到列表的Conver吡咯烷酮列

、

创建数据框架：from datetime import datetime+------+-------------------+-------------+ 我不确定收藏是否是我能做到的最接近的

浏览 3提问于2020-08-13得票数 1

回答已采纳

1回答

将用户定义的聚合函数应用于pyspark中的替代方法

、、、

我试图将用户定义的聚合函数应用于星火数据，以应用加性平滑，请参见下面的代码：findspark.init()from pyspark.sqlimport SQLContext return (sum(x)+5)&#x

浏览 1提问于2018-01-29得票数 3

回答已采纳

1回答

将pyspark* groupedData转换为pandas DataFrame*

、、、、

我需要通过Spark分组一个大型数据集，我将其加载为两列的Pandas数据框架，然后重新转换为Pandas:基本上是做Pandas -> 'pyspark.sql.group.GroupedData‘-两列中的元素都是整数，分组后的数据需要以列表的形式存储，如下所示：1 33 8...spark_

浏览 1提问于2017-08-03得票数 1

4回答

如何使用pyspark* collect_list函数检索所有列*

、

我有一个pyspark 2.0.1。我正在尝试按我的数据框分组，并从我的数据框中检索所有字段的值。我发现将给我的国家和名称的属性和名称属性的值，它将给出的列标题为collect_list但是对于我的工作，我有大约15列的数据帧&我会运行一

浏览 6提问于2017-10-18得票数 3

2回答

火花放电中sql.dataframe.DataFrame阵列的扁平阵列(不同尺寸)

我有一个pyspark.sql.dataframe.DataFrame，是这样的：|collect_list(results) | userid | page |+---------------------------+-------------

浏览 5提问于2019-12-09得票数 0

回答已采纳

2回答

将结构数组转换为字符串

、、

----+-----+| Tom|physics| 70|+----+-------+-----+df.groupBy('name').agg(collect_list(struct('subject', 'score')).alias-----------

浏览 1提问于2019-08-06得票数 3

回答已采纳

1回答

使用numpy.npv函数的输出向数据帧添加列

、、

我正尝试使用我的pyspark框架中的2列来使用numpy.npv()函数来计算净现值。返回(value/ (1+rate)**np.arange(0，len(Value).sum(axis=0) TypeError: len() ('b',5,43)]).toDF(['Name','yr','cash']) df.sho

浏览 1提问于2019-04-16得票数 2

回答已采纳

2回答

列上PySpark* reduceByKey在collect_list之后的聚合*

、、、

我想以下面的例子为例，根据collect_list收集的“状态”进行聚合。states.map(lambda x:(x,1)).reduceByKey(operator.add).collect()我的代码：from pyspark.sql.session import SparkSession f

浏览 1提问于2017-11-23得票数 0

回答已采纳

2回答

带有groupby的pyspark collect_set或collect_list

、、、、

在groupby之后，如何在数据帧上使用collect_set或collect_list。例如：df.groupby('key').collect_set('values')。

浏览 2提问于2016-06-02得票数 62

回答已采纳

1回答

组合由多个值组成的数据格式列-火花

、

我有两个共享同一个ID列的Spark数据文件：+------+---------+---------++------+-------|| 2 | y |+------+-------++------+---------+---------+---------+ |ID | Name1 | N

浏览 1提问于2019-05-10得票数 0

回答已采纳

2回答

PySpark中的窗口函数和条件过滤器

、、

是否有一种方法可以有条件地将筛选器应用于pyspark中的窗口函数？对于col1中的每个组，我希望只保留在col2中有X的行。如果一个组在X中没有col2，我希望保留该组中的所有行。

浏览 2提问于2019-11-20得票数 0

回答已采纳

1回答

我有一个有2列的DataFrame。第一列是“代码”，可以重复一次以上；第二列是“值”。例如，列1是1,1,1,5,5，列2是15,18,24,38,41。我想要做的是首先按2列的值进行排序，然后执行("groupBy" "Code")和(agg ( df.sort("code","Values") ) )，但是我想对值应用一个列表，所以我需要将每个代码的正如你在这个例子中看到的，"Code“1有3个值，"

浏览 23提问于2020-01-07得票数 2

回答已采纳

1回答

使用Pyspark函数组合4列并按一列分组

、、、

我试图将四列(QBR、码、触地和截取)连接或组合到一个列中，并将它们按球衣编号分组，将sql函数作为pyspark中的f。下面列出了我试图使用的编码、实际数据和预期的数据结果。import pyspark.sql.functions as fdf = df.groupby(

浏览 5提问于2020-09-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在spark中进行嵌套collect_list？

如何将可变数量的变量传递给pyspark select表达式

在PySpark 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？

MySQL的GROUP_CONCAT聚合函数的Spark SQL替换

Spark 2.0.2 PySpark未能导入collect_list

PySpark -未定义的函数collect_list

pyspark 1.4如何在聚合函数中获取列表

到列表的Conver吡咯烷酮列

将用户定义的聚合函数应用于pyspark中的替代方法

将pyspark* groupedData转换为pandas DataFrame*

如何使用pyspark* collect_list函数检索所有列*

火花放电中sql.dataframe.DataFrame阵列的扁平阵列(不同尺寸)

将结构数组转换为字符串

使用numpy.npv函数的输出向数据帧添加列

列上PySpark* reduceByKey在collect_list之后的聚合*

带有groupby的pyspark collect_set或collect_list

组合由多个值组成的数据格式列-火花

PySpark中的窗口函数和条件过滤器

PySpark -如何将列表传递给用户定义函数？

使用Pyspark函数组合4列并按一列分组

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐