文章/答案/技术大牛

发布

使用apply()函数在pandas中的groupby之后创建列表

基础概念

apply() 函数在 pandas 中用于对 DataFrame 或 Series 进行逐元素或逐行的操作。当与 groupby() 结合使用时，它可以对每个分组应用特定的函数，从而实现更复杂的数据处理任务。

类型

逐元素操作：对 DataFrame 或 Series 中的每个元素应用函数。
逐行或逐列操作：对 DataFrame 中的每一行或每一列应用函数。
分组操作：结合 groupby() 对每个分组应用函数。

应用场景

数据聚合：例如，计算每个分组的平均值、总和等。
数据转换：将数据从一种形式转换为另一种形式，如将分类数据转换为数值数据。
数据筛选：根据某些条件筛选分组数据。

示例代码

假设我们有一个包含学生姓名、班级和成绩的 DataFrame，我们想要计算每个班级的学生成绩列表。

import pandas as pd

# 创建示例 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Class': ['A', 'A', 'B', 'B', 'A'],
    'Score': [85, 90, 78, 88, 92]
}
df = pd.DataFrame(data)

# 使用 groupby 和 apply() 创建每个班级的学生成绩列表
result = df.groupby('Class')['Score'].apply(list)

print(result)

输出

Class
A    [85, 90, 92]
B     [78, 88]
Name: Score, dtype: object

可能遇到的问题及解决方法

问题1：apply() 函数执行速度慢。

原因：对于大数据集，逐元素或逐行操作可能会导致性能瓶颈。

解决方法：

尽量使用内置函数，如 sum()、mean() 等，这些函数通常经过优化。
如果必须使用 apply()，可以考虑使用 numba 或 cython 等工具进行加速。

问题2：apply() 函数返回的结果不符合预期。

原因：自定义函数可能存在逻辑错误，或者对数据的处理方式不正确。

解决方法：

仔细检查自定义函数的逻辑，确保其正确性。
使用 print() 或调试工具逐步跟踪函数的执行过程，找出问题所在。

参考链接

使用apply()函数在pandas中的groupby之后创建列表

、、、

我有这个数据框架： c1 c2 1 A 2 3 A 30 A 2:3:7 1 B 1:5 要做到这一点，最典型的方法是什么：目前，我可以按列1进行分组，并尝试使用apply()函数，但我

浏览 57提问于2021-11-23得票数 0

回答已采纳

8回答

熊猫群后并行化应用

、、、

我使用rosetta.parallel.pandas_easy在apply之后并行化groupby，例如：但是，是否有人知道如何并行化返回DataFrame的函数</em

浏览 7提问于2014-10-03得票数 84

回答已采纳

2回答

当使用'df.groupby( column ).apply()‘时，在'apply’上下文中获取groupby列？

、、、

我想在groupby (即df.groupby(by=column).apply(Here))之后的apply上下文中获取groupby列，即作为by参数(即df.groupby(by=column))提供给df.groupby的列。(['Animal']).apply(Here I want to know that groupby column is &#x

浏览 43提问于2021-10-17得票数 1

回答已采纳

1回答

执行下面的代码会得到一个奇怪的结果。实际上，在将数据帧缝合在一起以提供最终结果时，通过apply插入的列将被忽略。为什么会这样?我怎样才能得到我想要的结果？# initialization and dataframe generationfrom IPython.display import display index0][0],'zero')] = 0 # MultiIndex column label nece

浏览 2提问于2020-09-26得票数 0

1回答

传递什么Pandas数据类型来在一个组中转换或应用

、

在尝试调试groupby函数应用程序时，我使用一个虚拟函数来为每个组“查看传递给函数的内容”的。(['category'])['data_1'].apply(f)df.groupby(['category

浏览 5提问于2013-12-19得票数 6

回答已采纳

1回答

Pandas `agg` to list，"AttributeError / ValueError: Function not reduce“

、、、

通常，当我们使用pandas执行groupby操作时，我们可能希望跨多个系列应用多个函数。似乎是执行这些分组和计算的自然方法。但是，在groupby.agg和groupby.apply的实现方式之间似乎存在差异，因为我不能使用agg对列表进行分组。元组和集合可以很好地工作，这表明你只能通过agg聚合到不可变的类型。通过groupby.a

浏览 29提问于2018-02-22得票数 2

回答已采纳

2回答

当我们用自定义函数对groupby的结果使用apply时，不会传递所有列。

、、、

) a b c1 2 2 x3 4 2 y5 6 2 z AttributeError: 'DataFrame' object has no attr

浏览 0提问于2018-12-10得票数 2

回答已采纳

3回答

Python Pandas，从.groupby().apply()中的group中分割行

、、、、

我有以下代码设置，在Python Pandas DataFrame上调用和groupBy并应用。奇怪的是，如果不完全破坏输出(如调试中所示)，我无法按行分割分组的数据(如df.loc[2:5])，如何删除行并使其提供所需的输出？任何帮助都将不胜感激，我正在用更复杂的函数在一个更大的例子上运行这个例子，但我已经准确地指出了问题所在！代码：df = pd.Dat

浏览 3提问于2016-03-18得票数 4

回答已采纳

1回答

尝试将日志方法应用于Python中的pandas数据框列时出错

、、、

因此，我对Python和Pandas (以及一般的编程)是非常陌生的，但我在使用一个看似简单的函数时遇到了麻烦。因此，我使用SQL查询拉取的数据创建了以下数据帧(如果您需要查看SQL查询，请让我知道，我将粘贴它) spydata = pd.DataFrame(row,columns=['date','ticker','close', 'iv1m&#

浏览 3提问于2013-06-07得票数 9

回答已采纳

1回答

在Python中运行泰尔-森回归时出错

、、、、

这两种数据都具有相同的数据类型。因此，除了实际使用的技术之外，计算它们的函数应该是相同的。这使我相信，stats.theilslopes函数并没有认识到时间是dataframe中的一个列，而是使用' time‘作为函数的字符串输入。我认为是这样的原因是因为与上面完全相同的函数，而是使用siegelsl

浏览 0提问于2019-06-07得票数 1

回答已采纳

1回答

使用Apply和Groupby的Lambda

、、、、

我正在尝试计算由第二列分组的pandas数据帧的列中的唯一值，并将结果作为数据帧中的新列返回。当我在下面的dataframe上测试这个操作时，它返回空值。0.18中，我使用 df['test'] = df.groupby('class').transform('unique') Traceback (most recent call last):p

浏览 37提问于2020-11-24得票数 1

回答已采纳

1回答

Python，Pandas* groupby错误*

、、

product1client3 product1client2 [product1,product6]然后，对于每个列表中的每个元素，我想像这样向新的DataFrame &#x

浏览 1提问于2015-02-27得票数 1

2回答

如何将数据传输到2d列表

、、

p_id": [1, 1, 1, 2,2,3,3],"Time": [25,40,10,21,13,15,20]如何将其转换为以下列表35,10)] #p_id=1 [(25,15), (35,20)]#p_id = 3我试过以下几句话，但效果不太好 df.groupby(‘p_id’)[[‘m_id’,’time’]].apply(list)

浏览 3提问于2021-10-24得票数 0

回答已采纳

1回答

GroupBy电源查询结果是否与pandas.groupby结果不匹配？

、、、、

在PowerQuery中，查询如下所示：#"Removed Columns" = Table.RemoveColumns(#"Grouped Rows",{"Count&q

浏览 11提问于2019-11-02得票数 0

1回答

TypeError: Python3.x中没有关键字参数

、、、

在过去几个月中，我一直使用以下代码行，没有问题：a.groupby(a['Area Code'])突然之间，我在最后一行中遇到了以下错误：‘’是一个(23,2)数据Code，它由一个名为“data_list”是一个<em

浏览 2提问于2020-01-31得票数 1

回答已采纳

1回答

TypeError:在使用apply后跟groupby时，<lambda>()获得了意外的关键字参数'axis‘

、、

我试图从按ID拆分的pandas Dataframe中提取值。但是，当我提供apply groupby时，它不允许我提供轴参数来按行应用函数 raw_data = {"id":{"0":"mergedshape_route_0009","1":"mergedshape_routesite-packages\pandas\core\groupby\groupby.p

浏览 726提问于2019-04-05得票数 2

回答已采纳

4回答

使用带参数的分组Map Pandas* UDF*

、、、

我希望使用data.groupby.apply()将函数应用到每个组的Pyspark的每一行。我还尝试了在这个问题中提出的解决方案(对熊猫数据格式) @pandas</e

浏览 0提问于2019-04-30得票数 22

2回答

如何将pandas数据帧的重复数限制为5？

、

1,1,4,2,4,5,6,3,1,5,2,1,1] 对于A，我们有[1,4,4,6,1,2,1,1]，8个项目，但我想将数据帧转换为字典/列表时将大小限制为

浏览 0提问于2019-08-20得票数 7

1回答

当在groupby中使用sort_values和inplace=True时，究竟出了什么问题？

、、、

基于最近的一个问题，我想知道在应用于inplace=True的函数中使用groupby对组进行排序时到底出了什么问题。('A')这给了我们a 3虽然人们会期待a 3在函数中打印x显示，函数func在每次调用期间应用于组'a' (组apply</e

浏览 5提问于2019-12-07得票数 3

1回答

来自数据帧透视表和索引的迭代列最大统计信息

、、、、

(循环遍历cat列a -> f)，以便通过fruit_colour索引返回最高值，而不是在循环之前选择的索引。从上面的例子中，我想返回：类别，(最高)分数，fruit_colour a，100，apple_red (最大值) b，98，apple_yellow (98最大值，因为100(apple_red)被选为之前的最高指数) c，8，apple_green (由于97(apple_yellow)和80(apple_red)之前的最高索引，8最大值) 手动Excel视图： Excel view

浏览 7提问于2021-03-16得票数 0

点击加载更多

使用apply()函数在pandas中的groupby之后创建列表

基础概念

相关优势

类型

应用场景

示例代码

输出

可能遇到的问题及解决方法

参考链接

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐