在pandas中创建新的数据帧，每个groupby都有条件

在Pandas中，groupby操作是一种强大的工具，它允许你根据一个或多个键对数据进行分组。如果你想在每个分组上应用条件并创建一个新的DataFrame，你可以使用groupby结合apply方法来实现。

基础概念

DataFrame: Pandas中的一个二维表格型数据结构，包含行和列。
groupby: 根据一个或多个键对数据进行分组的操作。
apply: 对每个分组应用一个函数的方法。

类型

条件分组：根据某些条件对数据进行分组。
聚合操作：如求和、平均、最大值、最小值等。
转换操作：如标准化、差分等。

应用场景

数据分析：对数据进行分组统计和分析。
数据清洗：根据条件过滤和转换数据。
预测建模：准备数据集，进行特征工程。

示例代码

假设我们有一个DataFrame，包含销售数据，我们想要根据产品类别分组，并且只保留销售额超过一定阈值的记录。

import pandas as pd

# 创建一个示例DataFrame
data = {
    'product_category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'sales': [100, 200, 150, 300, 50, 75]
}
df = pd.DataFrame(data)

# 定义一个函数，用于过滤销售额超过阈值的记录
def filter_sales(group, threshold):
    return group[group['sales'] > threshold]

# 应用groupby和apply
threshold = 100
filtered_df = df.groupby('product_category').apply(filter_sales, threshold).reset_index(drop=True)

print(filtered_df)

解释

创建DataFrame: 我们首先创建了一个包含产品类别和销售额的DataFrame。
定义过滤函数: filter_sales函数接受一个分组和一个阈值，返回销售额超过该阈值的分组记录。
应用groupby和apply: 使用groupby按产品类别分组，然后对每个分组应用filter_sales函数。
重置索引: 使用reset_index(drop=True)来重置索引，使得结果DataFrame的索引从0开始连续。

可能遇到的问题及解决方法

问题: 如果分组后的数据量很大，apply操作可能会很慢。

解决方法:

尝试使用更高效的聚合函数，如sum, mean等。
使用transform方法进行向量化操作，这通常比apply更快。
如果可能，考虑使用Dask等并行计算库来处理大规模数据集。

通过这种方式，你可以灵活地对分组数据进行条件过滤和转换，以满足不同的数据分析需求。

在pandas中创建新的数据帧，每个groupby都有条件

、、、、

我正在尝试根据每个groupby的条件创建新的数据帧。假设我有名称、标志和月份的dataframe。import pandas as pd data = {'Name':['A', 'A', 'B', 'B'], 'Flag':[0, 1,

浏览 12提问于2020-04-17得票数 0

1回答

从pandas dataframe中选择特定行

、、

我在pandas数据帧中执行了group by，以查看每个位置和每个日期有多少行。agg_count = df.groupby(['date', 'location']).count() 现在，我希望看到这个新数据帧中满足特定条件的行。比如说，计数大于50。我如何高效地迭代这个巨大的<em

浏览 1提问于2013-03-26得票数 1

回答已采纳

2回答

Dask Dataframe groupby在pandas序列中的结果，我如何返回dask dataframe？

、、、

我正尝试在Dask中执行groupby函数来创建一个新的Dask数据帧。然而，当我做groupby时，结果是一个熊猫系列。当我在Pandas中执行相同的操作时，我确实返回了一个新的数据帧。如何返回新的dask数据帧？返回：

浏览 4提问于2019-10-09得票数 0

1回答

DataFrameGroupBy中键、值的条件迭代

、、、、

我在python (2.7)中有一个pandas (v0.12)数据帧data。我对data中的A和B列进行了groupby()，以形成类型为<class 'pandas.core.groupby.DataFrameGroupBy'>的groups对象。我想遍历groups中包含多行的数据帧并对其应用一个函数。我<

浏览 1提问于2015-02-20得票数 0

3回答

如何从pandas groupby().sum()的输出创建新列？

、、、

正在尝试从groupby计算创建新列。在下面的代码中，我为每个日期获得了正确的计算值(请参阅下面的组)，但是当我尝试使用它创建一个新列(df['Data4'])时，我得到的是NaN。因此，我尝试在数据帧中创建一个新列，其中包含所有日期的Data3和，并将其应用于每个日期行。例如，2015-0

浏览 4提问于2015-05-15得票数 114

1回答

Python Pandas- Groupby列以获取Pandas dataframe列中的两个峰值

、

我使用Python Pandas对一个名为"Trace“的列进行分组。对于每个跟踪，都有一个包含两个峰值的"Value“列，我试图将它们传输到不同的数据帧中。第一个问题是，当我使用groupby时，它不会保留我想要选择的值所在行的其余数据。例如，如果一个Pandas数据帧有6列，那么我想在使

浏览 54提问于2018-08-05得票数 0

回答已采纳

1回答

Python Pandas按迭代分组

、、、

在Python3.6中，我在for循环的帮助下遍历了pandas dataframe中的groupby列。这样做的问题是，如果我有很多数据，它就会变得很慢。这是我的代码：dataDict = {} for metric, df_metric in frontendFrame.groupby('METRIC

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

pandas中的Groupby返回的行太多

、、、

我正在尝试使用groupby函数过滤pandas中的数据帧。其目的是为每个id获取每个变量的最早(按日期)实例。最终，我能够使用tidyr解决R中的问题，如下所示： df_mins <- df %>% slice(which.min(as.Date(date))) 我还使用pandas实现了

浏览 19提问于2020-06-12得票数 1

1回答

选择pandas数据框列中的值，对应于其他列中的值

、、

所以我是python的新手，我正在使用pandas处理数据帧(除了pandas之外不能使用包)，我已经为6种不同的汽车接受了用户输入(制造商，型号，类型，评级)：4 ford taurus sedan B我想要这些数据的条件概率，我使用value_cou

浏览 1提问于2018-06-14得票数 2

2回答

从GroupBy对象中的组中获取除前k行以外的所有行

、、

我有一个pandas GroupBy对象。我使用head(k)将每个组的前k个元素提取到一个数据帧中，我还想提取补码。每个组都有一个非常大的大小。有什么简单的方法可以做到这一点吗？

浏览 2提问于2017-08-01得票数 4

回答已采纳

2回答

对pandas groupby对象中的值进行有条件的计数

、、

我有一个pandas.core.groupby.DataFrameGroupBy对象，其中我试图计算TOTAL_FLOOR_AREA的值为> 30的行数。我可以使用以下命令计算groupby对象中每个数据帧的行数： grouped.aggregate(n

浏览 4提问于2017-08-16得票数 4

回答已采纳

1回答

将新列追加到groupby对象中的pandas数据框中

、、、

我想将列添加到groupby对象中的pandas数据帧中idx = ['a','b','c'] * 10 尝试遍历groupby对象中的每个组，并向该组中的当前数据帧添加<e

浏览 15提问于2017-08-28得票数 1

1回答

如何在我的dataframe中创建一个新变量，用dataframe名称填充值？

、、、

我有一堆数据集，每个数据集都有相同的标题，每个数据集都指向不同的国家。我正在尝试在每个pandas数据帧中创建一个新列，其中填充了我的数据帧名称(这是国家的名称！) 我该怎么做呢？编辑：我没有提到我创建了数据<

浏览 15提问于2019-01-10得票数 0

回答已采纳

1回答

动态地改变内存中的groupby对象而不重建它

、、

为石斑鱼熊猫添加新的索引。假设我有一个由id索引的列为df1,df2,..dfn的其他数据帧的集合。假设命令keys=[df1,..,dfn]和grouper=df.groupby(keys)需要几秒钟才能运行(因为我的数据帧非常大)。我想要将新行添加到我的数据帧<

浏览 0提问于2014-12-05得票数 0

1回答

python pandas循环追加数据帧

、、、

我正在尝试创建一个循环，它将分析时间序列数据，并在一个单独的熊猫数据帧中对“每天”数据进行平均。现在，如果我编造了一些假的时间序列数据来获得一个有效的程序：import numpy as np time = pd.date_range('6/28/2013periods=2000, freq='5min')

浏览 13提问于2018-09-06得票数 1

回答已采纳

1回答

DataFrameGroupBy中的操作

、、、

我试图了解如何在“groupby”或数据帧中的每个组中应用函数。import pandas as pddf = pd.DataFrame({'Stock' : ['apple', 'ford', 'google', 'samsung(['Sector'],as_index=False) type(dfg

浏览 2提问于2014-08-08得票数 0

回答已采纳

2回答

Groupby在Pandas中的变异性能

、、、、

我经常尝试做groupby和mutate的R等效项，但正如许多人指出的那样，简单地使用groupby和apply会受到严重的性能问题的影响。所以我的问题是，在pandas中对数据帧进行分组的最佳(最高性能)方法是什么，然后根据该组中的一些条件，根据一些计算添加一个新列？(我已经搜索了很久，但我

浏览 14提问于2017-07-31得票数 1

回答已采纳

1回答

我无法根据3个条件(检查其他3列中的值)正确地为df行分配值。

、、

我试图将比例值赋值给df中特定行中的列。每一行代表一个特定月份的唯一产品销售额，如下面所示的数据格式(称为testingAgain)：现在我想找出那个独特的产品月的销售额与家庭月销售额的比例。例如，家庭鱼在第一

浏览 2提问于2020-08-26得票数 0

回答已采纳

1回答

PySpark数据帧Pandas* UDF返回空数据帧*

、、、

我正在尝试按照groupby('Key').apply(UDF)方法将pandas_udf应用于我的PySpark数据帧以进行一些过滤。为了使用pandas_udf，我定义了一个输出schema，并在列Number上有一个条件。作为一个例子，这里的简化思想是我只希望返回具有奇数Number的行的ID。这就带来了一个问题，有时在一个组中没有奇怪的

浏览 2提问于2020-05-18得票数 3

3回答

将按类别分列的小计行添加到我的dataframe

、、

我使用groupby创建了一个新的聚合数据帧，并且在每个类别下添加一个小计行时遇到了问题。 df_balance['Subtotal'] = df_bala

浏览 0提问于2019-06-18得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pandas中创建新的数据帧，每个groupby都有条件

基础概念

相关优势

类型

应用场景

示例代码

解释

可能遇到的问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐