在pandas中创建新的数据帧，每个groupby都有条件

在Pandas中，groupby操作是一种强大的工具，它允许你根据一个或多个键对数据进行分组。如果你想在每个分组上应用条件并创建一个新的DataFrame，你可以使用groupby结合apply方法来实现。

基础概念

DataFrame: Pandas中的一个二维表格型数据结构，包含行和列。
groupby: 根据一个或多个键对数据进行分组的操作。
apply: 对每个分组应用一个函数的方法。

类型

条件分组：根据某些条件对数据进行分组。
聚合操作：如求和、平均、最大值、最小值等。
转换操作：如标准化、差分等。

应用场景

数据分析：对数据进行分组统计和分析。
数据清洗：根据条件过滤和转换数据。
预测建模：准备数据集，进行特征工程。

示例代码

假设我们有一个DataFrame，包含销售数据，我们想要根据产品类别分组，并且只保留销售额超过一定阈值的记录。

import pandas as pd

# 创建一个示例DataFrame
data = {
    'product_category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'sales': [100, 200, 150, 300, 50, 75]
}
df = pd.DataFrame(data)

# 定义一个函数，用于过滤销售额超过阈值的记录
def filter_sales(group, threshold):
    return group[group['sales'] > threshold]

# 应用groupby和apply
threshold = 100
filtered_df = df.groupby('product_category').apply(filter_sales, threshold).reset_index(drop=True)

print(filtered_df)