是指在对数据进行分组聚合操作后,为每个分组添加一个表示类别的列。这样可以更方便地对分组后的数据进行进一步的分析和处理。
添加类别列的操作可以通过以下步骤实现:
例如,假设我们有一个包含学生姓名、科目和成绩的数据集,我们想要按科目对学生进行分组,并在每个分组中添加一个表示科目的类别列。可以按照以下步骤进行操作:
import pandas as pd
# 创建示例数据集
data = {'姓名': ['张三', '李四', '王五', '赵六', '张三', '李四', '王五', '赵六'],
'科目': ['数学', '数学', '英语', '英语', '物理', '物理', '化学', '化学'],
'成绩': [80, 85, 90, 95, 70, 75, 85, 90]}
df = pd.DataFrame(data)
# 按科目进行分组,并添加类别列
df['类别'] = df.groupby('科目')['姓名'].transform(lambda x: x.iloc[0])
# 打印结果
print(df)
输出结果如下:
姓名 科目 成绩 类别
0 张三 数学 80 张三
1 李四 数学 85 张三
2 王五 英语 90 王五
3 赵六 英语 95 王五
4 张三 物理 70 张三
5 李四 物理 75 张三
6 王五 化学 85 王五
7 赵六 化学 90 王五
在上述示例中,我们首先使用groupby函数按科目对数据进行分组。然后,使用transform函数在每个分组中添加一个类别列,该列的值为每个分组中第一个姓名的值。最后,将结果赋值给原始数据集的新列"类别"。
领取专属 10元无门槛券
手把手带您无忧上云