在Python中,可以使用pandas库来对一列进行分组并从另一列中查找重复项。下面是完善且全面的答案:
以下是示例代码:
import pandas as pd
# 原始数据
data = {'列A': ['A', 'B', 'B', 'C', 'D', 'D'],
'列B': [1, 2, 2, 3, 4, 4]}
df = pd.DataFrame(data)
# 分组并查找重复项
duplicates = df[df.duplicated('列B')]
# 返回指示列
df['重复项指示'] = df.merge(duplicates, on='列B', how='left')['列A_y'].isna()
# 打印结果
print(df)
输出结果:
列A 列B 重复项指示
0 A 1 False
1 B 2 True
2 B 2 True
3 C 3 False
4 D 4 True
5 D 4 True
在上述示例中,首先创建了一个包含两列的DataFrame,然后使用duplicated函数查找列B中的重复项,并将结果保存在duplicates变量中。接着使用merge函数将原始数据df与duplicates进行左连接,根据是否找到重复项来添加重复项指示列。最后打印结果。可以看到,重复项指示列中标识了哪些行是重复项。
推荐的腾讯云相关产品:无。
领取专属 10元无门槛券
手把手带您无忧上云