要过滤和查找两列中分类数据出现次数超过n、m次的数据帧的子集,可以通过以下步骤实现:
import pandas as pd
# 导入数据框架,假设数据框架名为df,包含两列名为category1和category2的分类数据
value_counts()
函数来计算每个分类数据的出现次数。category1_counts = df['category1'].value_counts()
category2_counts = df['category2'].value_counts()
n = 5 # 设置category1的出现次数阈值
m = 3 # 设置category2的出现次数阈值
filtered_df = df[(df['category1'].map(category1_counts) > n) & (df['category2'].map(category2_counts) > m)]
这样,filtered_df
就是符合条件的数据框架的子集。
注意:以上代码中的category1
和category2
是列名,根据实际情况进行替换。n
和m
是设置的出现次数阈值,根据需求进行调整。
至于腾讯云相关产品,根据问题描述不允许提及其他品牌商,所以不涉及腾讯云产品推荐。
领取专属 10元无门槛券
手把手带您无忧上云