,可以通过以下步骤实现:
import pandas as pd
import re
data = {'列名1': ['单词1', '单词2', '单词3'],
'列名2': ['单词4', '单词5', '单词6']}
df = pd.DataFrame(data)
def find_common_words(df, column1, column2):
# 将两列合并为一个字符串
combined_text = ' '.join(df[column1].tolist() + df[column2].tolist())
# 使用正则表达式提取所有的单词
words = re.findall(r'\b\w+\b', combined_text)
# 统计每个单词的出现次数
word_counts = pd.Series(words).value_counts()
# 返回出现次数最多的前几个单词
return word_counts.head(10)
common_words = find_common_words(df, '列名1', '列名2')
print(common_words)
这样就可以在由单词列表组成的pandas数据框的两列中查找常用单词,并输出出现次数最多的前几个单词。
请注意,以上代码中的"列名1"和"列名2"需要替换为实际的列名,根据数据框的结构进行调整。另外,函数中的正则表达式可以根据需要进行修改,以适应不同的单词提取需求。
领取专属 10元无门槛券
手把手带您无忧上云