可以通过以下步骤实现:
以下是示例代码实现上述步骤:
import pandas as pd
import re
def remove_duplicate_words(df):
for col in df.columns:
for i in range(len(df)):
cell = df.loc[i, col]
if isinstance(cell, str): # 仅处理字符串类型的单元格
words = re.findall(r'\w+', cell.lower()) # 使用正则表达式提取单词
unique_words = list(set(words)) # 去除重复的单词
new_cell = ' '.join(unique_words) # 重新组合单词为字符串
df.loc[i, col] = new_cell # 更新单元格的值
# 示例用法
data = {'Name': ['John Smith', 'Jane Doe', 'Mary Johnson'],
'Age': ['25', '30', '35'],
'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
remove_duplicate_words(df)
print(df)
上述代码会输出处理后的数据框,其中每行每列的字符串中不再包含重复的字词。
关于云计算、IT互联网领域的名词词汇,以下是一些相关概念的简要介绍:
请注意,答案中不包含腾讯云相关产品和产品介绍链接地址,如有需要,请自行参考腾讯云官方文档。
领取专属 10元无门槛券
手把手带您无忧上云