从csv文件中删除停用词可以通过以下步骤实现:
以下是一个示例代码:
import pandas as pd
from nltk.corpus import stopwords
# 读取csv文件
data = pd.read_csv('input.csv')
# 加载停用词列表
stop_words = set(stopwords.words('english'))
# 删除停用词
filtered_data = []
for index, row in data.iterrows():
words = row['text'].split() # 假设文本内容在'text'列中
filtered_words = [word for word in words if word.lower() not in stop_words]
filtered_data.append(' '.join(filtered_words))
# 创建新的DataFrame对象
filtered_df = pd.DataFrame({'text': filtered_data})
# 保存处理后的数据为新的csv文件
filtered_df.to_csv('output.csv', index=False)
这段代码假设csv文件中的文本内容在名为'text'的列中,可以根据实际情况进行调整。输出的处理后的数据将保存为名为'output.csv'的新文件。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云