Pandas 是一个强大的 Python 数据分析库,提供了高性能、易于使用的数据结构和数据分析工具。它主要用于数据清洗、转换、合并、切片、切块等操作。
假设我们有一个 DataFrame,其中某一列的值包含列表中的某些项作为子字符串,我们希望将这些行保存到不同的 DataFrame 中。
假设我们有一个 DataFrame df
,其中有一列 text
,我们希望根据 text
列中是否包含列表 keywords
中的项来将数据分开。
import pandas as pd
# 示例数据
data = {
'text': ['apple pie', 'banana bread', 'cherry tart', 'date cake', 'elderberry wine']
}
df = pd.DataFrame(data)
# 关键词列表
keywords = ['apple', 'banana', 'cherry']
# 创建空的字典来存储结果
result_dfs = {keyword: pd.DataFrame() for keyword in keywords}
# 遍历关键词列表
for keyword in keywords:
# 使用 str.contains 方法筛选包含关键词的行
result_dfs[keyword] = df[df['text'].str.contains(keyword)]
# 打印结果
for keyword, result_df in result_dfs.items():
print(f"DataFrame for '{keyword}':")
print(result_df)
print()
text
列的 DataFrame。keywords
。result_dfs
,用于存储每个关键词对应的结果 DataFrame。str.contains
方法筛选出包含该关键词的行,并将这些行存储到对应的 DataFrame 中。通过这种方式,我们可以根据特定条件将数据分开,便于后续的分析和处理。
领取专属 10元无门槛券
手把手带您无忧上云