在数据处理中,DataFrame是一种常用的数据结构,尤其在Python的Pandas库中。它类似于表格,包含行和列,每列可以是不同的数据类型(如整数、字符串、浮点数等)。基于列表中部分匹配字符串过滤DataFrame是指根据一个字符串列表,筛选出DataFrame中包含这些字符串的行。
假设我们有一个包含姓名和职业的DataFrame,并且我们希望根据一个字符串列表过滤出包含这些字符串的行。
import pandas as pd
# 创建示例DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Lawyer', 'Artist']
}
df = pd.DataFrame(data)
# 定义匹配字符串列表
keywords = ['Eng', 'Doc']
# 过滤DataFrame
filtered_df = df[df['Name'].str.contains('|'.join(keywords)) | df['Occupation'].str.contains('|'.join(keywords))]
print(filtered_df)
str.contains
方法和正则表达式'|'.join(keywords)
来匹配包含这些字符串的行。通过这种方式,你可以灵活地根据部分匹配字符串过滤DataFrame,从而满足各种数据处理需求。
领取专属 10元无门槛券
手把手带您无忧上云