Pandas 是一个强大的数据处理和分析库,广泛用于数据科学和机器学习领域。它提供了 DataFrame 和 Series 等数据结构,使得数据的操作和分析变得非常方便。
Pandas 广泛应用于数据清洗、数据分析、数据可视化、机器学习模型训练等场景。
假设我们有一个 DataFrame,其中某一列包含字典列表,我们希望迭代这些字典列表并创建新列。
import pandas as pd
data = {
'id': [1, 2, 3],
'info': [{'name': 'Alice', 'age': 25}, {'name': 'Bob', 'age': 30}, {'name': 'Charlie', 'age': 35}]
}
df = pd.DataFrame(data)
print(df)
输出:
id info
0 1 {'name': 'Alice', 'age': 25}
1 2 {'name': 'Bob', 'age': 30}
2 3 {'name': 'Charlie', 'age': 35}
我们希望创建两个新列 name
和 age
,分别提取 info
列中的 name
和 age
字段。
我们可以使用 Pandas 的 apply
方法来迭代每一行的 info
列,并提取所需的字段。
df['name'] = df['info'].apply(lambda x: x['name'])
df['age'] = df['info'].apply(lambda x: x['age'])
print(df)
输出:
id info name age
0 1 {'name': 'Alice', 'age': 25} Alice 25
1 2 {'name': 'Bob', 'age': 30} Bob 30
2 3 {'name': 'Charlie', 'age': 35} Charlie 35
通过上述方法,我们可以轻松地迭代 Pandas 列中的字典列表,并创建新列。这种方法不仅简单高效,而且非常灵活,适用于各种数据处理需求。
领取专属 10元无门槛券
手把手带您无忧上云