Python pandas根据另一列的条件填充缺少的值(NaN

在使用Python的pandas库处理数据时，经常会遇到数据缺失的情况，即某些单元格中的值为NaN（Not a Number）。为了保持数据的完整性和可用性，我们需要对这些缺失的值进行处理。根据另一列的条件来填充缺失值是一种常见的需求。

基础概念

NaN：在pandas中，NaN表示缺失的数据。
条件填充：根据某列的特定条件来决定如何填充另一列中的NaN值。

类型与应用场景

均值/中位数/众数填充：适用于数值型数据，根据统计特性来填充。
向前/向后填充：使用前一个或后一个有效值来填充。
基于条件的填充：根据另一列的值来决定如何填充。

示例代码

假设我们有一个DataFrame，其中包含两列：A和B。我们希望根据列B的值来填充列A中的NaN值。

import pandas as pd
import numpy as np

# 创建示例DataFrame
data = {
    'A': [1, 2, np.nan, 4, np.nan],
    'B': ['x', 'y', 'x', 'y', 'x']
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 根据列'B'的值填充列'A'中的NaN值
# 如果'B'为'x'，则用3填充；如果'B'为'y'，则用5填充
df['A'] = df.apply(lambda row: 3 if pd.isna(row['A']) and row['B'] == 'x' else 
                                  5 if pd.isna(row['A']) and row['B'] == 'y' else row['A'], axis=1)

print("\n填充后的DataFrame:")
print(df)

解释

原始DataFrame：显示了初始的数据状态，其中列A有两个NaN值。
填充逻辑：使用apply函数结合条件判断来决定如何填充NaN值。如果列B的值为x且列A为NaN，则用3填充；如果列B的值为y且列A为NaN，则用5填充。
结果：显示了填充后的DataFrame，其中所有NaN值都已根据列B的条件被适当填充。