]])
# 将数据加载为数据帧
df = pd.DataFrame(X, columns=['feature_1', 'feature_2'])
# 移除带缺失值的观测
df.dropna()...df
Score Scale
0 Low 1
1 Low 1
2 Medium 2
3 Medium 2
4 High 3
使用下采样处理不平衡类
在下采样中,我们从多数类(即具有更多观测值的类)..., y[i_class1_downsampled]))
# array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
使用上采样处理不平衡类别...axis=0)
# 在 df 数据及上训练填充器
mean_imputer = mean_imputer.fit(df)
# 将填充器应用于 df 数据集
imputed_df = mean_imputer.transform...有一些常用的方法可以预处理分类特征:使用 pandas 或 scikit-learn。