treatment': [0, 1, 0, 1, 0],
'score': ['strong', 'weak', 'normal', 'weak', 'strong']}
df = pd.DataFrame...]])
# 将数据加载为数据帧
df = pd.DataFrame(X, columns=['feature_1', 'feature_2'])
# 移除带缺失值的观测
df.dropna()...Florida'),
('Texas', 'Alabama')]
# 创建 MultiLabelBinarizer 对象
one_hot = MultiLabelBinarizer()
# 独热编码数据...['Delaware'],
['Texas']])
# 创建 LabelBinzarizer 对象
one_hot = LabelBinarizer()
# 独热编码数据...0 0 0 1
1 1 0 0
2 0 0 1
3 0 1 0
4 0 0 1
预处理类别特征
通常,机器学习方法(例如逻辑回归,具有线性核的 SVM 等)将要求将类别变量转换为虚拟变量(也称为独热编码