我尝试将熊猫get_dummies函数应用到我的数据集中。问题是类别值的个数不匹配,列集和有效集不匹配。例如,火车组列有5种类型的值。例: 1,2,3,4,5,有效集只有3种值。例: 1,3,5
当我使用训练数据集建立模型时,有5个假人正在被创建。例: dum_1,dum_2,dum_3,dum_4,dum_5
因此,如果我只对有效数据集使用相同的函数,则只会创建3个虚拟数据集。例: dum_1,dum_2,dum_3
无法预测使用我的模型的有效数据集。如何为列车和有效集合制作相同的假人?(无法连接2数据集。除使用pd.concat外,请提出其他方法)
另外,如果我为有效集添加了新列,我希望它会产生不同的结果。因为虚拟序列在列车和有效集合之间不匹配。
谢谢。
发布于 2021-07-11 09:30:56
你要做的就是
missing_cols = [col for col in train.columns if col not in valid.columns]
for col in missing_cols:
valid[col] = 0
valid = valid[[train.columns]]
https://stackoverflow.com/questions/68336993
复制相似问题