我有个问题。我想使用分类算法。为此,我有一个列materialNumber,就像列的名称表示材料编号一样。
我如何使用它作为我的机器学习算法的一个特性?
我不能使用它们作为一个热Enconding矩阵,因为有太多不同的材料数(~4500个唯一的材料数)。
如何在分类算法中使用此列?我需要标准化/规范化吗?我想使用RandomForest分类器。
customerId materialNumber
0 1 1234.0
1 1 4562.0
2 2 1234.0
3 2 4562.0
4 3 1547.0
5 3 1547.0 发布于 2022-06-14 13:34:08
在这里,可以通过对材料编号进行分类来对它们进行分组。如果您想在机器学习算法中使用一个分类变量,正如您所提到的,您必须使用“一次热编码”方法。但是在这里,随着唯一的材料编号值的增加,数据中的列数也会增加。
例如,您有一个如下所示的材料编号:
material_num_list=1,2,3,4,5,6,7,8,9,10
假设数字本身是相似的,例如: 1,5,6,7,2,3,8,4,9,10
我们自己可以给这些数字赋值:
正如你所看到的,我们的标签数量已经减少了。我们可以用较少的标签进行“一次热编码”。
但是在这里,需要很好地检查数据集,并且需要以合理的方式完成这个分组过程。如果你能像我提到的那样对材料编号进行分类的话,它可能会起作用。
https://stackoverflow.com/questions/72528978
复制相似问题