首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用物料编号作为机器学习的特征?

如何使用物料编号作为机器学习的特征?
EN

Stack Overflow用户
提问于 2022-06-07 09:37:30
回答 1查看 61关注 0票数 0

我有个问题。我想使用分类算法。为此,我有一个列materialNumber,就像列的名称表示材料编号一样。

我如何使用它作为我的机器学习算法的一个特性?

我不能使用它们作为一个热Enconding矩阵,因为有太多不同的材料数(~4500个唯一的材料数)。

如何在分类算法中使用此列?我需要标准化/规范化吗?我想使用RandomForest分类器。

代码语言:javascript
复制
   customerId  materialNumber  
0           1          1234.0    
1           1          4562.0     
2           2          1234.0    
3           2          4562.0     
4           3          1547.0     
5           3          1547.0  
EN

回答 1

Stack Overflow用户

发布于 2022-06-14 13:34:08

在这里,可以通过对材料编号进行分类来对它们进行分组。如果您想在机器学习算法中使用一个分类变量,正如您所提到的,您必须使用“一次热编码”方法。但是在这里,随着唯一的材料编号值​​的增加,数据中的列数也会增加。

例如,您有一个如下所示的材料编号:

material_num_list=1,2,3,4,5,6,7,8,9,10

假设数字本身是相似的,例如: 1,5,6,7,2,3,8,4,9,10

我们自己可以给这些数字赋值​​:

  1. 1,5,6,7 -> A
  2. 2,3,8 -> B
  3. 4,9,10 -> C

正如你所看到的,我们的标签数量已经减少了。我们可以用较少的标签进行“一次热编码”。

但是在这里,需要很好地检查数据集,并且需要以合理的方式完成这个分组过程。如果你能像我提到的那样对材料编号进行分类的话,它可能会起作用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72528978

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档