关于分类特性的特性重要性的查询:
上下文:我有几乎185个分类特性,这些分类特性有2、3、8、1或有时4类,null也是。我需要为我的模型选择前60个功能。我还了解到,需要根据业务重要性或通过随机森林/决策树选择特征重要性来选择特征。
查询:
发布于 2018-12-15 10:44:31
据我所知,您有185个功能,其中您想选择80个信息最丰富/最重要的?
这似乎是所有决策树算法的主要关注点,那就是如何决定哪个属性是最适合分割的?我建议您在决策树的上下文中进行一些阅读。例如:决策树-表示
您正在寻找的是一种杂质度量,它可以帮助确定由于某些离散属性(基本上是测量信息增益)而产生的分裂的好处:

其中最常用的度量有三种:基尼指数、误分类误差和熵。

https://datascience.stackexchange.com/questions/42656
复制相似问题