首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >关于分类特性的特性重要性的查询

关于分类特性的特性重要性的查询
EN

Data Science用户
提问于 2018-12-15 07:19:17
回答 1查看 103关注 0票数 1

关于分类特性的特性重要性的查询:

上下文:我有几乎185个分类特性,这些分类特性有2、3、8、1或有时4类,null也是。我需要为我的模型选择前60个功能。我还了解到,需要根据业务重要性或通过随机森林/决策树选择特征重要性来选择特征。

查询:

  1. 我已经绘制了每个特征(价值计数与类别)的直方图来进行分析。选择功能是否重要的方法是什么?
  2. 从分类数据中获得特征重要性,数据科学行业遵循的标准实践是什么?
  3. 是否有基本和优雅的方式来选择最重要的特性?
  4. 我如何设计这些分类特征?
EN

回答 1

Data Science用户

发布于 2018-12-15 10:44:31

据我所知,您有185个功能,其中您想选择80个信息最丰富/最重要的?

这似乎是所有决策树算法的主要关注点,那就是如何决定哪个属性是最适合分割的?我建议您在决策树的上下文中进行一些阅读。例如:决策树-表示

您正在寻找的是一种杂质度量,它可以帮助确定由于某些离散属性(基本上是测量信息增益)而产生的分裂的好处:

其中最常用的度量有三种:基尼指数、误分类误差和熵。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42656

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档