前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据挖掘中模型填补的方法

数据挖掘中模型填补的方法

作者头像
许卉
发布2019-07-15 17:28:06
1.1K0
发布2019-07-15 17:28:06
举报
文章被收录于专栏:Data Analyst

填补方法与样本量相关

通常,数据挖掘领域 建模时 数据样本的填补方法样本量的大小息息相关,一般,如果变量间取值关联程度较强,则模型填补的方式似乎更为常见:

  • 样本量适中的情况下,我会使用如下两种方式进行缺失值的填补

一种方法是利用proc stdize过程步,这种方法只能利用基本的描述统计的方法进行填补,例如使用均值、中位数等方式,此外,这种方式也能够同时进行样本的标准化。工作中,这个过程步的使用频率很高

另一种方法是利用proc mi过程步,这种方法为通过模型进行缺失值的填补。

  • 样本量较大的情况下,我会使用如下两种方式进行缺失值的填补

一种方法是利用proc dmzip过程步,大量样本的数据挖掘领域通常很少使用均值、而是使用中位数进行填补,这种方式便提供了中位数填补的方法,尤其是数据间相关性较弱时,中位数填补的使用频率会更

另一种方法是利用决策树模型进行填补,这种方法的优点是运行模型的过程中便可以处理掉缺失值。

建模样本缺失类型

数据挖掘领域,由于收集困难、客观缺失等多种原因导致样本存在大量缺失值是非常正常的,如下为样本缺失的几种类型,通常,最后三种缺失情况最常见,只需依据Y的类型变通的选择对应的填补方法即可:

缺失值填补的代码实现

以上述第5种缺失情形为例,即待填补变量的类型Y为连续变量时,通常我会用FCS回归的方式去实现缺失值的填补,SAS代码如下:

这里利用了proc mi过程步、即模型的方法进行了缺失值的填补,方法依托于多重插补作为理论基础去解决填补过程中的随机偏差,其中:

  • nimpute参数我理解为填补次数,数据挖掘中通常令其等于1即可,不用纠结填补的稳定性;
  • nbiter=10表示迭代了10次,市场分析中迭代次数为5次即可,数据挖掘领域通常不会超过迭代次数为10次,市场分析与数据挖掘这两种场景的数据不会过于复杂
  • var1--var5这种写法表示在这两个变量间进行扫描,遇到存在缺失值的变量即进行填补,当然,如果样本变量过的情况,这样逐一扫描会降低效率,故我更习惯于自己先挑选出部分关键的变量写在这里
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档