评分模型的缺失值

许卉

发布于 2019-07-15 17:17:58

2.4K0

文章被收录于专栏：Data AnalystData Analyst

公式模型必须处理缺失值

构建评分模型过程中，建模属于流程性的过程，耗时不多，耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型，不同形式的模型对缺失值的宽容程度不同。

公式模型必须处理缺失值，如果不进行处理，则缺失值对应的该条观测会被排除在建模样本之外，如回归模型、神经网络等都需要进行缺失值的处理。

算法模型对缺失值比较稳健，这类模型会将缺失值单独划分为一类，但算法模型对缺失值的宽容也带来了模型稳定性弱的弊端，如决策树。

补缺原则

一般情况下，缺失值填补的底线是，补缺后变量数据的分布不可以发生显著变化。缺失值的填补我通常会遵循这样的原则：

通常如果缺失值比例超过80%则放弃填补，但在实际工作中，缺失比例超过50%基本上我就会放弃补缺；

如果变量缺失很高但基于业务含义上的重要性无法舍弃，那么就需要针对这个变量生成一个指示哑变量，让这个哑变量去代替原始变量参与后续的建模工作，哑变量的设置方法为原始变量无缺则设置为1、缺失则为0。但是由于原始变量缺失比例过高、自身信息过少，所以我觉得设置哑变量强行入模这种方法意义并不大；

缺失比例为20%-50%，可以使用生成哑变量的方法进行变量入模；
缺失比例小于20%，连续变量使用均值或中位数进行填补，分类变量用众数去进行填补。

了解缺失机制很重要

缺失值填补是个比较麻烦的问题，了解确实机制很重要，一般，缺失分为随机缺失与非随机缺失两种：

随机缺失可以这样理解，念书时需要家长在考卷上签字，如果有9张试卷需要签字，因为你的大意，弄丢了一张试卷，这种缺失即为随机缺失；

非随机缺失可以这样理解，9张试卷中，有一张的分数特别低，于是，你故意丢掉了这张分数低的试卷，这种缺失即为非随机缺失。

需要注意的是，一般我们只会去填补随机缺失的样本，而非随机缺失值则需要去找到缺失背后的故意机制，即找出原因后再进行填补。

怎么补缺？插补法！！

通常缺失值填充的方法为插补法，插补法的种类很多，分类如下图：

下面分别说明该怎样理解这些不同的插补法：

单一插补

可以理解为自己填补自己，即针对每个缺失值，从其预测分布中取出一个值进行填充。单一插补又分为随机插补与确定性插补两种，其中确定性插补有四种方法，即：

1 推理插补：依赖经验；

2 均值插补：简单而平淡；

3 热平台插补：直观好用；

4 冷平台插补：他人补自己。

多重插补

可以理解为依靠别人去填补自己，常见的三种方法可以实现多重插补，即：

1 回归补缺法；

2 倾向得分法，即贝叶斯公式填补法；

3 MCMC补缺法。

多重插补面临的主要问题是如何得到缺失数据的多个插补版本，为正确进行插补，需明确缺失机制后再讨论插补机制。多重插补缺点：

1 工作量大于单一插补；

2 贮存多重插补数据需要更多存储空间；

3 分析多重插补数据集比单一插补需要花费更多精力。

均值插补法->简单但没有吸引力

均值插补是最简单但缺乏吸引力的插补方法，做法是用样本所有观测数据的均值去替代所有的缺失值，这种方法只能在缺失值为完全随机缺失时才能够为总体均值或总量提供无偏估计。

均值插补法会存在一个问题，如果缺失比例较高，用该方法进行填补，所有的插补值都集中在了均值点上，数据分布形成尖峰、分布严重扭曲，从而导致低估方差。

所以为了解决这个问题，缺失值填补前需将数据进行分组，每个小的分组里面在用均值进行插补，即局部均值插补。一般我的经验是如果数据缺失50%我会直接均值填补，如果缺失超过了50%我会分组后再去进行均值填补。

热平台插补->我喜欢

热平台插补是最流行的插补方法之一，简单直观，也是我最经常使用的一种补缺方式。

热平台插补为使用与受者相似的供者记录信息来替代受者记录中的缺失值的方法，即从其他地方随机抽样后再进行填补，例如10000个数值中有20个缺失，还有9000个是完整的，即从9000个中随机抽几个进行补充。需要注意的是，抽样时需要分组后再进行抽样。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-03-12，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 Data Analyst 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

评分模型的缺失值

评分模型的缺失值

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐