前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我眼中的变量水平压缩(二)

我眼中的变量水平压缩(二)

作者头像
许卉
发布2019-07-15 17:20:32
5390
发布2019-07-15 17:20:32
举报
文章被收录于专栏:Data Analyst

WOE是什么

WOE是一种证据权重,全称为weight of evidence,是变量压缩时我会采用的第二种方法。目前WOE变换也是信用评分模型中标准的处理流程、必不可少的步骤之一。

WOE怎么算

下面即为WOE的计算过程,其中,WOE=LN(P(Y=1)/P(Y=0))。SAS中可自动实现WOE转换,使用高性能的逻辑回归过程即可实现,或者使用公式直接带入也可以得到,非常简单。

入模变量全部进行WOE转换

需要注意的是,WOE有一个挑战,例如0-1形式的性别变量,其本身无法进行连续化处理,理论上这种天生离散的变量是无法进行WOE转换的,但是一般情况下为方便建模,所有的变量都会进行WOE处理。后续建模时原始变量不再使用了,入模的是WOE处理后的变量

WOE转换的优势

虽然,WOE转换对于模型质量的提升贡献不大,但是从自变量压缩、模型复杂性降低的角度而言,WOE还是比较实用的。

一般,数据按照密度分布划分会有四种分布形态,即钟型、水平、U型与J型分布。如果数据为钟型且非对称分布,即数据分布有偏移,则需要通过变换将数据拉成对称的分布形态,如果数据不是钟型分布而是其他三种分布,此时如果想将数据转换成正态分布,通过BOX-COX变换是无能为力的,这时可以利用WOE转换。

通常,我的做法是

  • 先将连续变量变成离散的形式,这个过程可以利用决策树对连续变量进行分组,构建决策树时只需保留Y与待分组的变量,每一个叶子上的区间即为分组;
  • 分组后进行WOE转换。

以上,即可将一个非正态的分布变成了正态的形式。当然,将连续变量分组最直观的好处就是便于打分,一般,严格的FICO模型,要求每一个连续变量都必须进行分组处理

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档