WOE全称为 Weight Of Evidence,即证据权重,就是自变量取某个值时对目标变量的影响
good_i和bad_i是该变量在各属性上对应的好客户数和坏客户数,good和bad是样本总体好客户数和坏客户数;WOE值越高,代表着该组对应的变量属性是坏客户的风险越低;
IV信息值,IV仅仅针对二元分类的目标值和名义变量,当应用于顺序变量时,顺序将会被忽略,该变量会当做名义变量来使用;
(k为变量的类别数)
从公式可以看出,IV值是基于WOE计算的,相当于WOE的加权求和。其值的大小决定了自变量对目标变量的影响程度。
通常情况下,IV0.3时,预测能力强。
WOE和IV值和其他筛选变量方法相比有以下两点优势:
它可以对所有分类变量,顺序变量以及连续变量(需分箱)统一进行预测能力的计量。
可以对缺失值进行处理,将其看作一类即可分析信息缺失对于风险是否有影响
示例Python实现:
将逾期天数>90的客户定义为坏客户1,其余为0;取学历和逾期天数,观测学历的信息值
计算学历各分类对应的总数和坏客户数
合并数据集,计算好客户数,和学历各分类对应的坏客户比例和好客户比例
计算WOE和IV
IV值等于0.155,对是否是坏客户有一定的预测能力。
领取专属 10元无门槛券
私享最新 技术干货