1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等
2)IV的计算依赖于WOE
1)要对一个变量进行WOE编码,需要把这个变量进行分组处理(离散化 / 分箱),分组后对于第i组,WOE的计算公式如下:
WOE_i=ln(\frac{py_i}{pn_i})=ln(\frac{\frac{\#y_i}{\#y_T}}{\frac{\#n_i}{\#n_T}})
其中,$py_i$是这个组中响应客户占所有样本中响应客户的比例,$pn_i$是这个组中未响应客户占样本中未响应客户的比例。
所以,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和”当前分组中没有响应的客户占所有没响应的客户的比例“的差异
IV_i=(py_i-pn_i)*WOE_iIV = \sum_{i}^{n}IV_i
其中,n为变量分组的个数。