模型验证样本是有要求的
模型验证样本需要与前面建模样本进行完全相同的处理,即:
混淆矩阵有什么用
逻辑回归模型的几个衡量指标如洛伦兹曲线、ROC曲线、lift曲线等皆来源于混淆矩阵,如果针对同一个问题构建不同的模型,当进行模型间效果比较时,经常会用到这三个曲线。
不单单是逻辑回归模型具有混淆矩阵,只要因变量为离散形式的模型都具有混淆矩阵,混淆矩阵不是为逻辑回归模型设置的,而是为分类选择模型而设置的,连决策树与神经网络都会有混淆矩阵。
混淆矩阵中的数值是动态的数据,其中,A与D都是猜对的数据,理论上这两格中数据量越大越好,但是B与C的数据也是必不可少的,如果没有B与C部分的数据,则会造成过度拟合。一般,混淆矩阵会涉及到下面几个解读指数:
没人用决策树做信用评分模型
从模型稳定性角度来看,决策树不能做信用评分模型,原因涉及到决策树算法背后的搜索逻辑。决策树进行拆分时,其算法会以搜索的形式去寻找最优值,搜索的方式有穷举搜索与启发式搜索两种:
上面两种搜索形式,无论使用哪一种,都极有可能错过最优值,并非算法有问题,而是计算的方式存在问题,因此任何的统计软件都必须考虑截断误差,如果截断误差控制的不好,便很有可能会出现漏掉最优值的情况。
决策树最大的问题在于,每次计算规则都会发生变动,所以我经常在信用评分建模前用决策树进行风险分池,而绝不会用决策树去主导构建信用评分模型。何谓风险分池,举个例子,例如某个客户信用卡逾期,但是经查询发现该人为本地首富,那么可以断定该人违约可能并非出于本意,很可能是发生了意外的情况导致违约,风险分池就是将这样的人与老百姓分池分开。
我眼中的ROC曲线
衡量模型效果的指标之一为ROC曲线,一般,ROC曲线的取值在[0.5,1]之间,如果:
一般,ROC曲线还会出现如下两种不同的情况,分别适用于不同的业务场景:
营销场景最看重提升度曲线
提升度曲线也是衡量分类模型效果的指标之一,它衡量的是与随机选择相比,模型对于响应的预测能力的好坏程度。一般,提升度曲线越往上、下降越慢表示模型越好。
通常,营销场景中会更多的用到提升度曲线,即可以先找找准最有可能是目标的客户进行电话推销,可以较为节约成本。而风险行业处于成本的考虑则不太使用提升度曲线。所以做互联网金融更为关注ROC曲线与KS曲线,而业务营销场景会更为关注Lift曲线。
SAS EM中可以提供lift曲线。
信用评分模型最看重KS
一般,信用评分模型最为看中的模型指标不是ROC曲线、不是洛伦兹曲线,也不是lift曲线,而是KS。KS曲线用于表示模型对于好坏样本的区分程度。通常:
通常模型的监控工作只需要使用KS曲线进行监控即可,如果事后监控发现好坏样本之间的差异已经不太明显的时候,则说明模型已失效,需要重新进行模型修正、调整。
本文分享自 Data Analyst 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!