8月4日下午15:00顶象第三期业务安全大讲堂正式开讲。本期业务安全大讲堂由顶象研发总监管胜老师进行分享,针对信贷风控,管胜老师就评分卡模型做了深入浅出的讲解,深刻剖析了评分卡模型的原理、如何构建评分卡模型以及评分卡模型如何评估、应用、跟踪等问题,不仅让大家对信用贷有了更深的理解,同时对评分卡模型的构建产生了极大关注度。
直播过程中,我们也收到了一系列关于评分卡模型的疑问,现将部分问答整理出来,供大家参考。感兴趣的同学也可关注顶象公众号或视频号回看直播重点。
Q1:评分卡模型为什么要做筛选特征,使用更多特征不是更好吗?
管胜:这个问题非常好,从算法的推理来看,特征越多模型的效果会越好,但是要注意,这个好可能仅仅发生在训练集上,对于测试集可能就不好了,它跟特征分箱是同一个道理,箱分得越细越多,过拟合的风险就越大,特征越多同样也会存在过拟合的风险,
除了过拟合的风险外,还有几个坏处:
* 让模型变得更复杂,解释性变差。
* 引入特征越多,模型上线的难度越大,在线上收集特征可能不容易。
* 特征可能会波动,特征越多,整体模型的波动性也会更大,导致模型的稳定性下降。
Q2:PSI 对评分卡的稳定性监控很重要,你们是怎么实现的?
管胜:模型的开发阶段与应用监控阶段是分开的,数据也是分开的,开发阶段采用的是离线数据,应用阶段是实时数据,而做PSI监控,需要对2个数据集采用一致的方式进行分箱,然后计算2个数据集的PSI,要实现这个PSI对比,工程的难度会很大,在我们的产品实现上让算法人员开发的模型,无感知就自动支持PSI监控,把开发与应用做了集成。
* 模型部署时,会自动将训练集的信息附带在模型中;
* 模型在应用过程中,对应用样本集按训练集的方式进行分箱;
* 每个月,对比一次计算出PSI。
Q3:分箱合并的过程,卡方检验合并与WOE合并,哪一种效果更好?
管胜:这是2种完全不同的分箱合并的思路,不过他们的共同点都是:有监督的,利用标签的信息来判断是否需要合并。
至于哪一种效果更好,其实并不能用公式来确定,需要根据实际的尝试才能知道,从实际的经验来看,两种效果的差距并不大。不过,WOE合并相对卡方检验来说,在复杂程度与应用上都更加简便。
Q4:评分卡的模型是怎么在风控体系使用的?
管胜:评分卡模型分为A卡、B卡、C卡,在信贷风控中,这3种使用最为久远与成熟。
A卡是贷前评分卡,也称为反欺诈评分卡,作为准入门槛使用。
B卡是贷中评分卡,借贷期间或信用卡使用期间,管理用户的风险与额度调整。
C卡是贷后评分卡,用于逾期催收借贷。
Q5:对机器学习、模型相关内容非常感兴趣,想往这个方向转,有推荐的书籍或者方法么?
管胜:首先还是要有一定的数学与统计学基础,对于传统机器学习来说,更多的都是统计学的知识,建议先学习概率论与数理统计,另外还需要学习线性代数。然后在实践中学习,安装python 与sklearn,查看算法的内部实现代码,特别要深入理解模型的训练与评估过程。对于深度学习,复杂的理论公式反而不多,建议多看引用量大的优秀Paper,学习更多的网络设计的原因与技巧。
Q6:我看您用的是自研的机器学习平台,内置了哪些算法呢?
管胜:已经封装好的算法组件有100+多个,涵盖:数据读写、特征工程、分类聚类回归算法、文本类算法、关联网络类算法、金融评分类算法、时序数据类算法、模型评估,另外还包括“人行征信特征衍生”组件,几乎可以解决任意场景建模的算法需求。
最后,再给大家简单介绍下顶象《业务安全大讲堂》系列直播课,本系列汇集业内大咖组建豪华讲师天团,剖析各类欺诈手段,详解前沿安全技术,帮助企业应对业务安全新风险。
下期将由顶象技术总监杜威为大家带来《业务安全平台核心模块解析——设备指纹》的主题课程,敬请期待!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。