评分模型的数据多维性
目前以金融业为代表的各行各业使用的评分模型的原型都是基于美国FICO公司开发的评分模型,每个企业会将FICO的模型做些变形,从而形成自己需要的模型。
一般FICO的评分模型会基于四方面的信息:
当前,以阿里的蚂蚁分为代表的评分体系还包含社会网络相关的非金融行为的数据。
信用卡违约预测模型
---数据准备
信用卡违约预测模型构建的第一步是进行数据处理,即:
构建逻辑回归模型的过程中,如果一条观测包含缺失值,则该条观测会被排除在模型样本之外,故构建逻辑回归模型的第一步需要进行缺失值的处理。建模样本中缺失值的产生一般有两个原因:针对因无行为而造成的缺失直接补0即可、针对分母为0而造成的缺失需要依据实际业务情况进行补充,例如可考虑取均值或中位数
信用卡违约预测模型
---变量筛选
建模样本缺失值处理完后,需要进行变量的筛选,即找出预测能力较强的变量,即识别好坏客户能力较强的变量。
以原始建模样本中入模变量数量200个为例,一般,我进行变量筛选的基本思路为:
信用卡违约预测模型
---构建模型与模型评估
开始构建信用卡违约预测模型,得到每个观测样本的违约概率;利用ROC曲线等进行模型评估并完成模型调优。
哪里会有人喜欢孤独,只是不愿意失望罢了。——渡边彻《挪威的森林》
信用卡违约预测模型
---业务应用
依据样本的违约概率曲线,将客户划分为极高风险、高风险、中风险与低风险等不同层级,并针对每一层级用户制定不同的审批策略。一般,建议低风险客户自动通过、中风险客户自动审批、极高风险客户自动拒绝,高风险客户也可以自动拒绝也可以人工介入,可依据实际业务情况灵活制定。
如果业务较多,大量的工作需要人工审批,则工作效率低下,目前部分小贷公司、汽车金融、银行以及互联网企业追求的模型的性能之一是:尽量让工作自动化,即自动通过或自动拒绝,从而降低人工审批比率,提高工作效率。但是我认为这样做也会存在一定隐患,可能出现或风险特高或通过率特低的情况。
信用卡违约预测模型
---模型部署及监控
模型建好后并非大功告成,模型效果还可能受到多重因素的影响,如消费行为的变化、整体经济环境的变化、新的市场营销策略、新法令法规的出台等等,故为确保信用评分模型的正确使用,实时监控模型的性能是否下降、定期验证模型的适用性以便做出调整优化就变得尤为重要,模型监控环节必不可少。模型需双端监控:
本文分享自 Data Analyst 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!