前言
小编几周前介绍信用评分卡建模的那些事儿,本期接着介绍。
小编关于建模在公众号上已经介绍很多了,但公众号太过零散,不够体系,小编打算整理一下,做一个系统的教程。因此小编会开一门课进行代码讲解,主要包括建模流程详细讲解、建模代码讲解(所用代码复用性很好)、算法讲解(LR、决策树、bagging、boosting、 SVM以及一些聚类算法讲解,手工推导公式)。
小编男票写了一个系统的python和SAS评分卡建模代码,并且已通过调试,打算通过上课的方式分享给大家。
当然,小编这么穷,肯定是要收费的,小编打算第一节课是这周日(9月9日)晚上8点,第一节课是免费的,如果效果好的话,还请大家多多打赏。如果大家有什么想听的,也可以留言给小编。谢谢大家。
以下是男票代码截图(话说小编真的被男票编码能力震惊了)
python版:
SAS版:
8.ABC卡的区别
A卡是申请卡,B卡是行为卡,C卡是催收卡。
其中A卡注重贷前,一般可做0-1年的信用分析,A卡不会用到贷前贷后数据,因此A卡的KS比起B卡或者C卡并不会很高。有些公司做出来的A卡KS如果特别高的话,可能因为信用欺诈标签没有分开,或者是A卡B卡化。A卡的主要作用是对客户的还款能力进行预测。
B卡注重贷中,是在申请人有了一定账户行为之后,有了较大的账户行为数据,一般可做3-5年的分析。B卡主要用于客户的账户管理。
C卡注重贷后,并且对数据要求也更大,需加入催收后客户反应等属性数据。催收卡主要有3种,而我们平时主要用迁徙率催收卡。C卡可主要用于一些催收策略的制定。
这里注意一点,拒绝演绎只可用户A卡。
9.WOE拟合的逻辑蒂斯回归系数符号不一致的原因
首先,我们在上一篇文章已经说过了,特征woe是为了使特征线性化,,这样逻辑蒂斯模型就可以看作一个纯粹的线性模型了(逻辑蒂斯回归本身就是广义线性回归),那么以woe拟合的参数出现符号不一致的原因就是线性模型出现符号不一致的原因,主要有3点:
特征不符合经济意义;
特征之间不独立,有多重共线性;
拟合的样本有异常值。
10.特征分箱为什么要尽量满足单调
大家经常说分箱要单调,或者U型;其实无论是要求可解释性,或是单调,都是因为模型入模特要满足稳定性这个条件,所以其实不单调也可以,但是一定要像三角函数一样满足一个周期性的稳定,这样做出来的模型才能稳定可靠。其实模型最重要的宗旨就是精简稳定。
11.如何用机器学习做特征挖掘
这方面有很多方面,比如可以做用户画像分数,可以使用自提升树的的叶节点做onehot,也可以使用神经网络中间层以及LDA的主题模型等,这些我们会专门开一门课进行讲解,有兴趣的读者可以听一下。
12.关于模型分数出现双峰的问题
具体问题具体分析,小编总结了一下主要是有如下几个原因造成双峰:
好坏定义有问题,不符合业务;
分箱有问题;
业务发生变化。
领取专属 10元无门槛券
私享最新 技术干货