上一次我跟大家简单介绍了逻辑回归这个算法在申请评分模型中的优缺点后,很抱歉的停更了一周,没办法实在是因为有太多的事情要去处理,当然好几件事情都是与大家息息相关,晚一点公众号里跟大家一一发布。
Ok 废话不多说,今天继续逻辑回归拟合模型,我想跟大家聊两个方面:
1、逻辑回归的变量选择方法
2、SAS PROC LOGISTIC拟合模型代码解析
一:变量选择方法
模型建立的主要工作就是变量选择,一般统计分析软件(比如SAS、Python等)的logistic回归程序都提供自动变量选择的功能,包括了前向逐步(Forward Stepwise)回归、后向逐步(Backward Stepwise)回归和混合逐步(Combined Stepwise)回归。
他们三者有什么差别呢?我该如何选择变量选择方法呢?
1.1前向逐步(Forward Stepwise)回归
顾名思义,FS(Forward Stepwise)回归是让所有建模指标变量一个一个地进入回归方程,按照预先设定的显著性检验标准,最显著的指标变量最先进入,然后其次就是次显著的指标变量进入,依次类推。
1.2后向逐步(Back Stepwise)回归
明白了FS回归,BS回归就很容易理解。它的逻辑是首先让全部指标变量都进入回归方程,按照预先设定的显著性检验标准,把不显著的变量逐一剔除。
1.3混合逐步(Combined Stepwise)回归
CS回归是融合FS和BS回归的优缺点,提出的一种变量选择方法,它的原理如下:
按照预先设定的显著性检验标准,逐步加入或者剔除指标变量,可以由前向逐步回归开始,也可以由后向逐步回归开始,例如由前向逐步回归开始,当新指标变量进入时,如果老指标变量不满足预先设定的标准可以后向剔除,而对比前向逐步回归,变量一旦进入,就不再退出。
说白了,CS回归就是指标变量有进有出,不停迭代对比指标变量对预测结果的有效显著性。
我们在评分模型变量选择方法上,经验建议优先选择Combined Stepwise,其次是Forward Stepwise。
二:SAS PROC LOGISTIC 拟合模型代码解析
SAS的PROC LOGISTIC给出了逻辑回归拟合模型的封装模块,我常用到的写法如下:
代码解析:
Proc logistic:调用SAS自带logistic核心模块;
Data= :建模数据集;
Outmodel= :输出训练模型;
Plots(only)=Roc :只保留输出Roc曲线;
Model target.(event='1')=woe_: :相当于告诉SAS logistic模块我的目标变量和WOE后的指标变量;
Selection=stepwise:选用逐步回归选择模型变量;
Include=0:指定模型中必须要保留的指标变量,如果没有要求强制进入模型的指标变量,就设置为0;
SlS:指定进入模型变量的显著性级别;
SLE:指定剔出模型变量的显著性级别;
Score out= :输出概率评分;
Ods output modelbuildingsummary:逻辑回归汇总结果的输出;
Parameterestimates:参数估计结果的输出;
Run:执行模块代码;
当然这只是我在做评分卡开发中希望调整的参数和结果整理,如果大家想调整模型参数或者输出其他结果,可以参考SAS HELP修改代码模块。
领取专属 10元无门槛券
私享最新 技术干货