笔者邀请您,先思考:
1 信用评分卡如何开发?
评分卡开发描述了如何将数据转化为评分卡模型,假设数据准备和初始变量选择过程(过滤)已完成,并且已过滤的训练数据集可用于模型构建过程。 开发过程包含四个主要部分:变量转换,使用逻辑回归的模型训练,模型验证和缩放。
图1.标准评分卡开发过程
变量转换
“如果你长时间折磨数据,它会承认任何事情。” (罗纳德科斯,经济学家)- 基于逻辑回归的标准计分卡模型是一个可加模型; 因此,需要特殊的变量转换。通常采用的转换 - 精细分类,粗分类,以及虚拟编码或证据权重(WOE)转换 - 形成了一个顺序过程,提供了一个易于实施并向企业解释的模型结果。此外,这些转换有助于将独立变量和因变量之间的非线性关系转化为线性关系 - 业务往往要求的客户行为。
精细的分类
适用于所有连续变量和具有高基数的离散变量。这是通常在20到50个细颗粒箱子中初始装箱的过程。
粗分类
如果将分箱过程应用于细粒仓,以合并具有类似风险的箱子并创建较少的箱子,通常最多为10个箱子。其目的是通过创建更少的箱子来实现简单化,每个箱子都具有明显不同的风险因素,同时最大限度地减少信息损失。然而,为了创建一个可适应过度拟合的稳健模型,每个箱子应包含来自总账户观察值的足够数量(5%是大多数从业人员推荐的最小值)。这些目标可以通过最优分箱形式的优化来实现,该分类在粗分类过程中最大化变量的预测能力。最优分箱使用与变量选择相同的统计量度,例如信息价值,基尼和卡方统计。尽管两种或更多种措施的结合通常是有益的,但最普遍的措施也是信息价值。如果缺失值包含预测信息,则应该是单独的类别或合并到类似风险因素的分类中。
虚拟编码
为参考类以外的所有粗糙类创建二进制(虚拟)变量的过程。这种方法可能存在问题,因为额外的变量需要更多的内存和处理资源,并且偶尔会由于自由度降低而出现过度拟合。
证据权重(WOE)转换
替代的,更受青睐的虚拟编码方法,用每个粗糙类代替风险值,然后将风险值折叠成单个数值变量。数字变量描述了独立变量和因变量之间的关系。 WOE框架非常适合逻辑回归建模,因为它们都基于对数可能性计算。此外,WOE转换将所有独立变量标准化,因此可以直接比较后续逻辑回归中的参数。这种方法的主要缺点是只考虑每个箱子的相对风险,而不考虑每个箱子的账户比例。信息值可以用来评估每个箱子的相对贡献。
虚拟编码和WOE转换都给出了类似的结果。 选择哪一个主要取决于数据科学家的偏好。
但需要注意的是,当手动执行时,优化分箱,虚拟编码和WOE转换是耗时的过程。 用于装箱,优化和WOE转换的软件包因此非常有用并且强烈推荐。
图2.自动最优分箱和WOE转换
模型训练和缩放
Logistic回归是用于解决二元分类问题的信用评分中常用的技术。在模型拟合之前,变量选择的另一次迭代对于检查新的WOE变换变量是否仍然是好的模型候选是有价值的。首选候选变量是信息价值较高(通常在0.1到0.5之间)的变量与因变量具有线性关系,在所有类别中具有良好的覆盖率,具有正态分布,包含显着的总体贡献,并且与业务相关。
许多分析供应商在其软件产品中包含逻辑回归模型,通常具有广泛的统计和图形功能。例如,WPS中SAS语言PROC LOGISTIC的实现为自动化变量选择,模型参数限制,加权变量,获得不同分段的单独分析,在不同数据集上评分,生成自动化部署代码,仅举几例。
一旦模型一致,下一步就是将模型调整到业务所需的规模。这被称为缩放。缩放是一种衡量工具,可提供不同评分卡上分数的一致性和标准化。最低和最高分数值和分数范围有助于风险解释和应该报告给企业。通常,业务要求是对多个评分卡使用相同的分数范围,因此它们都具有相同的风险解释。
一种流行的得分方法以对数形式创建离散得分,其中可能性在预定数量的点处加倍。这需要指定三个参数:基点,例如600点,基本赔率,例如50:1,指向双倍赔率,例如20.得分点对应于模型变量的每个单元,而模型截距是翻译成基点。带有列表分配点的缩放输出代表实际的评分卡模型。
图3.评分卡缩放
模型性能
模型评估是模型构建过程的最后一步。 它由三个不同的阶段组成:评估,验证和接受。
评估准确性 - 我是否建立了正确的模型?- 是为了测试模型而问的第一个问题。 评估的关键指标是统计指标,包括模型准确性,复杂性,错误率,模型拟合统计,变量统计,显着性值和胜算比。
验证稳健性 - 我建立了正确的模型吗?- 当从分类准确性和统计评估转向排序能力和业务评估时,是下一个问题。
验证度量标准的选择取决于模型分类器的类型。二元分类问题最常见的指标是收益图,提升图,ROC曲线和Kolmogorov-Smirnov图。 ROC曲线是可视化模型性能的最常用工具。它是一种多用途工具,用于:
冠军挑战者方法论来选择最佳表现模型;
测试不可见数据的模型性能并将其与训练数据进行比较;
选择最佳阈值,使真阳率最大化,同时最小化假阳率。
ROC曲线是通过将灵敏度与不同阈值下的错误警报概率(误报率)作图而创建的。评估不同阈值下的性能指标是ROC曲线的理想特征。基于业务战略,不同类型的业务问题将具有不同的阈值。
ROC曲线下面积(AUC)是指示分类器预测能力的有用指标。在信用风险中,0.75或更高的AUC是行业公认的标准和模型验收的先决条件。
图4.模型性能度量
接受有用性 - 模型是否会被接受?- 为了测试该模型是否有利于业务发展,这是要问的最后一个问题。 这是数据科学家必须将模型结果回放到业务并“维护”其模型的关键阶段。 关键的评估标准是模型的商业利益,因此,利益分析是介绍结果的核心部分。** 数据科学家应尽一切努力以简明的方式呈现结果,因此结果和发现很容易理解和理解。 如果未能实现此目标,可能会导致模型拒收,从而导致项目失败。**
系列之前:信用评分:第4部分 - 变量选择
系列之前:信用评分:第6部分 - 分割和拒绝推断
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
加入数据人圈子或者商务合作,请添加笔者微信。
领取专属 10元无门槛券
私享最新 技术干货