在互联网金融反欺诈领域,通过搭建模型,在自身已有的历史数据中挖掘出反欺诈规则或者评分是非常重要而又十分有效的手段。为了能最大限度地发挥数据的价值,在反欺诈实践中,整个过程可以从宏观上分为四步:问题定义、明确模型目标、挖掘数据价值以及线上预测。
在这四步中,问题定义是从业务的角度来考虑反欺诈的范围和目标;线上预测则涉及大量的实时计算,常常需要一个强大的流式计算引擎以及建立在这基础上的规则系统。这两个步骤与数据挖掘的关系不大,并不是这篇文章的讨论重点。剩下的两步是我们关注的焦点,事实上,这两步又可以被细分为:欺诈定义、数据准备、特征提取、模型搭建四步。本系列推送将结合猛犸反欺诈在某客户的反欺诈建模实践,详细讨论这四个步骤。
欺诈定义(定义Y)
为了进行反欺诈,首先必须明确欺诈的定义。虽然在字面上,欺诈是很好理解的,但从数据的角度来讲,欺诈却是很难定义的。这是因为从数据的表象上来看,欺诈和信用违约十分相似,都表现为逾期不还款。但显然这两者有巨大的差异:信用违约是没有还款能力,而欺诈是没有还款意愿。
从建模的角度来讲,模型总是假设建模对象有相似的行为模式,而欺诈和信用违约并不符合这个假设,如果强行将它们混在一起建模,效果一定不会好。因此,为了保证反欺诈建模的效果,首先需要明确欺诈的定义,从逾期的表象中将欺诈筛选出来。
但由于意愿和能力是人的内在属性,是很难被观察和量化定义的。因此,我们需要尽量地借助外在的表象和人工干预去逼近这个内在。在互联网金融领域,根据业务和产品的不同,通常会依次采用如下的5种方法来定义欺诈:
1.逾期超过T天。这是最直观也是最简单的定义,这个定义中的T即可以通过滚动率等量化的手段来预估,也可以根据业务经验来确定,比如在互联网金融行业通常将T定为180天。
2.首期不还款。首期不还款指的是从第一期开始,客户就没有还过款。在互联网金融领域,通常会在在逾期超过T天的基础上加上首期不还款这个条件来进一步筛选欺诈。
3.首期失联。当客户发生首期逾期后,互联网金融企业通常会通过电话联系客户。当联系失败或者客户明确表示不还款时,则定义客户为首期失联。
4.回访失踪。在客户发生逾期后,有的互联网公司会通过客户提供的地址实地回访客户,如果找不到客户,则定义客户为回访失踪。
5.权威部门确认。客户是否欺诈还可以通过权威部门来确认,这也是最严格的有关欺诈的定义。
在实际的应用中,不同的企业会将上述的5种方法进行组合,得到各自的欺诈定义。比如有的企业会使用方法1+方法2,即逾期超过T天且首期不还款为欺诈;而有的企业会使用方法1+方法2+方法3来定义欺诈,即逾期超过T天且首期不还款且首期失联为欺诈。
事实上,可以将上面的5项方法细分为三类,一类是还款数据相关的方法,也就是方法1和方法2;第二类是人工干预的方法,也就是方法3和方法4;第三类是外部干预的方法,也就是方法5。
由于搭建模型具有一定的滞后性,人工干预和外部干预的方法往往在建模时已经失效了(除非,数据里有明确的人工干预结果记录),因此通常会使用与还款数据相关的方法来定义欺诈,也就是说方法1+方法2。具体的如下图所示:
当然,这样的定义会有一定的误差。一方面它会将一些信用违约误判为欺诈,另一方面,它也会“漏掉”一些欺诈,比如有的欺诈者为了获取更大的额度,会“假装”先期还款几次。但整体来说,这两种情况所占的比例都不大,可以认为这样的定义是合理的。
以上就是反欺诈建模中的欺诈定义的内容,下一期我们将对数据准备进行阐述,敬请期待~
本文作者:唐亘 Maxent猛犸反欺诈数据分析总监
----持续更新 ----
未经授权,严禁转载
欢迎关注
↓↓↓
领取专属 10元无门槛券
私享最新 技术干货