在上一期推送中,和大家一起探讨了反欺诈模型中数据准备这个步骤,今天一起来了解第三步:特征提取。
特征提取(定义X)
特征提取是机器学习领域一个常见的专业术语,它通过数据转换和变形,从原始数据中提取和创造出对预测欺诈有帮助的变量,而这些变量被称为特征。由于模型将直接使用特征,因此特征提取是模型搭建中非常重要的一步,它将在很大程度上决定模型的预测能力。
抛开具体的技术细节,特征提取的过程其实就是将业务知识和行业经验转化为数学公式的过程,是人的智慧和模型能力进行结合的交汇点。根据反欺诈的业务特点和行业经验,我们将提取的特征分为两类:网络特征和非网络特征。下面将详细介绍这两类特征的特点以及提取方法。
01
网络特征
在反欺诈实践中,常常会根据贷款申请的个人信息,将不同的申请连接起来组成一张网络,也就是所谓的社交网络,而从这个网络中提取出来的特征被称为网络特征。网络特征的提取较为复杂,整个过程如下图所示,可以分为四个步骤:
首先是定义网络中的节点和节点之间的边,在这次的反欺诈建模实践中,网络中的节点被分为两类,一类是申请本身,另一类是申请涉及到的信息,比如申请人的电话号码、申请人的设备等。节点与节点之间有边相连,当且仅当其中一个节点为申请,另一个节点为该申请发生时使用的信息。
如下图所示,使用申请人的电话号码和家庭地址构造网络,在这个图中,申请A使用了电话号码3、设备1以及第一联系人1;申请B使用了电话号码1、设备1以及第一联系人2;交易C使用了电话号码2、设备1以及第一联系人1。
按上述方法构造的网络在学术上被称为异构网络,因为在网络中的节点和边并不都是同一类型的。针对异构网络,通常的处理方法是提取网络中的关联特征,这些特征对应着反欺诈业务中的所谓一度触黑和二度触黑。
·一度关联数,比如同一个电话号码对应了多少个交易。
·二度关联数,比如同一个地址对应了多少个不同的电话号码。
对于异构网络,除了可以提取网络特征外,还可以将其折叠成同构网络,比如对于上图,将电话号码节点、设备节点和第一联系人节点进行折叠,得到有关申请的同构网络。在这个同构网络中,只有三个申请节点,其中申请A、申请B和申请C相互相连。
针对同构网络,可以使用比较复杂的算法,达到在网络中自动发现欺诈和可疑节点的效果(算法的具体细节请参考本报纸的另一篇文章):比如可以使用Page Rank算法进行欺诈染色,也就是发现隐藏的欺诈交易;也可以使用LPA算法将网络分成不同的子网络,并从中找到网络里特别聚集的区域,而这些区域往往与欺诈行为高度相关,可以对这些区域相应的申请进行人工审核或者在此基础上提取特征,用于后面的模型搭建。
02
非网络特征
除了上面提到的网络特征,其他与欺诈相关的特征被归为非网络特征。对于这一类特征,可以将其分为如下的几类。
·跟申请设备相关的特征,比如设备是否刷机、是否为模拟器等风险特征。在业务日益互联网化的今天,这类特征对于识别反欺诈的作用也愈发重要。
·跟渠道相关的特征。
·跟产品相关的特征。
·跟申请人相关的特征,这个类别的特征又可以被细分为三类:申请人个人信息特征、申请人征信特征、申请人历史相关特征。
由于文章篇幅有限,我们将在下一期文章中详细向大家介绍最后一步模型搭建的内容,敬请期待~
本文作者:唐亘 Maxent猛犸反欺诈数据分析总监
----持续更新 ----
未经授权,严禁转载
欢迎关注
领取专属 10元无门槛券
私享最新 技术干货