在上期的报告节选部分中,着重讲解了当下欺诈技术的形式背景与无监督机器学习的必要性。在接下来的文章中即将深入介绍无监督机器学习引擎技术,在随后推送中将给出无监督机器学习引擎技术的深度解读报告的PDF版,请持续关注。
3
UML引擎深入解读
UML引擎概述
无监督机器学习引擎会搭配有监督机器学习引擎、全球智能信誉库和自动规则引擎进行使用。但是与现有其他同类型产品又有不同。例如,自动规则引擎保留了规则系统的透明性,但得益于无监督机器学习引擎,它可以自动更迭规则。
UML解决方案的基本框架是:将原始数据输入无监督机器学习引擎,然后可在实时环境下,输出每个事件的分数和原因码。在批量处理环境下,输出检出的可疑账户列表,并附有相关分数和原因码。无监督机器学习引擎输出结果还录入到DataVisor可视化控制台,控制台可直观显示攻击团伙,以便调查每个已检出的事件和账户。
无监督机器学习解决方案架构
UML执行步骤:
无监督机器学习引擎在数据输入和结果输出之间四个主要的执行步骤:动态特征提取、无监督攻击团伙检测、有监督检测、结果分类和排序 。通过这四个步骤可发现各账户数据点之间的隐藏关系,准确识别欺诈团伙的账户。并且所有算法都在经过优化的分布式大数据基础平台上运行,因此能做到实时检测。
第1步: 动态特征提取
无监督机器学习引擎的会生成综合的、有意义的特征,去描述每个输入的账户。由于无监督机器学习引擎没有预设,能在高维度的空间中查看所有特征,但“无监督”意味着之前不了解该攻击模式,也不知道其哪些特征有效。
无监督机器学习引擎的动态特征提取
主要提取特征
档案信息:账户的个人统计信息,例如账户昵称、收入范围、年龄、性别和地址等。
行为和活动:账户执行了什么操作、何时执行,例如时间标记、支付数额及方法等事件信息。
来源和数字指纹:描述账户访问方法的信息,例如设备类型及版本、浏览器信息、IP地址和地理来源等。
内容和元数据:账户生成的文本和图片,例如注释留言、档案照片和手机通话记录。
账户之间的关系:不同账户之间的交互和关系,例如一个账户是将钱汇到朋友那还是其他关系的账户。
除了结构化文本,无监督机器学习引擎利用自然语言处理技术,能够提取丰富的文本和上下文特征。针对图像输入,无监督机器学习引擎目前支持元数据属性,如图像标题、创建时间、位置、生成来源、格式和分辨率。不过引擎很容易扩展,支持更复杂的特征。无监督机器学习引擎使用图形属性来描述账户之间的关键信息,比如定向及双向联系、节点的度、边权重、图像邻近特征和群落特征。
同时提取过程是动态的,无监督机器学习引擎会基于输入数据模式(schema),实时提取尽量多的适用特征。比如,基于输入账户事件的类型和顺序,无监督机器学习引擎会提取事件频次、速度、时间间隔差距分布、白昼模式和子序列模式等。输入数据字段需要逐渐变化或增加时,特征维度也会自动调整。
同其他引擎提取方法的主要区别
1.已有几十年的积累,同领域内客户都可共享这些特征,并且特征还在不断增加。
2. DataVisor的全球智能信誉库能丰富特征,尤其是针对数字信息。
3. 特征描述了结构化和非结构化输入数据,和账户之间的各种关系,而现有的解决方案都是输入结构化数据来获取一组预定义特征。
4. 输入数据有更多字段后,特征列表动态也会随着扩大。
第2步:无监督欺诈团伙检测
1. 聚类分析
基于输入特征向量,UML引擎先识别可疑账户聚类,它们在某些维度会有高度相似或关联的地方。这步关键是缩减特征维度和确定距离函数。通过部分重要特征设计合理的距离函数后,真正可疑的账户会形成紧密的聚类,正常的账户仍是分散的。
指导特征和距离函数选择有以下几种方式:
1. 重要特征被赋予更高的权重;它们的重要性取决于行业领域和攻击类型。例如,检测银行账户申请欺诈时,征信数据信息的地址匹配是十分重要。但检测社交网络中的垃圾内容攻击时,这类信息却不太重要,因为通常用户在注册时常常提供空白或不清晰的地址。
2.DataVisor全球智能信誉库(GIN)可以基于数字指纹信号的初始检测结果来辅助UML引擎。
3.无监督机器学习引擎平台能进行众多数据分析,利用原始输入数据分析各种特征分布。这些特征分布能用作输入,帮助自动推导最重要的特征维度。
4.在选择特征维度权重和距离函数后,无监督机器学习引擎将所有数据点生成为聚类。聚类过程会基于不同组合的已选择特征、权重和距离函数,不断迭代聚类数据点。
5.全面利用特征数据,而不仅仅是重要特征。例如,一群行为模式(比如登录时间、注销时间和更新账户信息时间)几乎相同的账号仍十分可疑,但在过去,这些行为不会被认为是交易欺诈的重要特征。
无监督机器学习引擎的聚类分析
在每次迭代期间,会根据已选择的特征、权重和距离函数会自动调整,直到它们满足基于阈值,聚类内距离与聚类间距离之比足够小。阈值可预定义,也可根据覆盖率和误报率加以权衡调整。聚类结果趋于集中和稳定。输出聚类的结果在全球智能信誉库分类结果中至少占一定的百分比。
现在面对的都是高维度的数据和不断迭代的过程,主要的挑战是计算效率不够高不能做到实时反馈。无监督机器学习引擎的突破之一是其高效、可扩展的专有算法,它比常见的维度缩减方法(例如主成分分析,PCA)高效得多,不预设遵循线性关系的输入数据。同时获得的聚类非常准确,可确定具体的滥用、欺诈或洗钱团伙。实现这个目标依靠业内的领域知识和能够针对不同使用场合自动优化聚类结果的算法。
2. 图形分析
聚类结果后,无监督机器学习引擎会通过图形分析进一步汇总结果,将拥有相似账户或强关联的聚类关联起来。作为图形问题,聚类是节点,将这些相似的聚类边缘连起来。两个聚类之间的边缘权重与共享账户的数量、共享特征维度和聚类大小都有关系。
这个过程分析账户之间连接的不同。它不仅能发现直接关联,还发现多个账户间接的、传递的相似之处和关联(例如,如果A类似B,B类似C,这个过程可将账户A和账户C分成一组)。图形分析后,一个“弱”聚类可能与几个“强”聚类联系起来,提高弱聚类的可信度。这个过程提高了检测覆盖率,提高了检测准确性。
第3步:有监督机器学习检测
无监督机器学习检测出的欺诈团伙数据可充当有监督学习模型的训练数据,可根据已捕获账户的欺诈方式,额外捕获到其他欺诈账户。充分利用先进的有监督机器学习算法,与DataVisor架构进行紧密整合。
与常见的有监督方法相比,DataVisor有监督学习检测能快速、不断的重复训练进行优化,无需手动调优,以做到通过无监督模型的输出迅速调整模型。同时针对高准确性和低误报率进行优化,以做到输出结果可直接运用于客户使用环境。 输出一组已检出的不良账户,将与已检出的攻击团伙结合起来,最大限度地提高检测覆盖率。
第4步:结果排序和分类
最后一步是对已检出的账户按照可信度排序,并按攻击性质对攻击团伙分类。所有账户被打分,分值从0.0到1.0,分数越高嫌疑越大。这个分数为客户提供指导,比如自动封禁是0.8分及以上的账户,人工审查高于0.0的剩余账户。结果排名和打分基于相关的团伙规模和相应聚类距离使用函数。自然聚类距离越小、团伙规模越大,分数越高。分类是这个过程的最后一步。其中包括为每个聚类添加原因码,指出欺诈团伙的重要特征。
实时检测的架构
从计算到数据访问和存储,整个UML引擎立足于最新的大数据基础设施。Apache Spark、HDFS、Hadoop、Apache HBase和Elasticsearch都支持该系统。
UML引擎大数据基础设施架构
UML引擎架构
实时计算组件是一个分布部署在内存中的系统,与批量处理系统有同样的算法逻辑。当事件进入后, 实时组件会保留历史状态,并不断更新和评估状态。一旦有新的事件入,会激活相应的聚类和图形分析组件。由于内存和延迟的限制,系统会对最相关的聚类和子图形部分执行搜索。若有更多的空间和时间,该搜索会进一步扩大。批量处理系统针对内存和延迟限制引起的偏移量,会定期调校实时组件, 以使实时结果更加接近批量处理系统的真实度。
批量处理系统和实时组件都使用同样的算法来构建的,但设计初衷是针对不同的优化目标。批量处理系统追求最大的覆盖率和准确性,实时系统还需要满足延迟和处理量要求。不过由于实时系统支持横向扩展,所以添加资源很容易实现。
4
总结
DataVisor 无监督机器学习引擎是第一款成功克服这些挑战的成熟无监督机器学习解决方案。它投入市场已有3年多,保护着全球来自大中型企业近30亿的用户账户。
无监督机器学习技术为应对滥用、欺诈和洗钱活动带来了一种新方法。它能积极主动,更加灵活应变欺诈,从而发现不断演变的新型欺诈。而数字化时代的挑战在于海量的数据,而UML能分析所有账户和事件,准确地发现攻击模式。先进的检测系统会采用多种不同的技术来提升效果。DataVisor UML引擎提供了一种独特的、互补的解决方案。随着数字化时代的全面到来,无监督机器学习技术必将扮演更重要的角色。
我们会在接下来推出该白皮书的图文版和PDF下载方式,如果您对这本白皮书感兴趣,欢迎持续关注我们。
领取专属 10元无门槛券
私享最新 技术干货