老肥前一阵子参加了ATEC科技精英赛的线上赛,赛题是网络欺诈举报定性
,幸运地和大佬队友们以一个极简的stacking方案拿下了科技新星榜的冠军,下面就和大家一起回顾一下本次比赛。
随着人工智能技术的广泛应用,其安全和可靠性也成为了业界关注的焦点。可信人工智能技术研究迅速发展。相较于传统的人工智能技术,可信人工智能更加关注如何减少AI对数据的依赖、在借助人工智能技术实现快速发展的同时实现隐私保护, 推动AI可解释性、鲁棒性的发展,思考AI公平性的应用和规范。
本赛道将选取工业应用中常见的、由于“数据源差异”、“数据维度特征缺失”而导致的、模型应用困难的问题, 考察AI模型如何通过多源数据
的有效应用以及半监督学习技术
,实现有限数据下的模型决策,从而思考如何减少AI对数据依赖的问题。赛题从当前社会中高发的电信网络欺诈识别场景入手,提供模拟的“用户”投诉欺诈信息,要求选手识别投诉中的欺诈风险。
数据为模拟生成的用户支付宝欺诈投诉举报数据,标签1代表欺诈案件,标签0代表非欺诈案件,标签-1代表未知(测试数据不含-1标签)。本赛题的任务便是将举报数据进行二分类
,评价指标为不同精确率阈值下的召回率加权
。
数据包含481个特征,其中480个为结构化特征,1个为非结构化的特征。结构化特征包含:欺诈投诉举报案件中主被动双方的相关风控特征,非结构化特征为举报描述信息。而所有的特征字段都是匿名
的,我们很难对其做进一步的特征工程。但是妙就妙在该非结构化文本特征为非匿名
,仅对关键词做了替换,如微信、支付宝等,因此我们考虑使用中文预训练模型。
我们采取基于传统机器学习和深度学习模型相结合的方案, 具体使用的模型分别为LightGBM与Bert。
特征构造方面,我们基于对数据的观察发现存在的异常值情况为较多字段存在特殊值,如-1, -1000, -1111等, 我们统一将这些特殊值替换为空值,并且对于每条投诉数据计算空值总和
(null_sum)。
对于文本特征,为了充分使用语料数据,我们使用词向量模型Word2Vec
在所有训练数据(包括无标签数据)上进行表征的训练,同时采用了两种不同的分词方法,包括pkuseg和jieba,各得到一份128维的embedding向量。同样为了充分使用语料数据,我们在Bert-base模型的基础上使用全部训练数据做MLM
任务,得到基于本赛题下的预训练模型,再对下游文本二分类任务(所有有标签的训练数据)进行学习,最终得到每段文本的OOF预测值。
接着我们将Bert输出的预测概率做为特征,与上述所有提取的特征以及原始480维匿名特征送入LightGBM模型进行十折交叉验证训练。
不难看出,我们本次的方案确实非常简单,没有什么花里胡哨的操作,但却非常有效。本次线上赛的代码开发和docker提交还是相对比较繁琐的,我们在比赛结束前1个多小时才将该方案成功提交,可谓是既惊险又刺激。