中国互联网黑产的缩影
诈骗、“羊毛党”等场景离我们越来越近,据腾讯的统计,该行业超过100万从业人员、超1000万身份证流转、数亿网民数据泄漏、百亿级恶意链接、超1000亿产值。如此成熟的规模已给不少企业的业务安全造成极大困扰。8月30日,在腾讯安全国际技术峰会(TenSec)上,腾讯云安全总监周斌发表了名为《大数据下的黑产画像与反欺诈能力建设》的演讲, 分享了一些腾讯云在业务安全层面的对抗工作,详细介绍了基于 AI 在安全上的应用对抗,为企业业务安全提供一盏明灯。
△腾讯云安全总监周斌现场演讲图
TenSec(Tencent Security Conference)即 2017 腾讯安全国际技术峰会,在深圳举办,为期两天(8月30-31日),峰会由腾讯安全科恩实验室主办,腾讯云、腾讯安全平台部、中国互联网安全领袖峰会、腾讯学院协办,汇聚国内外知名顶尖专家,腾讯云安全总监周斌在一开场便用大家熟知的老照片引出中国互联网黑产缩影的话题。紧接着在峰会上,就从两个方面展开了详细的分享,一方面是日常碰到了什么,另一方面则是腾讯云如何面对。
所遇问题,我们精准剖析
周斌作为一名经验丰富的安全从业者,从历史的角度为大家谈了黑产如何演进:“黑客都是大牛或者天才儿童,在技术上研究比较深入,但是随着社会的进步和产品发展,安全越来越走入各行各业,对安全的范畴也由于技术研究开始变为利益导向,越来越多的黑产由单点开始向云化方向演进。”
接着,周斌向大家展示了这些黑产行业者们的工作实景:
△腾讯云安全总监周斌演讲 PPT
并介绍到:“左上是手机列表,用来收发短信的平台,右上是猫池,也是卡机,将 sim 卡插入后可以通过专门的应用程序进行收发短信和自动上下行。这是整体行业链条中的一块,他们上中下游分工明确,运转高效。上游是软件开发环节,有验证码的打码平台、手机卡及验证平台商、V** 供应商,也有统一的注册软件,中游负责帐号的分销与注册,通过批量注册、养号与分类、帐号分销,下游环节属于盈利环节,优惠券领取、新手奖励、超值商品秒杀、活动奖励参与等全链路进行生存。
他们在改变,我们的对抗技术也在升级。随着腾讯全面开放云服务能力,过往在云上积累的安全和 AI 能力也在对外全面开放,希望能通过我们的积累开放给整个行业提升识别能力。”
面对问题,我们用 AI 智能对抗
峰会上,周斌谈到:“作为 AI 能力在安全领域的应用,我们碰到了不少的坑”,随后坦然分享给了大家:
最开始的时候我们基础出发点是希望能用机器学习来取代规则的应用,工程师可以通过特征工程进行特征筛选、然后异常识别、进而告警。但是这些选择,依然是需要基于专家工程师的规则来生成,需要定义好规则、进入规则引擎、再告警。双重结合来进行。但是这里最大的障碍还是建模,因为攻击方法的路径是变化的,而且可以说是无限种可能,基于规则学习很难覆盖全面,且缺乏天然的样本,模型训练很难。通常在异常识别上采用有监督或无监督模型,误杀和漏过都高,输出通常为分类和解释,有变种。垃圾消息和推荐任务通常用会有监督模型,通过标签进行输出。但是这些模型在实际应用都会遇到各种不足,腾讯在社交网络中解决业务安全层面的问题,需要另一个思路,不仅仅从算法层面出发,而是从多个纬度出发来解决业务安全层面的能力,基于8亿月活的帐号来构建一个大型的框架。
基于这个原则,我们梳理了这4个纬度的系统,从社交大数据、样本和标签、模型、特征4个方向进行,社交大数据包括了社交关系链、UGC 内容、登录和业务请求,样本和标签包括图谱分析算法、无监督&半监督算法,在模型上通过监督学习、精准预测、主动学习进行,在特征上通过功能画像、批量团伙、历史黑数据进行。
这些模式的落地,我们通过了帐号、内容、风控三个层面进行对抗。
首先,帐号是万恶之源,在主机、终端、业务、网络等多个层面都存在被利用的空间。在入侵、病毒、木马、DDOS 攻击、APK 恶意打包、恶意注册登录等多个纬度,都是攻击的最主要载体之一,单独的机器学习模型无法有效识别恶意帐号,恶意帐号的操控人五花八门,目的各异,无规律和统计特性。而我们最终是需要通过监控恶意的帐号发现恶意,形成各类恶意的感知和 AI 模型的样本及预测防御能力。
我们设计了一个批量恶意帐号自动识别模型,通过全量社交数据分析,设计了 sybirank 算法,这个算法是基于图挖掘进行,核心是通过社交分析数据,进行用户的分类,根据不同类别打分,然后输出静态种子用户群,在全量流水中找出相似行为的集合数据,对集合的数据进行自动分类,标识别恶意、可疑和温和的团伙,并使用不同的安全策略。这种模式也是结合了无监督、有监督和半监督结合的闭环。
在帐号纬度之后,我们构建的第2阶段的内容模型,一共有4层,首先是数据源,包括了画像、信用、公开信息、种子库,算法层包括了TF-IDF、WORD2VEC、boosting SVD等,在数据处理层中包括了分词、词典、变换矩阵、语义分析等,在接口层输出文本、图像、OCR、音频、活体检测、人脸识别的能力。
以我们在文本的能力举例,业务层的数据,通过在无监督层的学习,使用 boosting svd 算法,通过字典和变换矩阵进行聚类,然后排序、语义分析、类别判定,输出打击策略。
但是上面讲到的通过历史数据进行学习,形成基础的规则,对于增量数据的训练,通过降维和数据变换,形成新的词库,进而学习进特征参数,进行打击策略。
同时,我们在风控的路径上也经历了几代的模型,最开始的时候,我们使用逻辑回归进行,使用逻辑函数来表示样属于目标类别的概率,采用随时梯度下降进行优化求解,这种方案的好处是业界的标准模型,能预测目标类别概率,高效简单。但是缺点也是很明显的,检测效果一般,通过实践发现,覆盖率比较差,结论是不适于特征缺失的场景和非线性特征的场景,且存在过拟合的问题。
接着我们考虑了现有各数据源特征存在特征缺失、属性不统一、查询不一致、非线性分布等情况,单独使用性能差、人工规则又难覆盖全的现状,采用随机森林模型来建立反欺诈模型。训练子集的生成,从训练集中随机采样,从各特征集中随机采样,依据各子集建立 CART 型决策树,依据基尼指数分别对各离散或连续特征进行自动选择,迭代分裂生成二叉树。较好地提升了检测性能。
再接着,有了更高的要求:更好的精度,由于标签数据日益增加,导致我们需要采用新的方法,基于残差学习,采用 GBDT 在误差残差方向上逐步建立弱学习器,通过迭代训练集成 boosting 分类器系统。优点是大数据集下分类性能更好,适用于非线性特征,适合多特征类型。
最后,我们需要针对不同场景进行定制化建模,但是单独适配的人力成本高。采用神经网络模型为基础模型,在通用数据集预训练,基于迁移学习思想,进行源领域的实例迁移。优点是一套方案多处套用,适合目标领域标签数据少的情况。
基于刚提到的几个步骤,我们最终构建出来了一套基础框架。在画像层我们对用户画像、设备指纹、知识图谱构建,在源数据层是终端数据、身份数据、恶意数据等内容,在基础算法层有 OOB、GBDT、boosting(反欺诈),在图像上的 NLP、OCR、人脸,推荐算法上的 look like 等,可以输出 SDK、专家模型等,对外可以提供金融、社交、政企、营销服务的类型。
我们的这些能力,放在腾讯云安全上,作为内容安全能力在对外开放,也就是天御服务,目前在金融、移动 APP、直播、社交等多个行业有大量客户采用。
对抗已经开始,战斗也在继续
在周斌看来,以上所述只是一个开始,战斗仍在继续,在演讲结尾之时以腾讯打击中国最大验证码打码平台“快啊答题”为例,分享了一系列数据:
这个团伙运用 AI 技术训练机器,极大加快了识别率,2017年第一季度打码量259亿次,识别的精确度80%+。这个平台基于深度学习 caffe 框架,使用了 vgg16 卷积神经网络模型,可以直接输入原始图像(避免对图像前期复杂的预处理),并能通过深度的机器学习来获得较高的验证码识别率。对方积累了10000个字符库,超过5000万 样本库,对6个字符以内的验证码可以快速识别。
面对如此强劲的对手,周斌表示我们基于 AI 在安全上的应用对抗能力也在稳健快速升级,腾讯云安全天御,基于腾讯集团全业务线产生的数据进行分析和挖掘,沉淀出高质量的恶意库,并结合自研的 AI 安全模型对外输出业务安全能力,为金融、电商、O2O、直播等行业提供专业的业务安全服务,为企业解决业务被滥用的问题。