首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何实现基于用户画像大数据的电商防刷架构?

如何实现基于用户画像大数据的电商防刷架构?

提问于 2018-08-28 22:42:18
回答 14关注 2查看 2.1K

最近1~2年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯。但任何一件事情都具有两面性,高额的补贴、优惠同时了也催生了“羊毛党”。“羊毛党”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处。那么如何通过大数据、用户画像、建模来防止被刷、恶意撞库的呢?

回答 14

problem

精选回答

发布于 2018-08-29 05:44:58

大数据一直在安全对抗领域发挥着重要的作用,从我们的对抗经验来看,大数据不仅仅是数据规模很大,而且还包括两个方面:

  1. 数据广度:要有丰富的数据类型。比如,不仅仅要有社交领域的数据、还要有游戏、支付、自媒体等领域的数据,这样就提供了一个广阔的视野让我们来看待黑产的行为特点。
  2. 数据深度:黑产的对抗。我们一直强调纵深防御,我们不仅仅要有注册数据,还要有登录,以及账号的使用的数据,这样我们才能更好的识别恶意。

所以想要做风控和大数据的团队,一定要注意在自己的产品上多埋点,拿到足够多的数据,先沉淀下来。

腾讯大数据处理平台团队研发了一个叫魔方的大数据处理和分析的平台,底层我们集成了MySQL、MongoDB,Spark、Hadoop等技术,在用户层面我们只需要写一些简单的SQL语句、完成一些配置就可以实现例行分析。

这里我们收集了社交、电商、支付、游戏等场景的数据,针对这些数据我们建立一些模型,发现哪些是恶意的数据,并且将数据沉淀下来。

沉淀下来的对安全有意义的数据,一方面就存储在魔方平台上,供线下审计做模型使用;另一方面会做成实时的服务,提供给线上的系统查询使用。

一.腾讯用户画像沉淀方法

画像,本质上就是给账号、设备等打标签。

用户画像 = 打标签

我们这里主要从安全的角度出发来打标签,比如IP画像,我们会标注IP是不是代理IP,这些对我们做策略是有帮助的。

以QQ的画像为例,比如,一个QQ只登录IM、不登录其他腾讯的业务、不聊天、频繁的加好友、被好友删除、QQ空间要么没开通、要么开通了QQ空间但是评论多但回复少,这种号码我们一般会标注QQ养号(色情、营销),类似的我们也会给QQ打上其他标签。

标签的类别和明细,需要做风控的人自己去设定,比如:地理位置,按省份标记。性别,安男女标记。其他细致规则以此规律自己去设定。

我们看看腾讯的IP画像,沉淀的逻辑如下图:

一般的业务都有针对IP的频率、次数限制的策略,那么黑产为了对抗,必然会大量采用代理IP来绕过限制。

既然代理IP的识别如此重要,那我们就以代理IP为例来谈下腾讯识别代理IP的过程。

识别一个IP是不是代理IP,技术不外乎就是如下四种:

  1. 反向探测技术:扫描IP是不是开通了80,8080等代理服务器经常开通的端口,显然一个普通的用户IP不太可能开通如上的端口。
  2. HTTP头部的X_Forwarded_For:开通了HTTP代理的IP可以通过此法来识别是不是代理IP;如果带有XFF信息,该IP是代理IP无疑。
  3. Keep-alive报文:如果带有Proxy-Connection的Keep-alive报文,该IP毫无疑问是代理IP。
  4. 查看IP上端口:如果一个IP有的端口大于10000,那么该IP大多也存在问题,普通的家庭IP开这么大的端口几乎是不可能的。

以上代理IP检测的方法几乎都是公开的,但是盲目去扫描全网的IP,被拦截不说,效率也是一个很大的问题。

因此,我们的除了利用网络爬虫爬取代理IP外,还利用如下办法来加快代理IP的收集:通过业务建模,收集恶意IP(黑产使用代理IP的可能性比较大)然后再通过协议扫描的方式来判断这些IP是不是代理IP。每天腾讯都能发现千万级别的恶意IP,其中大部分还是代理IP。

二.腾讯用户画像类别概览

三.防御逻辑

实时系统使用C/C++开发实现,所有的数据通过共享内存的方式进行存储,相比其他的系统,安全系统更有他自己特殊的情况,因此这里我们可以使用“有损”的思路来实现,大大降低了开发成本和难度。

数据一致性,多台机器,使用共享内存,如何保障数据一致性?

其实,安全策略不需要做到强数据一致性。

从安全本身的角度看,风险本身就是一个概率值,不确定,所以有一点数据不一致,不影响全局。

但是安全系统也有自己的特点,安全系统一般突发流量比较大,我们这里就需要设置各种应急开关,而且需要微信号、短信等方式方便快速切换,避免将影响扩散到后端系统。

四.接入系统

适应的场景包括:

  • 电商o2o刷单、刷券、刷红包
  • 防止虚假账号注册
  • 防止用户名、密码被撞库
  • 防止恶意登录

MOISTG

发布于 2018-08-29 05:24:29

腾讯内部防刷的架构图

1.风险学习引擎

风险学习引擎:效率问题。由于主要的工作都是线下进行,所以线上系统不存在学习的效率问题。线上采用的都是C++实现的DBScan等针对大数据的快速聚类算法,基本不用考虑性能问题。

风险学习引擎:采用了黑/白双分类器风险判定机制。之所以采用黑/白双分类器的原因就在于减少对正常用户的误伤。

例如,某个IP是恶意的IP,那么该IP上可能会有一些正常的用户,比如大网关IP。

再比如,黑产通过ADSL拨号上网,那么就会造成恶意与正常用户共用一个IP的情况。

黑分类器:根据特征、机器学习算法、规则/经验模型,来判断本次请求异常的概率。

白分类器:判断属于正常请求的概率。

2.矩阵式逻辑框架

我们以黑分类器为例来剖析下分类器的整个逻辑框架。

总的来讲我们采用了矩阵式的逻辑框架,最开始的黑分类器我们也是一把抓,随意的建立一个个针对黑产的检测规则、模型。

结果发现不是这个逻辑漏过了,而是那个逻辑误伤量大,要对那一类的账号加强安全打击力度,改动起来也非常麻烦。

因此我们就设计了这个一个矩阵式的框架来解决上述问题。

矩阵的横向采用了Adaboost方法,该方法是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些分类器集合起来,构成一个最终的分类器。

而我们这里每一个弱分类器都只能解决一种帐号类型的安全风险判断,集中起来才能解决所有账户的风险检测。

Sunde

发布于 2018-08-29 03:58:51

1)通过验证码(短信、语音)降低黑产刷单的效率


2)大幅度降低异常账号的优惠力度

和开发者交流更多问题细节吧,去 写回答
相关文章
基于用户画像大数据的电商防刷架构
腾讯云开发者社区
2016/10/26
30.4K9
基于用户画像大数据的电商防刷架构
“购物狂欢节”如何应对“羊毛党”
该文介绍了如何识别羊毛党、灰产、黑产,以及总结了一些电商节活动防刷的实践。
腾讯云开发者社区
2017/11/01
18.7K4
“购物狂欢节”如何应对“羊毛党”
用户画像的技术选型与架构实现
这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。
用户3003813
2018/09/06
1.7K0
用户画像的技术选型与架构实现
【电商】如何用商业思维分析用户行为数据
数据这么多,各类数据的表达不一样,具体应该如何处理?有人说:“产品初期,活动为辅,处理数据在于稳定。”有人说:“产品中期,活动为主,处理数据在于调控。”有人说:“产品末期,活动为核,处理数据在于激励。
机器学习AI算法工程
2018/03/09
1.3K0
腾讯云11·11:千亿订单背后的安全“暗战”
腾讯云开发者社区
2017/11/13
5.7K1
腾讯云11·11:千亿订单背后的安全“暗战”
如何构建基于知识图谱的用户画像
这篇文章是瓜子内部Tech Talk的笔记,主要介绍如何构建基于知识图谱的用户画像,感谢家帅分享。
普通程序员
2019/10/23
5.9K0
如何构建基于知识图谱的用户画像
基于大数据的用户画像构建(理论篇)
文 | 罗宇矗 什么是用户画像? 简而言之,用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。 举例来说,如果你经常购买一些玩偶玩具,那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”,甚至还可以判断出你孩子大概的年龄,贴上“有5-10岁的孩子”这样更为具体的标签,而这些所有给你贴的标签统在一次,就成了你的用户画像,因此,也可以说用户画像就是判断一个人是什么样的人。 除去“
CDA数据分析师
2018/02/24
2.3K0
基于大数据的用户画像构建(理论篇)
电商网站架构图_电商架构图
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说电商网站架构图_电商架构图,希望能够帮助大家进步!!!
Java架构师必看
2022/06/19
5.1K0
电商网站架构图_电商架构图
看亿级用户电商如何玩转SQL大数据
据艾瑞咨询的报道,2017 年中国家电行业,苏宁是最大的市场占有者。线上线下的组合,占据整个行业的 20.0%. 是京东(12.3%)和国美电器(7.5%)之和,而天猫已被拉入了第三阶梯,比较起来毫无竞争力。
用户1564362
2019/11/18
5470
看亿级用户电商如何玩转SQL大数据
如何优雅地实现接口防刷
最近在学习redis,想到了之前的写的一个案例demo,实现了接口的流量防刷。主要是为了防止爬虫爬取接口,当然可以适用于那些需要进行流控的系统,shigen画了一张草图展示主要的原理和过程:
shigen
2023/09/09
4710
如何优雅地实现接口防刷
如何构建用户画像
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、
用户1756920
2018/06/20
2.8K0
如何构建用户画像?
在《4个问题带你了解用户画像》中,我们了解了用户画像的定义、作用及使用注意事项等。
猴子数据分析
2021/09/23
3.9K0
如何构建用户画像?
如何构建用户画像?
在《4个问题带你了解用户画像》中,我们了解了用户画像的定义、作用及使用注意事项等。
猴子数据分析
2021/08/11
2.4K0
用户画像系统架构——从零开始搭建实时用户画像(二)
​ 在《什么的是用户画像》一文中,我们已经知道用户画像对于企业的巨大意义,当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢?
大数据流动
2020/05/26
4.8K0
基于 LRFMC 模型的会员用户画像
RFM 模型的概念介绍,用途,详细的使用方法本博文都不 一一 介绍了,毕竟如此常见的模型,前人论文文献、各平台都已经十分详细的叙述了整个流程。所以我们便将侧重点放在根据场景进行了优化调整的 LRFMC 模型上,这里穿插回顾少部分精华理论即可。
萝 卜
2022/05/12
8610
基于 LRFMC 模型的会员用户画像
基于 flink 的电商用户行为数据分析【9】| 电商常见指标汇总 + 项目总结
本篇是flink 的「电商用户行为数据分析」的第 9 篇文章,也是该系列的最后一篇,为大家带来电商常见的指标汇总和对前8篇文章做一个的阶段性的总结,并融入一些我自己的思考,希望大家能够从中受益,感谢阅读!
大数据梦想家
2021/01/27
1.5K0
基于 flink 的电商用户行为数据分析【9】| 电商常见指标汇总 + 项目总结
干货 :基于用户画像的聚类分析
聚类(Clustering),顾名思义就是“物以类聚,人以群分”,其主要思想是按照特定标准把数据集聚合成不同的簇,使同一簇内的数据对象的相似性尽可能大,同时,使不在同一簇内的数据对象的差异性尽可能大。通俗地说,就是把相似的对象分到同一组。 聚类算法通常不使用训练数据,只要计算对象间的相似度即可应用算法。这在机器学习领域中被称为无监督学习。 某大型保险企业拥有海量投保客户数据,由于大数据技术与相关人才的紧缺,企业尚未建立统一的数据仓库与运营平台,积累多年的数据无法发挥应有的价值。企业期望搭建用户画像,对客户进
Spark学习技巧
2018/06/22
5.3K0
[干货]如何构建用户画像
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、
用户1410343
2018/03/27
2.3K0
[干货]如何构建用户画像
5大主流跨境电商网站架构运营模式
过去的企业经营模式只要求生产过程的标准化与规模化,现如今的互联网发达,电子商务的崛起让传统企业纷纷开始产业架构的转型之路,从中跨境电商行业也开始从因低廉产品价格转为以市场调研、数据分析、技术革新、营销策略为主的竞争形态。根据跨境电商平台数商云多年的开发经验,目前主流的跨境网站运营模式具体可以分为以下五种:
数商云网络科技
2019/11/12
3.3K0
5大主流跨境电商网站架构运营模式
抗千万级调用的电商服务架构实现
电商是典型的促销拉动式场景,也是价格战驱动的场景。618和双11都是典型的促销活动。其实都是在抢用户、扩市场占有率。在这样的场景之下,对秒杀、抢购是很热衷的玩法。
JAVA葵花宝典
2019/06/21
2.5K0

相似问题

如何实现基于用户画像大数据的电商防刷架构??

1381

如何关闭活动防刷?

1250

请问跨境电商架构怎么实现,有相关的架构解决方案吗?

0204

天御防刷产品退费?

0178

如何用大数据构建用户画像?

122.6K
相关问答用户
某公司 | 程序员擅长1个领域
新浪微博 | 高级总监擅长4个领域
腾讯云TDP | 先锋会员擅长2个领域
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档