Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于SPARK的大规模网络表征算法及其在腾讯游戏中的应用

基于SPARK的大规模网络表征算法及其在腾讯游戏中的应用

作者头像
腾讯云开发者
发布于 2024-05-29 04:20:08
发布于 2024-05-29 04:20:08
2140
举报

👉目录

1 背景介绍

2 算法设计

3 应用场景

本文介绍了腾讯游戏社交算法团队研发的能够处理百亿级大规模图数据的分布式网络表征算法,及其在多个游戏业务场景落地应用,并且取得明显的实际业务效果提升。

01、背景介绍

大部分数据都可以用图来表示。如图1所示,在社交网络中,用户可以当做网络中的节点,用户之间的社交关系形成网络中的边;在网页链接网络中,网页形成网络中的节点,网页的超链接构成了网络中的边;在用户购买物品网络中,用户和物品分别形成网络的节点,用户购买物品的行为构成了网络的边。

图1:图数据

在游戏中,我们有大量的图数据,包括游戏中的好友关系、玩家互动关系、玩家与道具的关系等等。不同的图数据代表不同的信息。比如,平台好友关系网络是熟人关系网络,游戏好友关系网络是游戏中的陌生人网络,对局后的点赞行为形成的网络体现了玩家的游戏水平,道具购买网络展现了玩家的付费偏好。在这些图数据上的任务,通常有两种:链路预测和节点分类。在链路预测任务中,我们要预测两个没有连边的节点是否可能构建连边,比如好友推荐任务;在节点分类任务中,给定一些节点的类别,我们要预测其他节点的类别,比如预测玩家是否流失或付费任务。

解决上述图数据上的任务,可以通过机器学习的方法,也就是把节点在图数据中的特征输入到机器学习模型中(比如,XGBoost 或者 MLP),同时结合训练样本,从而得到一个预测模型,如图2所示。

图2:图数据上的任务

网络表征算法(Network Embedding)是目前使用比较广泛的提取图数据上节点特征的技术。这个技术可以为图上的所有节点计算一个指定长度的特征向量,使得在图上距离较近的节点,在特征向量空间中的距离也比较近。这些算法通常可以粗略地分为两种类型:基于随机游走的算法和基于矩阵分解的算法。如图3所示,基于随机游走的算法首先生成大量的随机游走路径,然后最大化节点在路径序列中的似然相似度;基于矩阵分解的算法则将节点的相似矩阵分解为节点特征向量的点乘。

图3:网络表征算法的两种类别及其优化函数

然而,在数据量较大的图数据中,现有的网络表征算法具有较大的计算困难,主要是由于图数据可能较大而在单机内存中不能存储,并且计算算法较为复杂而需要较长的计算时间。另外,在公司中,我们大量的图数据都存储在分布式数据库 TDW。因此,我们创新性地提出采用分布式计算框架 Spark 来计算网络表征。

02、算法设计

为了克服图遍历和模型训练中造成分布式计算中大量的通信代价,我们提出了基于递归图分割的分布式网络表征算法。这个方法,首先是运行递归图分割,其中每次迭代计算中的图分割将一个图分割成多个子图,如图4所示。这些子图主要有两类:基于同一个分区构建的 induced subgraph,和基于跨不同分区的边构建的 border subgraph。如果 border subgraph 的节点数比较多,则我们继续对 border subgraph 进行分割,直到每个子图的节点数量比较近似。

图4:图分割将一个图 G 分割多个 induced subgraphs 和一个 border subgraph

于是,我们可以对图3中给出的优化函数进行改写。对于基于随机游走的算法,优化函数可以分成两部分,一部分是同一个分区的节点之间的似然相似,另一个部分是不同分区的节点之间的释然相似。

相似地,基于矩阵分解的算法的优化函数也可以类似地分解成两部分:

那么,这也就是暗示了我们可以通过每个子图上单独计算网络表征,然后通过融合这些子图的网络表征,可以近似地得到满足优化函数的网络表征。

如图5所示,最终的算法包括三个阶段:

(1)采用递归图分割,将图数据分割成多个大小比较相近的子图;

(2)对每个子图单独运行已有的网络表征算法,我们采用了 node2vec;

(3)将所有子图的表征进行融合,得到每个节点最终的表征。

图5:分布式网络表征算法

03、应用场景

我们已经将本方案的分布式网络表征算法应用到超过5款游戏的多个业务场景中,包括好友推荐和道具推荐。其中,这些游戏来自多个不同的品类,并且大部分游戏的网络边数量超过百亿。表1展示了算法在多个游戏社交网络的运行时间。

游戏

点数 (亿)

边数 (亿)

运行时间 (h)

Game A

2+

80+

10

Game B

7+

200+

16

Game C

6+

300+

21

Game D

1+

200+

23

Game E

0.04

2+

5

Game F

0.05

4+

7

表1:分布式网络表征算法在多个游戏社交网络的运行时间

同时,图6展示了分布式网络表征算法在多个业务场景中的应用效果。

图6:分布式网络表征算法在多个业务场景中相对原有方法的相对提升幅度

团队介绍

腾讯游戏社交算法团队 (https://socialalgo.github.io/)致力于研发高效且有效的社交网络智能算法和分析技术,挖掘海量丰富的图数据,构建高性能的图模型,服务于大量游戏的多样社交场景,旨在提升用户留存和游戏收益。团队负责的场景包括好友推荐、社群推荐、社交传播、社交营销、社交分析等围绕大规模社交网络的应用。团队研发的技术已落地应用于30+款腾讯游戏,包括和平精英、王者荣耀、英雄联盟手游、QQ 飞车手游、元梦之星、金铲铲之战等游戏。目前,团队已获得多项腾讯公司级荣誉奖项,包括卓越运营奖、业务突破奖、腾讯专利奖、腾讯代码奖、犀牛鸟精英人才计划优秀学生和导师等,并且在国际前沿学术会议和期刊上已发表了20+篇论文。

相关论文资料

[1] Wenqing Lin: Large-Scale Network Embedding in Apache Spark. KDD 2021

[2] Wenqing Lin, Feng He, Faqiang Zhang, Xu Cheng, Hongyun Cai: Initialization for Network Embedding: A Graph Partition Approach. WSDM 2020

-End-

原创作者 | 林文清

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯游戏自研学术成果:基于图分割的网络表征学习初始化技术
图是一种通用的数据表现形式,图算法逐渐在大数据处理中展现其价值。网络表征学习算法作为目前比较主流的一种图数据处理算法,引起学术界和工业界的极大兴趣。 本文介绍了 IEG 在网络表征学习方面的一个自研学术成果,最近被国际顶级学术会议 13th ACM International Conference on Web Search and Data Mining (WSDM 2020) 接收为学术长文。个人始终认为并且坚持研究与业务是可以相辅相成的。因此,该技术起源于对游戏业务优化的需求,升华于对技术细
腾讯技术工程官方号
2019/10/18
7300
腾讯游戏自研学术成果:基于图分割的网络表征学习初始化技术
深度 | 图计算系统进展和展望
文 / 成杰峰,刘勤,李震国 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2016年《程序员》 挖掘大规模图数据能增强现有商业业务,甚至产生新的商业模式。然而,这些图数据的规模让图数据挖掘本身成为难题,这些突出的挑战都指向了发展具有高可扩展能力的大规模图计算处理的有效工具。本文先展开叙述图计算技术的几个核心层面,进而介绍华为诺亚方舟实验室的VENUS图计算系统,最后对图计算发展的趋势作简要展望。 背景 大量不同个体之间彼此交互产生的数据以图的形式表现,在通信、互联网、电子商务、社交网络和
用户1737318
2018/06/06
2.2K0
社交活动的“超级传播者”:揭秘网络影响力最大化算法在推荐中的应用
在现代社交网络中,信息和影响力的传播无处不在。影响力最大化(Influence Maximization,以下简称 IM)旨在找出网络中最有影响力的少数用户,从而最大化信息传播效果。这一概念起源于病毒式营销,即企业通过奖励有影响力的用户(如赠送试用产品)来促进他们在朋友圈推广产品,因为人们通常认为来自朋友或信任源的推荐比商家宣传更可靠。
腾讯云开发者
2024/06/28
6260
社交活动的“超级传播者”:揭秘网络影响力最大化算法在推荐中的应用
图神经网络2-图表征学习
图表征学习(Graph Representation Learning,也称之为图表示学习)是专门针对图数据域的技术,旨在将图结构中的节点转化为具有连续数值的向量表示,以便在这些表示上进行进一步的机器学习任务,如分类、聚类、链接预测等。
皮大大
2023/11/23
8030
腾讯联合新加坡国立大学研发的这个传播模型,已入选WWW 2024
在社交网络日益成为人们日常生活不可或缺的一部分的今天,信息如何在网络中传播和扩散成为了一个重要课题。邀请感知扩散(invitation-aware diffusion, IAD)描述了信息通过邀请机制从一位用户传播到另一位用户的过程,其涉及用户的邀请和接受行为。IAD在各种现实世界的社交平台上广泛存在,例如微信、领英和网络游戏。与对陌生人的推文进行点赞或评论的行为不同,邀请行为通常发生在私域社交网络的朋友之间,从而通过已建立的社交关系进行传播。例如,腾讯游戏平台经常组织活动以增进熟人之间的友谊,鼓励用户邀请朋友一起游戏,接受邀请的朋友可以进一步邀请他们的朋友,从而创建一连串的邀请。此外,理解IAD的机制有助于提升多种下层应用,如影响力最大化、谣言检测、扩散预测和网红定价。
edwlin
2024/05/07
3890
腾讯联合新加坡国立大学研发的这个传播模型,已入选WWW 2024
开发 | 继 XDL 之后,阿里妈妈开源大规模分布式图表征学习框架 Euler
在图结构存储和图计算的抽象上均良好的支持异构点、异构边类型的操作,并支持丰富的异构属性,可以很容易的在图学习算法中进行异构图的表征学习。
AI科技评论
2019/11/01
1.3K0
开发 | 继 XDL 之后,阿里妈妈开源大规模分布式图表征学习框架 Euler
WWW 2015 | LINE:大规模信息网络的嵌入
题目:LINE: Large-scale Information Network Embedding
Cyril-KI
2022/11/03
6590
WWW 2015 | LINE:大规模信息网络的嵌入
社会化推荐浅谈
不知道大家有没有这样的感觉,本人一直觉得社交网络这个东西是一个很有意思的玩意儿,起初觉得它有意思也可能是由于这个可爱的名词-Social Network,也可能是被五颜六色的社交网络示意图所吸引,总之并没有什么高大上的名词来解释我对于它的喜爱。也正是由于这种莫名的好感,基于社交网络的推荐系统也成了我后来硕士阶段研究的课题。随着后续学习与研究的深入,逐渐了解到了社交网络中包含的有意思的结论以及所蕴含的强大知识,也更加确定了自己对于这一领域的喜欢。
张小磊
2019/12/25
9930
TKDE 2018 | 图嵌入综述:问题、技术和应用
https://ieeexplore.ieee.org/document/8294302
Cyril-KI
2022/09/19
1.5K0
TKDE 2018 | 图嵌入综述:问题、技术和应用
网络表示学习概述
随着社交媒体的飞速发展,在线社交网络成为了人们赖以生存的第二世界。大规模社交网络用户的形成使得传统的网络表示方法遇到了瓶颈,由于随着深度学习技术的蓬勃发展以及受自然语言处理领域词嵌入技术的启发,自动学习网络中节点的向量表示成为近年来的研究热点。
张小磊
2020/04/21
7470
2019腾讯犀牛鸟精英人才培养计划课题介绍(九)&(十)—数据挖掘及其相关应用研究方向&数据库相关技术研究方向
2019年度腾讯 “犀牛鸟精英人才培养计划”开放申请中,该项目是一项面向学生的校企联合人才培养项目,为期一年。入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养,并获得3个月以上带薪到访腾讯开展科研的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程,全面提升学生综合素质。 今年共有10大方向,81个子课题 申报截止日期:2019年1月28日 申报截止倒计时10天 同学们,抓紧时间申报哦 下面让我们一起来
腾讯高校合作
2019/01/17
5400
2019腾讯犀牛鸟精英人才培养计划课题介绍(九)&(十)—数据挖掘及其相关应用研究方向&数据库相关技术研究方向
大规模异构图召回在美团到店推荐广告的应用
美团到店推荐广告团队在图神经网络的长期落地实践中,思考分析了场景的特点与挑战,针对性地进行了模型设计,并通过大规模训练工具及线上部署优化多次成功落地,带来了线上收入提升。本文主要介绍了大规模图召回技术在美团到店广告场景下的实践经验,包括模型设计思路、模型迭代历程、大规模训练工具以及线上部署性能优化等,希望为从事相关工作的读者带来一些启发。
美团技术团队
2022/12/16
9360
大规模异构图召回在美团到店推荐广告的应用
Philip S. Yu 团队最新综述!社区发现的深度学习方法:进展、挑战、机遇
编者按:社区发现(Community Detection)是网络科学领域中一个经久不衰的重要问题。
AI科技评论
2020/05/25
4.4K0
Philip S. Yu 团队最新综述!社区发现的深度学习方法:进展、挑战、机遇
【WWW2018】网络表示学习Tutorial(附下载)
2018 年 4 月 23 日至 27 日,第 27 届国际万维网会议(26th International World Wide Web Conference) 在法国里昂举行。斯坦福大学SNAP组
WZEARW
2018/06/05
1.3K0
3小时入门Spark之Graphx
由于事物之间普遍联系的哲学原理,网络结构无处不在。例如,微信用户之间的好友关系形成社群网络,科学论文间的相互引用关系形成文献网络,城市之间的道路连接形成交通网络 …… 可以说,万事万物都处在一个复杂网络当中。马克思·韦伯也说:人是悬挂在自己编织的意义之网上的动物。网太重要了,所以我们每次到一个新的地方,我们都会问:老板,有网吗?wifi密码是什么?
lyhue1991
2020/07/20
5.3K0
3小时入门Spark之Graphx
[AI安全论文] 22.图神经网络及认知推理总结和普及-清华唐杰老师
前一篇从个人角度介绍S&P21的离地攻击(Living-Off-The-Land)系统分析,这是一篇非常经典的论文。这篇文章将带来清华唐杰老师的分享“图神经网络及认知推理总结和普及”或“Graph Neural Networks and Applications—A Review”。唐老师也是学术界大牛,真心值得我们学习。同时文章融合了自己十年NLP的理解及相关资料补充,只希望帮助更多初学者,且看且珍惜,写得不好的地方请海涵。这些大佬是真的厉害,献上小弟的膝盖~fighting!
Eastmount
2022/08/31
8590
[AI安全论文] 22.图神经网络及认知推理总结和普及-清华唐杰老师
WWW2022 最佳论文直播解读 | 大规模自动化图学习!
来自北京大学DAIR实验室与腾讯TEG机器学习平台部Angel Graph团队共同完成的研究斩获WWW 2022唯一最佳学生论文奖(Best Student Paper Award)。 直播预约 直播主题:可扩展的图神经结构搜索系统 | WWW2022 直播时间:6月1日 14:30-16:00 讲师介绍: 张文涛 腾讯TEG机器学习平台部 Angel Graph团队应用研究员 北京大学计算机学院2020级博士生,TEG机器学习平台部Angel Graph团队成员。以第一作者在机器学习(ICML,Neur
腾讯云开发者
2022/05/31
4960
WWW2022 最佳论文直播解读 | 大规模自动化图学习!
[万字综述] 21年最新最全Graph Learning算法,建议收藏慢慢看
今天小编给大家带来了一篇极全的2021最新图学习算法综述。该综述不仅囊括了目前热门的基于深度学习的图学习方法,还全面介绍了其它三个大类:基于图信号处理的方法、基于矩阵分解的方法、基于随机游走的方法。因此能带领大家从更多的维度认识网络表示学习。作者还概述了这四类图学习方法在文本、图像、科学、知识图谱和组合优化等领域的应用,讨论了图学习领域的一些未来研究方向。该综述对于帮助我们全面回顾图学习方法以及精准把控其未来研究方向具有巨大意义。
Houye
2021/05/31
3.1K0
[万字综述] 21年最新最全Graph Learning算法,建议收藏慢慢看
[AI安全论文] 25.向量表征之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec
这是向量表征系列文章,从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec。
Eastmount
2023/02/28
8650
[AI安全论文] 25.向量表征之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec
图数据表征学习,绝不止图神经网络一种方法
近年来,图神经网络掀起了将深度学习方法应用于图数据分析的浪潮。不过其作为一门古老的认识世界的方法论,人们对于图数据表征技术的研究从很早以前就开始了。
AI科技评论
2020/06/03
3.7K0
推荐阅读
相关推荐
腾讯游戏自研学术成果:基于图分割的网络表征学习初始化技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档