前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于腾讯开源 Angel 的 LDA* 入选国际顶级学术会议 VLDB

基于腾讯开源 Angel 的 LDA* 入选国际顶级学术会议 VLDB

原创
作者头像
腾讯开源
修改于 2017-09-07 01:47:29
修改于 2017-09-07 01:47:29
2.1K0
举报

2017年8月27日-9月1日, 数据库领域的国际顶级学术会议VLDB(Very Large DataBase) 在德国慕尼黑召开。 腾讯开源项目Angel团队的论文《LDA*:A Robust and Large-scale Topic Modeling System》,入选了今年VLDB的research track,并获邀在大会上进行Oral Presentation。

Angel:高性能分布式机器学习平台

Angel是腾讯对外开源的第一个AI项目,是一个基于参数服务器(Parameter Server)理念开发的高性能分布式机器学习平台。它由Java和Scala开发,能在社区的Yarn上直接调度运行,并支持Spark on Angel,未来将会支持图计算和深度学习框架集成。

Angel于2017年6月16日开源,Star数三天过千,受到了广泛的用户好评,吸引了来自华为、微博、小米和上海外企的开发者参与项目,并在2017 全球机器学习技术大会、Strata China 2017、新浪微博机器学习团队等线下分享,吸引了大量的机器学习爱好者。

Angel由腾讯TEG数据平台部和北京大学联合开发,兼顾了工业界的高可用性和学术界的创新性。之前已经在SIGMOD、NSR、ICDE等顶级国际会议上发表了多篇论文,这次在VLDB发表Paper,是又一个重要的标志性事件。

LDA* : 基于Angel的大规模高性能主题模型系统

主题模型是一个对文本建模的概率图模型。在主题模型中,每个文档被看成一个话题(Topic) 的分布,将每个话题看成是一个在词语上的分布(Topic Distribution of Words)。通过主题模型对文本进行建模,文档被表示成一个话题分布(Topic Probability),从而可以对文档进行聚类等分析。

主题模型的应用场景非常广泛,可以用于多个领域,比如推荐系统、广告CTR预估,用户兴趣分类……但是在工业界的场景下训练主题模型,经常会遇到三个问题:

  1. 训练的数据规模非常大,2T大小的样本,3000亿个Token,要求在几个小时内跑出结果
  2. 数据和参数复杂,在各种各样的数据和参数配置下,都必须要有较好的性能
  3. 系统需要具有较高的可扩展性和鲁棒性,才能应对现网集群中的复杂情况

为了解决这些问题,LDA 基于Angel,从模型和工程上都进行了针对性优化,得益于Angel开放的参数服务器架构、良好的扩展性以及优秀的编程接口设计,解决了在复杂的数据环境中采样性能的鲁棒性以及*词倾斜分布带来的巨大网络通信流量这两个难题,具备了广泛的适用性和良好的性能,可以轻松处理TB级别的数据和十亿维度的主题模型。

优化1:基于吉布斯采样的Hybrid Sampler

吉布斯采样是一种基于马尔科夫蒙特卡罗的采样方法,常常用于求解大规模主题模型,但是在大规模数据以及话题个数较多的情况下,吉布斯采样的求解效率非常低下。

目前业界已有的解决方法,包括Sparse-Aware Samplers(简称SA)和Metropolis Hastings Samplers(简称MH)。SA采样法使得采样复杂度降低到O(Kd),Kd的上限是文档的长度L_d和话题个数K中的较小值;MH采样法的采样复杂度为O(1),但是因为存在接受率π,概率上需要O(1/π)次采样才能得到一个样本;而SA采样法每次采样都能够产生一个样本。

因此,SA采样法和MH采样法之间存在一个tradeoff。Angel团队做了详尽的实验找到了SA、MH两种采样法的交叉点,LDA* 有效地将F+LDA(SA采样法)和WarpLDA(MH采样法)结合起来,设计了一个新的Hybrid Sampler。

它采用了两个启发式的规则来构建这个Hybrid Sampler。在第一个规则中,将数据集分成两个部分,文档较长的数据集和文档较短的数据集,然后使用F+LDA来采样较短的文档集合,使用WarpLDA采样较长的文档集合;在第二个规则中,将两个具有不同收敛速度的sampler结合起来,在一次迭代中,每个token话题的采样都能产生一个样本,因此对于WarpLDA来说,需要动态地设定其MH步长,而对于F+LDA来说,则不需要进行任何改变。

根据实验,Hybrid Sampler在所有的数据集上和参数配置下,都能获得最好的性能。

优化2:非对称架构,实现模型并行

主题模型的训练常常需要大规模的数据集和较大的话题个数,因此分布式训练常常用于进行大规模的主题模型训练。已有的系统,包括LightLDA,YahooLDA和Petuum,其实都是采用参数服务器的架构来进行分布式训练,但是由于词分布的倾斜特性,标准的参数服务器架构会在Worker端产生较大的网络通信开销,因此每个worker几乎都需要把整个词-话题(Word-Topic)矩阵模型从PSServer上拉取下来,这个对性能会有很大的影响。

在实际的测试下,由于词分布的倾斜性,导致大部分的网络开销都产生于长尾的词语,这些长尾的词语产生的网络开销造成了在数据量和模型参数较大时带来的性能损失。因此,LDA 对于这类长尾词语进行了特殊的处理,将一部分长尾词语的采样推送到PSServer端进行,从而避免了对词-话题矩阵的拉取操作。由于在这样的架构中,PSServer不仅仅作为一个分布式存储,还参与了一定的计算任务,从而某种程度上实现了模型并行,这种架构为非对称架构。依托于Angel良好的接口设计和psFunc功能,LDA的这种非对称架构可以非常轻松的实现,而不用对Core进行任何的修改。

性能数据:在腾讯真实的推荐数据集上最高是原有系统的 9 倍

为了进行全面的评测,LDA 和之前开源的Petuum,以及微软的LightLDA,在2个数据集上进行对比。一个是开源的PubMED,一个是腾讯真实的推荐数据集。实验结果表明,在数据量越大的情况下,LDA 的优势越明显。

  • PubMED数据集上,LDA*的速度,分别是Petuum和LightLDA的5倍
  • 在腾讯真实的推荐数据集上,LDA* 是Petuum的9倍,是lightLDA的2.6倍。

大规模生产数据 为了更好的体现LDA 的性能,在腾讯内部生产集群上,LDA 使用更大的数据集进行训练。从下图的数据集可以看到,最大的一个数据集有3000亿个token,大约1.8TB的数据量。在所有的任务中,话题数设置为8000。

  • 数据集规模如下
  • 测试性能如下 LDA* 能够在资源充足的情况下,能得到非常好的扩展性,并且能够扩展至数千个worker,即便对TB级别的数据进行训练,时间可以控制在小时级别,很好的满足了生产系统的需要。

请在Github上Star Angel项目,与我们探讨

除了LDA算法,Angel还提供了Logistic Regression、Matrix Factorizaiton、GBDT等业内常用的高性能算法。未来,伴随着Angel开源的发展和推广,希望业界会有更多的公司,能够从Angel中受益,轻松拥有构建大规模模型的能力。也欢迎对机器学习有兴趣的同仁一起贡献代码。

Github: https://github.com/tencent/angel

转载自【腾讯开源】公众号,腾讯官方开源资讯,期待您的关注。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文透析腾讯云云上攻防体系
近年来,网络安全问题变得愈发严峻,企业被黑客攻陷事件层出不穷,企业攻防犹如一道隔绝外界侵扰的屏障,一旦屏障被攻破,信息数据安全便失去保障。随着云计算浪潮到来,越来越多企业开始在云上探索新航线,期望解决应用数据量庞杂、服务器运维成本高、主机运行不稳定、配套资源待完善等问题,而云计算应用的热潮,也让云上安全成为新的命题。
腾讯安全
2020/01/21
1.3K0
一文透析腾讯云云上攻防体系
产业安全专家谈 | 面对恶意攻击,主机安全如何构建云端防御屏障?
随着云计算的普及,云主机因强劲的性能、较低的成本成为大量传统企业上云和新兴业务快速扩张过程中的主流选择。
腾讯安全
2020/01/10
1.2K0
产业安全专家谈 | 面对恶意攻击,主机安全如何构建云端防御屏障?
腾讯云鼎实验室Killer:面对“想哭”勒索软件,你不知道的几件事儿
云资讯小编
2017/05/14
2.5K0
腾讯云鼎实验室Killer:面对“想哭”勒索软件,你不知道的几件事儿
暗云来袭!腾讯安全联合实验室力挫 DDoS 攻击
本文转自安全牛报道 自5月26日19点开始,一场大面积的 DDoS 网络攻击活动席卷全国。有被攻击者反映,单个 IP 遭受黑客组织攻击的流量规模高达 650G。监测发现,本次活动参与攻击的源地址覆盖度
腾讯云安全
2018/06/12
1.7K0
Petya 来袭,腾讯云快速响应提供安全解决方案
本文介绍了Petya勒索病毒对全球用户造成的危害和影响,并提供了腾讯云安全团队针对此病毒的防范措施和解决方案。
腾讯云安全
2017/06/29
4.9K0
搭载 AI 引擎 腾讯云云镜开启全面防护模式
 导语:曾在 Petya 勒索病毒 、暗云Ⅲ病毒等大型安全事件中发挥重要作用的腾讯云云镜主机防护系统,近日大幅升级了安全能力,升级后的检测引擎对黑客入侵行为的检出率高达92%,高出传统解决方案20个百分点,并且随着机器学习的深入,其识别率和准确性还将进一步提高,可以帮助用户建立更加牢固的安全防线。 1 AI+大数据双轮驱动 云镜检出率居行业首位 随着各大企业纷纷将其业务部署到互联网上,作为企业最宝贵资产的云服务器需要时刻警惕漏洞隐患、木马威胁、WebShell、密码破解等安全威胁。为守护云服务器安全,腾讯
腾讯云安全
2018/08/14
8.3K7
主机安全防护:腾讯云云镜产品
腾讯云云镜是基于AI算法的轻量化主机安全软件,帮助用户解决木马感染(勒索,被篡改),被入侵(挖矿,数据窃取),漏洞,登陆密码爆破等主机安全问题。了解云镜: https://cloud.tencent.com/product/hs
腾讯云基础安全
2018/09/09
6.8K0
主机安全防护:腾讯云云镜产品
腾讯安全应对勒索病毒,有解!
据外媒报道,名为DarkSide的勒索软件攻击了美国主要的燃料管道商佐治亚州殖民地管道公司(Colonial Pipeline),该公司的燃油管道系统已被迫关闭,该事件成为近年来勒索病毒团伙引发的一起最严重的威胁到社会公共服务的安全事件。腾讯安全专家指出,勒索病毒团伙攻击日趋针对高价值目标,勒索黑客在瘫痪目标网络前,通常已提前控制该网络核心系统,并窃取受害企业重要信息资料。
腾讯安全企业服务
2021/05/12
2.1K0
腾讯安全应对勒索病毒,有解!
敲黑板 | 如何更好地保护云上资产?
“云”越来越不陌生,云上庞大的资产也成为不法分子觊觎的对象,他们喜欢窥探各处的信息,并使用工具,批量扫描、利用漏洞入侵机器,达到控制机器的效果;他们利用一个漏洞就能完成一系列操作,在你的设备上留下后门,进行挖矿、DDoS 等行为。 2016-2017年 Petya、WannaCry 勒索病毒相继出现,国内外多家大型企业被攻击,政府、银行、电力系统、通讯系统不同程度被影响; 2016年10月,美国东部大规模网络瘫痪,大量知名平台受到 DDoS 攻击。 2017年10月 某汽车厂商的公有云基础设施被爆曾遭黑客
腾讯云安全
2019/05/16
1K0
敲黑板 | 如何更好地保护云上资产?
勒索病毒预防指南
勒索病毒已成为网络安全最大威胁之一。从大洋彼岸的美国油管瘫痪,肉类加工告急,州轮渡停摆,再到邻近的日本富士胶片集团关闭部分服务,近期频发勒索事件,更是凸显了该威胁的严重性,也再次为组织单位敲响警钟。
云上计算
2021/08/30
2.1K0
勒索病毒预防指南
腾讯安全面向广大企业免费开放远程办公安全保障服务
在这个特殊的新年,为了最大限度减少人员流动聚集,很多企业选择“云开工”模式,但远程办公虽然保障了“人身安全”,却存在一定的“信息安全”风险,涉及员工异地访问的身份识别、多地分散的终端安全防护、越权操作等问题,事关企业的核心数据资产安全。
腾讯安全
2020/02/06
2.3K0
腾讯安全面向广大企业免费开放远程办公安全保障服务
行业首批︱腾讯云云镜荣获云计算产品信息安全和 CSA CSTR 双证书
腾讯云云镜通过公安部第三研究所检测中心联合云安全联盟的严格评测,成为首批通过该认证的极少数产品之一。
腾讯云安全
2018/07/02
14.1K0
病毒凶猛,企业的云安全谁来守护?丨科技云 · 视角
肆虐全球的病毒攻击,频繁开启的高危事件预警,让云服务的安全问题面临着空前的挑战。安全警钟敲响之时,呼之欲出的是企业对云安全的顾虑。
科技云报道
2022/04/14
3750
病毒凶猛,企业的云安全谁来守护?丨科技云 · 视角
坐等被勒索?不如早点做好安全防御准备丨科技云·视角
曾经席卷全球的WannaCry病毒,并不是一个被人遗忘的老故事,针对勒索病毒的攻防战还在持续进行中。
科技云报道
2022/04/14
3370
坐等被勒索?不如早点做好安全防御准备丨科技云·视角
云上挖矿大数据:黑客最钟爱门罗币
本文作者:zhenyiguo、jaryzhou、youzuzhang 2018年,区块链项目在这一年上演着冰与火之歌,年初火爆的比特币在一年时间内跌去八成。除了巨大的市场波动之外,区块链领域本身的安全问题也逐渐凸显,与之相关的社会化问题不断显现。 “勒索”、“盗窃”、“非法挖矿”是区块链项目数字加密货币的三大安全威胁,其中云主机用户面临的首要安全问题是非法挖矿。 非法挖矿一般分为基于文件的挖矿和基于浏览器的挖矿。由于云主机用户一般不使用浏览器访问网页,故基于浏览器的挖矿在公有云上并非较大的威胁。 反之,云
云鼎实验室
2019/01/17
3.4K0
云上挖矿大数据:黑客最钟爱门罗币
盘点近几年勒索病毒使用过的工具和漏洞
早前,我们从赎金角度探讨了下勒索病毒的发展演变,详细参考从赎金角度看勒索病毒演变。加密数字货币和Tor网络对勒索病毒的基础性支撑不再赘述,今天,我们回归技术,从另外一个角度,看勒索病毒为何会如此猖獗。为了很好的回答这个问题,我们同样不急于切入主题。首先,深信服安全团队基于大量真实的客户案例及大量的威胁情报信息,来盘点近几年勒索病毒使用过的工具和漏洞。
FB客服
2019/11/29
3.2K0
暗云Ⅲ木马病毒肆虐,云服务商的下一站是云安全?丨科技云·视角
突如其来的“WannaCry”勒索病毒和“暗云Ⅲ”木马程序肆虐全球,令云服务提供商向“安全厂商”转变成为一种必然趋势。
科技云报道
2022/04/14
7770
暗云Ⅲ木马病毒肆虐,云服务商的下一站是云安全?丨科技云·视角
day11 | 网络安全应急响应典型案例(挖矿类)
近几年,除勒索病毒外,挖矿木马也越来越流行,多为利用漏洞利用、“永恒之蓝下载器”、弱口令暴破等手段完成攻击,由于其具有较强的隐蔽性,会利用一些手段避开受害者活动时间,利用受害者空闲时间进行挖矿,长此以往,服务器、主机显卡或CPU长期占用过高,导致电脑性能降低,同时攻击者会利用已控制的挖矿主机攻击其他设备,导致业务中断甚至更严重的网络安全事件的发生。
亿人安全
2023/09/25
1.9K0
day11 | 网络安全应急响应典型案例(挖矿类)
WannaCry爆发六年,勒索病毒为何“不降反升”成为头号威胁?
今年四月,肯德基、必胜客的母公司因为遭遇勒索病毒,被迫关闭了300多家快餐厅。而在不久前,国内某知名车企也遭遇黑客攻击,被勒索数百万美元等额比特币,并引发舆论关注。
腾讯安全
2023/05/15
3780
WannaCry爆发六年,勒索病毒为何“不降反升”成为头号威胁?
又一家企业被“勒索”遭殃,企业数据安全路在何方
2018年7月8日18:02,安恒信息应急响应中心接到某企业电话求救——公司自动化企业资源管理ERP系统被恶意加密,并提示支付比特币才能解密。该ERP系统中的数据包含公司运营数年的人力、财务、物料、合同等重要数据,一旦损失将导致企业运营受到重创。安恒信息应急响应中心第一时间安排应急专家赶往现场开展紧急数据救援行动……
安恒信息
2018/07/24
8800
又一家企业被“勒索”遭殃,企业数据安全路在何方
推荐阅读
相关推荐
一文透析腾讯云云上攻防体系
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档