首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌YouTube推荐系统的深度神经网络应用

作者:Paul Covington, Jay Adams, Emre Sargin

2016年9月

摘要:

YouTube使用了一种当今世界最大规模、最复杂的产品级推荐系统。本文从一个比较高的视角对系统进行了描述,并聚焦于深度学习带来的性能跨越式提升。本文按照信息检索的二分法按照两个经典阶段进行介绍:首先详细描述深度候选生成模型,然后描述一个独立的深度排序模型。我们还介绍了设计、迭代和维护一个面向庞大用户量的巨型推荐系统的实践经验和洞见。

知识结构

精华内容

精华1:系统架构,首先利用基于协同过滤的网络从数百万视频中选取数百个候选视频,然后通过排序网络从中选取几十个视频推送给用户,系统结构如图所示。

精华2:分类器,将推荐作为极限多类别的分类器,利用深度神经网络及其softmax分类器,从用户的历史和语境中学习用户的嵌入特征u

精华3:有效极限分类,流行的分层softmax方法无法满足要求,这里使用了一种类似哈希的方法,使用最近邻域检索方法进行打分

精华4:模型结构,将历史观看视频、历史检索记录通过前馈神经网络生成特征向量,并与其他特征共同作为ReLU的输入进行训练,将训练结果输出给softmax进行视频分类,最终,ReLU的用户向量和softmax的视频向量作为最近邻域检索的输入,生成topN的候选结果,算法结构如图所示。

精华5:特征数量和网络深度对训练精度的影响,网络深度从Depth0到4,对应于1层-256ReLU-512ReLU-1024ReLU-2048ReLU,精度度量指标为保留样本数据的MAP(Mean Average Precision)

精华6:排序模型,将视频ID、视频语言等作为特征输入网络,利用逻辑回归模型训练权重,生成排序分数,这里有一个技巧,模型使用期望观看时间作为衡量性能的指标,而不是点击率。因为点击率容易提升欺骗性视频的排序,如标题党等。排序模型中的另一个亮点就是多样化特征的利用,包括视频更新时间、人口统计特征等多种特征的综合利用。

精华7:排序模型验证试验,衡量指标为保留样本数据的期望观看时间预测误差,即weighted,per-user loss。可以发现网络深度的增加对于排序精度的提升有明显作用。

善用智能之道:行业动态、技术前沿、产业服务,欢迎关注:九三智能控

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180214G02M7V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券