From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
一般都是三个模块:
参考:
https://zhuanlan.zhihu.com/p/100019681 推荐系统技术演进趋势:从召回到排序再到重排。讲了很多前沿技术
From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
协同过滤:基于userCF(基于行为相似的召回),基于itemCF
WordtoVec:基于内容相似的召回
参考:
《推荐系统算法实践》
From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
我们的embedding向量是每小时更新一次。
比如说wide and Deep部分,wide部分可以用FTRL去做在线学习,deep部分是DNN是没办法去做在线学习的
参考:
From https://zhuanlan.zhihu.com/p/81752025
From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
大部分特征都是离线特征
模型训练后上线新的实例
在线存储:因为线上的服务对于时延都有严格的要求。比如,某个用户打开手机 APP ,他肯定希望APP 能够快速响应,如果耗时过长,就会影响用户的体验。所以,针对线上的服务,需要有一个专门的在线存储模块,负责存储用于线上的模型和特征数据 。
From https://zhuanlan.zhihu.com/p/81752025
From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
我们希望有一个中间粒度的标签,既有一定的准确度,又有一定的泛化能力。于是我们尝试对关键词进行聚类,把一类关键词当成一个标签,或者把一个分类下的新闻进行拆分,生成像“足球”这种粒度介于关键词和分类之间的主题标签。我们可以使用文本主题聚类完成主题标签的构建。
至此我们就完成了对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模
参考:
From https://zhuanlan.zhihu.com/p/52756026 用户画像构建的流程方法
From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
是指哪一块冷启动?用户冷启动、物品冷启动还是系统冷启动
对于物品冷启动
UserCF和ItemCF算法
系统冷启动
半人工,对内容进行标签标注
参考:
来自腾讯推荐算法 https://www.nowcoder.com/discuss/88679
userCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品
itemCF给用户推荐那些和他之前喜欢的物品类似的物品
userCF在计算时将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度
itemCF将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度
userCF适用场合:时效性强,用户个性话化兴趣不太明显的领域,如新闻推荐;用户相似度矩阵不那么大
itemCF适用场合:用户个性化需求强烈的领域,长尾物品丰富,比如做图书推荐;物品数量小,物品的相似矩阵计算代价不那么大
参考:
https://www.nowcoder.com/questionTerminal/fe4243be220b4cf4b3207ec6c9b72d50
我们的embedding向量是每小时更新一次。
模型可稳定半小时更新(在线学习)
比如说wide and Deep部分,wide部分可以用FTRL去做在线学习,deep部分是DNN是没办法去做在线学习的