首页
学习
活动
专区
工具
TVP
发布

推荐系统杂谈

专栏成员
4
文章
2798
阅读量
3
订阅数
排序算法的演进
前段时间看到友商宣传他们打造了Go语言最快的排序算法,有些观点不敢苟同。为此,特意梳理了一下排序算法的演进,发现没有最快,只有更快。
RK
2023-02-14
8530
如何上线TB级推荐模型
推荐上一篇文章说到所谓TB级模型主要的问题在于百亿离散特征,反映在物理层面就是由百亿KV对构成的Embedding表。很多人会直观的认为这里需要一个redis集群,或者类redis的大型KV存储,其实非也。Embedding在使用上存在一个显著的特点:批量发布、批量查询、尺寸种类很少(一个模型通常只使用不超过10种维度的Embedding)。与统一写入KV存储相比,更合理的做法是将这百亿KV对打成若干个数据包来提供服务。由于存在CHD之类的算法可以非常高效地打包5-10亿的KV对,百亿特征实际上也就10-30个包,存储引擎需要管理元数据的量级不是百亿而是几十。
RK
2022-08-08
4090
哪来的TB级推荐模型
推荐系统中常见的深度学习模型由Embedding表和神经网络两部分组成,其中Embedding部分起记忆表征作用,神经网络起到分析和归纳作用。实际上,神经网络在的分析能力是很有限的,更多是表现为归纳。而归纳的效果非常依赖表征的丰富程度,故Embedding部分的参数量往往远大于神经网络部分,当神经网络还在10MB量级时,Embedding表可以达到百GB乃至TB量级。
RK
2022-08-08
7021
浅谈推荐系统中的样本拼接
样本拼接原理上其实非常简单,就是将推荐在线服务给的特征快照先暂存起来,等待道具曝光后根据收集到用户对此道具的一系列交互行为(点赞、收藏、转发等)给原本只有特征的推荐记录拼接上标签。
RK
2022-08-05
8340
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档