论文链接:https://arxiv.org/pdf/2502.18965
技术报告:https://arxiv.org/abs/2506.13695
主要内容:OneRec提出了一种生成式推荐框架,旨在替代传统的多阶段排序策略,通过一个端到端的生成模型直接生成推荐结果。
从效果来看,将推荐模型的有效计算量提升了10倍以上。
从成本来看,将MFU(模型浮点运算利用率)提升到训练23.7%、测试28.8%,使得OPEX(运营成本)仅为传统方案的25%。
目前已在Kuaishou/Kuaishou Lite APP上线25%流量,同时线上收益明显,快手App主端停留时长+0.5%,快手极速版App停留时长+1.24%,其他核心指标如互动率,冷启动、内容分布均衡上都有一定收益。

OneRec 采用 Encoder-Decoder 架构,将推荐问题转化为序列生成任务,由四个核心部分组成:分词器、编码器和解码器,外加一个在后续训练中用来微调的奖励系统。
模型进行了两阶段的训练,第一阶段是next-token-prediction任务,第二阶段采用DPO进行偏好对齐。
下图展示了 Encoder-Decoder 架构的完整组件。

分词器将item的多模态表征通过量化的方式离散化成token序列。相较于之前只关注视频文字或图片的做法,onerec引入了更多模态的信息,且融入了用户行为信息。具体的离散化方式使用了快手之前的论文QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou(https://arxiv.org/pdf/2411.11739)中的思路。


caption loss用于防止模型幻觉,其中t_{k} 表示第k个caption token,通过LLaMA3作为decoder,对视频的caption的next token进行预测,保证分词器不会乱改文字。
从用户静态特征、短期行为序列、正反馈(有效观看)序列和终身行为序列,多尺度刻画用户兴趣
说明1:lifelong pathway处理
采用快手Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou.(https://arxiv.org/pdf/2407.16357),通过聚类方法对用户生命周期行为序列进行压缩 ,从而更准确且多样化地捕捉用户兴趣。
说明2: Encoder侧使用语义ID的可行性
用视频的语义标识符替代传统的视频ID稀疏嵌入,模型在性能不减的情况下,大幅减少了参数量和通信开销,还能处理更长的用户行为序列

结构:经过CausalSelfAttn和CrossAttn后, 再使用稀疏MoE替换FFN来提升模型容量
损失函数:LNTP

在完成上述模型的训练后,OneRec 引入一个“奖励系统”,用在线强化学习调整模型更符合用户真实需求和平台业务目标。主要有三部分组成:

用户偏好对齐:OneRec 先用一个小型神经网络,把点击、点赞、观看时长等多种反馈融合成一个“P-Score”,然后用 ECPO(Early Clipped GRPO)的算法,沿着这个分数不断优化模型。
在文章中其实是复用了快手的精排模型SIM,只是在每个tower后接了一个mlp来输出P-Score。(原版论文未提及如何加权计算总奖励,技术报告说明是用快手的近期另一个工作Pantheon进行帕累托迭代优化,自动学习一个个性化的综合偏好分数)
使用 ECPO(Early Clipped GRPO)进行优化。简洁地来说,在推理中通过beamsearch的方式,为一个用户生成多个item,并使用奖励模型进行打分,从中选出打分最高的和打分最低的作为pair对,并使用DPO进行偏好对齐。

合法性:为了保证模型生成的语义id都是可用的,OneRec 在强化学习里还加了格式奖励鼓励模型的合法生成。具体做法是:从一批生成结果中随机选择K个样本进行合法性强化学习,把能对应到实际视频的标记当作奖励,非法或找不到视频的直接丢掉。
工业奖励:针对不同的业务场景,OneRec 还支持在奖励里加入“工业奖励”。举个例子,如果平台想适当压缩低质内容或提高新作者曝光,就可以在奖励函数里给这部分内容打上不同的加减分,让模型在统一的学习过程中自然兼顾这些商业或生态指标。
两阶段训练,经过RL后训练对齐,OneRec才能超越传统级联系统。
pre-training: 选取高质量输出session,进行next token preidciton自回归预训练
在预训练阶段,平台每天处理大约180亿条训练样本,产生540亿个语义ID。OneRec-0.935B一般跑到 1,000 亿样本左右就能收敛,大约训3000亿token。

post-training: 拒绝采样微调RSFT(仅训播放时间长的top50%样本)+RL对齐(采样1%的RSFT样本)
对于RSFT,我们根据播放时长过滤掉曝光会话中的底部50%。由于beam search计算开销较大,对于RL,我们从RSFT数据中随机选择1%的用户生成RL样本。
RSFT:拒绝微调采样,在微调时,模型生成多个候选输出,利用拒绝采样策略筛选出高质量或符合特定标准的样本,再用这些样本进行训练,引导模型学习更优的生成分布。

1.Parameters Scaling 随着参数量的增加,性能更优;超过100亿样本后模型趋于收敛,存在边际效益。

2.Feature Scaling

3.Codebook Scaling 增大码本大小后播放时长(playtime)指标有显著提升,交互(interaction)指标也有轻微提升。
4.Infer Scaling 该模型的推理仍为item级别,beam search生成top-k的tokens,再用奖励模型打分,分数最高的m个组成session推荐给用户,并非完全意义上的端到端。
可以看出k值越大效果越好,最终选择了K=512作为生产环境中的推理参数。

1.用户偏好对齐:
采样效率:在 Pass@32、128、512 的实验中,引入 ECPO 强化学习后,App 停留时长(App Stay Time)相对传统 OneRec 提升了 0.49%–0.09%,说明 RL 在小样本数量时能够显著提高推荐的准确性和效率。

搜索策略:LLM中通常采用top-k和top-p采样,但onerec采用了beam search,更符合OneRec的语义ID前缀树结构。

2.合法性:
比较两种计算格式损失(format loss)的采样方法:
方式 | 效果 | |
|---|---|---|
Top-5选择法 | 128个生成候选中选出概率最高的5个样本 | 生成结果总体合法性先上升后衰减,基于格式奖励所挑选样本的合法性很快收敛到100% |
随机选择法 | 随机选5个样本 | 生成结合的总体合法性和基于格式奖励所挑选样本的合法性同时上升,未出现衰减 |

通过实验采取了随机选择法,通过强化学习合法性从50%上升到95%
在覆盖 5% 流量的实验组中,仅用 OneRec 生成结果就接近传统多级系统表现;进一步加上奖励模型筛选后,主站停留时长分别提升了 +0.54%(快手)和 +1.24%(快手 Lite),7 天留存(LT7)也各自上涨 +0.05% 和 +0.08%。在本地生活服务场景,OneRec 更带来 21.01% 的 GMV 增长与 18% 以上的用户与订单提升。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。