首页
学习
活动
专区
圈层
工具
发布

OneRec

原创
作者头像
用户11550287
修改2026-02-28 11:12:11
修改2026-02-28 11:12:11
4300
举报

论文链接:https://arxiv.org/pdf/2502.18965

技术报告:https://arxiv.org/abs/2506.13695

主要内容:OneRec提出了一种生成式推荐框架,旨在替代传统的多阶段排序策略,通过一个端到端的生成模型直接生成推荐结果。


1.研究背景

  • 算力利用率低:传统的推荐算法体系中,超过一半的算力都被用在了搬运和存储数据上,模型运算效率很低。
  • 优化目标不一致:传统的“召回-粗排-精排”范式目标不一致,同时前后链路可能存在相互掣肘的关系。
  • 存在技术代差:级联架构制约了推荐系统难将最新的AI技术成果有效吸纳, 与LLM和VLM的技术发展还有代差。

2.主要贡献

从效果来看,将推荐模型的有效计算量提升了10倍以上。

从成本来看,将MFU(模型浮点运算利用率)提升到训练23.7%、测试28.8%,使得OPEX(运营成本)仅为传统方案的25%。

目前已在Kuaishou/Kuaishou Lite APP上线25%流量,同时线上收益明显,快手App主端停留时长+0.5%,快手极速版App停留时长+1.24%,其他核心指标如互动率,冷启动、内容分布均衡上都有一定收益。

3.整体架构

OneRec 采用 Encoder-Decoder 架构,将推荐问题转化为序列生成任务,由四个核心部分组成:分词器编码器解码器,外加一个在后续训练中用来微调的奖励系统

模型进行了两阶段的训练,第一阶段是next-token-prediction任务,第二阶段采用DPO进行偏好对齐。

下图展示了 Encoder-Decoder 架构的完整组件。


3.1 分词器

分词器将item的多模态表征通过量化的方式离散化成token序列。相较于之前只关注视频文字或图片的做法,onerec引入了更多模态的信息,且融入了用户行为信息。具体的离散化方式使用了快手之前的论文QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou(https://arxiv.org/pdf/2411.11739)中的思路。

  • 多模态融合:同时处理视频的标题、标签、语音转文字、图像识别等多维信息。
  • 协同信号:不仅关注视频的内容特征,更融入用户行为信息。
  • 分层语义编码:采用 RQ-Kmeans 技术,将每个视频转化为 3 层粗到细的语义 ID。
  • step1:引入推荐协同先验
    • 构建高相似用户行为对D_{pair},通过对比学习拉近相似视频embedding,构建方式为:
      • User-to-Item Retrieval 选择用户最近点击的一个正样本视频和用户历史正样本点击中最相似的物品进行配对
      • Item-to-Item Retrieval 选择高相似度分数的物品进行配对(例如采用Swing 相似度等度量方法)
  • step2:多模态表征
    • 将视频的caption,tag,ASR, OCR + 封面和五个均匀采样视频帧输入miniCPM-V-8B,得到token,然后再使用QFormer进行压缩
    • 两个损失函数:Item-to-Item 对比损失Caption损失

caption loss用于防止模型幻觉,其中t_{k} 表示第k个caption token,通过LLaMA3作为decoder,对视频的caption的next token进行预测,保证分词器不会乱改文字。

  • step3:RQ-Kmeans生成语义id
    • 使用Balanced Kmean,保证每个类簇包含的item数量相同,避免RQ-VAE出现的codebook利用率低以及语义ID分布极不均衡问题。

3.2 编码器

从用户静态特征、短期行为序列、正反馈(有效观看)序列和终身行为序列,多尺度刻画用户兴趣

  • user static pathway:用户ID, 年龄, 性别等
  • short-term pathway: 用户最近20条互动行为的视频标识符(vid 或 sid)、作者标识符(aid)、标签(tag)、时间戳(ts)、播放时长(playtime)、视频时长(dur)、标签(label)。
  • positive-feedback pathway: 用户最近的256条高参与度行为
  • lifelong pathway: 用户看过的多达100,000的视频,采用长序列建模

说明1:lifelong pathway处理

采用快手Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou.(https://arxiv.org/pdf/2407.16357),通过聚类方法对用户生命周期行为序列进行压缩 ,从而更准确且多样化地捕捉用户兴趣。

  • 行为压缩:首先对用户每个交互过的视频序列,提取其多模态内容表征(embedding)。随后,针对用户的交互序列,采用层次化的K-means聚类方法进行压缩,聚类数量动态设置为\left\lfloor \sqrt[3]{|D|} \right\rfloor,其中 ∣D∣是当前数据中的视频数量。聚类过程中,选择距离聚类中心最近的视频作为该聚类的代表。对于每个用户,固定历史行为序列长度为L=2000,每个视频用其对应聚类代表的特征替换,形成新的特征向量。
  • 特征聚合:对离散和连续属性进行了不同的处理,具体来说:
    • 对于稀疏分类特征(如 vid、aid 和 label),直接从代表性视频(即最接近聚类中心的视频)继承这些特征。
    • 对于连续特征(如 tag、ts、playtime 和 duration),计算在该聚类中所有视频中的平均值,反应集体行为模式。

说明2: Encoder侧使用语义ID的可行性

用视频的语义标识符替代传统的视频ID稀疏嵌入,模型在性能不减的情况下,大幅减少了参数量和通信开销,还能处理更长的用户行为序列


3.3 解码器

结构:经过CausalSelfAttn和CrossAttn后, 再使用稀疏MoE替换FFN来提升模型容量

损失函数:LNTP

3.4 Reward

在完成上述模型的训练后,OneRec 引入一个“奖励系统”,用在线强化学习调整模型更符合用户真实需求和平台业务目标。主要有三部分组成:

用户偏好对齐:OneRec 先用一个小型神经网络,把点击、点赞、观看时长等多种反馈融合成一个“P-Score”,然后用 ECPO(Early Clipped GRPO)的算法,沿着这个分数不断优化模型。

在文章中其实是复用了快手的精排模型SIM,只是在每个tower后接了一个mlp来输出P-Score。(原版论文未提及如何加权计算总奖励,技术报告说明是用快手的近期另一个工作Pantheon进行帕累托迭代优化,自动学习一个个性化的综合偏好分数)

使用 ECPO(Early Clipped GRPO)进行优化。简洁地来说,在推理中通过beamsearch的方式,为一个用户生成多个item,并使用奖励模型进行打分,从中选出打分最高的和打分最低的作为pair对,并使用DPO进行偏好对齐。

合法性:为了保证模型生成的语义id都是可用的,OneRec 在强化学习里还加了格式奖励鼓励模型的合法生成。具体做法是:从一批生成结果中随机选择K个样本进行合法性强化学习,把能对应到实际视频的标记当作奖励,非法或找不到视频的直接丢掉。

工业奖励:针对不同的业务场景,OneRec 还支持在奖励里加入“工业奖励”。举个例子,如果平台想适当压缩低质内容或提高新作者曝光,就可以在奖励函数里给这部分内容打上不同的加减分,让模型在统一的学习过程中自然兼顾这些商业或生态指标。

4.训练框架

两阶段训练,经过RL后训练对齐,OneRec才能超越传统级联系统。

pre-training: 选取高质量输出session,进行next token preidciton自回归预训练

在预训练阶段,平台每天处理大约180亿条训练样本,产生540亿个语义ID。OneRec-0.935B一般跑到 1,000 亿样本左右就能收敛,大约训3000亿token。

post-training: 拒绝采样微调RSFT(仅训播放时间长的top50%样本)+RL对齐(采样1%的RSFT样本)

对于RSFT,我们根据播放时长过滤掉曝光会话中的底部50%。由于beam search计算开销较大,对于RL,我们从RSFT数据中随机选择1%的用户生成RL样本。

RSFT:拒绝微调采样,在微调时,模型生成多个候选输出,利用拒绝采样策略筛选出高质量或符合特定标准的样本,再用这些样本进行训练,引导模型学习更优的生成分布。

5.实验结果

5.1 scaling law

1.Parameters Scaling 随着参数量的增加,性能更优;超过100亿样本后模型趋于收敛,存在边际效益。

2.Feature Scaling

  • baseline:只使用来自256个有正反馈的物品的item ID
  • 论文特征

3.Codebook Scaling 增大码本大小后播放时长(playtime)指标有显著提升,交互(interaction)指标也有轻微提升。

4.Infer Scaling 该模型的推理仍为item级别,beam search生成top-k的tokens,再用奖励模型打分,分数最高的m个组成session推荐给用户,并非完全意义上的端到端。

可以看出k值越大效果越好,最终选择了K=512作为生产环境中的推理参数。

5.2 强化学习

1.用户偏好对齐:

采样效率:在 Pass@32、128、512 的实验中,引入 ECPO 强化学习后,App 停留时长(App Stay Time)相对传统 OneRec 提升了 0.49%–0.09%,说明 RL 在小样本数量时能够显著提高推荐的准确性和效率。

搜索策略:LLM中通常采用top-k和top-p采样,但onerec采用了beam search,更符合OneRec的语义ID前缀树结构。

2.合法性:

比较两种计算格式损失(format loss)的采样方法:

方式

效果

Top-5选择法

128个生成候选中选出概率最高的5个样本

生成结果总体合法性先上升后衰减,基于格式奖励所挑选样本的合法性很快收敛到100%

随机选择法

随机选5个样本

生成结合的总体合法性和基于格式奖励所挑选样本的合法性同时上升,未出现衰减

通过实验采取了随机选择法,通过强化学习合法性从50%上升到95%

5.3 A/B实验

在覆盖 5% 流量的实验组中,仅用 OneRec 生成结果就接近传统多级系统表现;进一步加上奖励模型筛选后,主站停留时长分别提升了 +0.54%(快手)和 +1.24%(快手 Lite),7 天留存(LT7)也各自上涨 +0.05% 和 +0.08%。在本地生活服务场景,OneRec 更带来 21.01% 的 GMV 增长与 18% 以上的用户与订单提升。


6.参考链接

https://zhuanlan.zhihu.com/p/1927386141486735715

https://zhuanlan.zhihu.com/p/1918792219990689391

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.研究背景
  • 2.主要贡献
  • 3.整体架构
    • 3.1 分词器
    • 3.2 编码器
    • 3.3 解码器
    • 3.4 Reward
  • 4.训练框架
  • 5.实验结果
    • 5.1 scaling law
    • 5.2 强化学习
    • 5.3 A/B实验
  • 6.参考链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档