老周这次受邀作为嘉宾参加了AICon全球人工智能开发与应用大会,本文将基于快手科技副总裁、基础大模型及推荐模型负责人周国睿老师在AICon大会的演讲内容,基于我自己的思考总结分享给大家。
我们知道,快手是一家视频公司,推荐系统对它们是至关重要的。传统推荐级联架构是当前工业界广泛采用的多阶段推荐框架,其核心设计通过分阶段处理实现效率与精度的平衡,但同时也面临规模化瓶颈与范式局限。
规模化瓶颈与范式局限:
1、规模化瓶颈与范式局限
2、目标冲突与协同不足
3、生成式推荐的挑战
推荐的服务场景决定了不适合做大模型?
对比维度 | LLM Chat场景 | 推荐系统 |
|---|---|---|
QPS | >10K | >400K |
时延要求 | 10-15 tokens/秒 | 单次请求<500ms |
激活参数规模 | 1B~1T | <250M |
推荐模型大模型化的三大“忽悠点”
1、规模论
推荐模型参数量已相当庞大,计入Sparse参数后,总参数规模甚至超过LLM(大语言模型)。这意味着模型在“Scale Up(规模升级)”方向上已无充足拓展空间。
2、延迟论
推荐系统属于实时响应型系统,需在极低延迟(Low Latency)场景下完成服务。而大模型的推理计算耗时较长,推荐系统无法为大模型预留足够时间完成计算,导致性能与需求不匹配。
3、成本论
推荐系统的QPS(每秒查询请求数)极高,但单次服务的商业价值(如广告点击、商品转化等)相对“薄”;大模型的计算资源消耗极大,若应用于推荐场景,单次服务的成本会显著超出其商业价值,导致成本不可控。
其中延迟论也是符合我的之前的认知的,推荐系统要实时响应,而推理计算耗时,你看DeepSeek那个思考就知道了,一点点输出响应的值,放在推荐系统的话肯定不合适。但后面周国睿老师后面的分享颠覆了我的认知。
接下来的信息流平台大模型计算成本分析框架

传统推荐系统中,MFU(模型使用效率)过低是导致计算成本与常规印象差异的核心原因。因其直接导致硬件资源浪费、能耗增加,且受限于高QPS和稀疏性难以通过常规手段优化。通过优化算力、成本结构与模型效率,可实现大模型在推荐场景下的成本可控性,为技术落地提供可行性支撑。
3.1 OneRec:端到端生成式推荐的整体架构

3.1.1 核心组件与流程
OneRec 是端到端推荐系统,通过“行为建模 + 解码生成 + 奖励优化”的闭环,实现推荐效果与成本的协同优化。架构分为 训练阶段(Train Phase) 和 推理阶段(Infer Phase),各组件功能如下:
3.1.2 损失函数与学习机制
架构通过多阶段损失函数驱动模型学习,覆盖“预训练 - 后训练 - 在线学习”全流程:
3.1.3 数据流与交互逻辑
OneRec 通过端到端闭环打破传统推荐系统“模块化割裂”的局限,实现“行为理解 - 推荐生成 - 价值反馈”的一体化优化,同时支持在线学习实时响应用户偏好,为推荐效果与成本的平衡提供技术支撑。
3.2 OneRec:视频表征及Tokenizer

模块 | 功能描述 |
|---|---|
VLM | 视觉语言模型,负责视频与文本的跨模态对齐,将特征映射到统一语义空间 |
QFormer | 通过多头注意力机制(K/V路径)增强视频特征,输出多模态特征Q_i |
LLM | 基于多模态特征生成视频描述文本(优化) |
对比学习损失函数,强化视频与文本特征的交互一致性 |
Tokenizer 通过K-means 聚类和近邻码本搜索,将视频多模态特征转化为语义标识符,实现特征的离散化与语义压缩。
OneRec 架构通过视频表征学习实现“视频→文本”的语义关联,再通过Tokenizer将多模态特征转化为可理解的语义标识符,形成“视频→多模态特征→文本生成→语义标识符”的完整流程,为视频内容理解与推荐等下游任务提供高效表征与语义支持。
3.3 OneRec:基于Reward System 的偏好对齐

该推荐系统采用端到端训练架构,整合“兴趣偏好、业务偏好、编码规则偏好”三类偏好,核心模块包括:
系统从三类偏好维度驱动推荐:
模块交互逻辑:Fusion Model通过Tower整合用户-物品特征并与Reward形成闭环,强化兴趣偏好建模;Ranking Model利用多Tower实现多维排序,输出候选列表;Hash Function结合Hit/Miss反馈优化编码规则,提升推荐效率。
端到端训练优势:通过联合优化效果(点击率/转化率)与成本(计算资源/训练效率),突破传统系统效果与成本割裂的局限,实现用户体验、商业目标与技术效率的多目标平衡。
3.3.1 兴趣偏好对齐

模型核心架构包含共享特征提取层与多任务模块:
在Ranking Model中,通过Deep Cross Networks融合Item Feature、User Feature、User-Item Cross Feature(用户-物品交叉特征),生成多维度候选物品概率;再经手动公式化集成排序,筛选出高分物品推荐给用户。
Ensemble Sort环节中,先通过“手动公式化集成排序”从“数百个物品候选概率”中筛选出“数十个高分物品”,再将这些物品传递至用户端完成推荐。
3.3.2 业务偏好对齐

3.3.3 规则对齐

Encoder与Decoder间标注“Sampling(pass@k)”,表示模型通过采样机制(pass@k策略)生成中间结果。
模型生成语义ID(SID)后,需通过“反解”步骤得到确切的视频ID(Video ID)。但该反解过程存在风险:SID组合可能“不合法”,导致映射失败或结果错误。
3.4 性能优化

4.1 样本组织形式

以下从数据泄漏风险、计算复杂度挑战、曝光组织方案优势三方面拆解样本组织形式的核心问题:
4.1.1 数据泄漏风险
传统样本组织方式存在数据泄漏隐患:模型可能在预测时“提前”利用未来交互信息(即预测时点尚未发生的用户 - 物品交互行为)。这种信息泄露会干扰模型对“当前交互逻辑”的学习,导致训练与实际场景(如推荐系统实时预测)的匹配度下降。
4.1.2 计算复杂度挑战
以短视频平台(如快手)为例,日均处理的token量级达50T。若采用与大语言模型(LLMs)一致的Decoder - Only架构,训练每个有效损失token所需的计算资源,是LLMs的1000倍。这种“计算复杂度爆炸”直接制约了模型在工业级场景的落地效率。
4.1.3 曝光组织方案优势
通过按曝光组织样本的方式,可解决核心痛点:
4.2 Encoder-Decoder 的训练瓶颈

4.2.1 核心结构拆解
Encoder - Decoder 是序列到序列任务的经典架构,图中左侧为 Encoder、右侧为 Decoder,二者通过注意力机制协同完成信息编码与解码。
4.2.2 训练瓶颈问题
4.2.3 小结
Encoder - Decoder 架构在序列任务中兼具灵活性与表达力,但训练阶段的「监督信息 - 计算量失衡」「资源利用率低」「规模天花板」等问题,限制了其性能上限。需结合模型设计(如引入专家混合层、优化注意力机制)与训练策略(如强化监督信号、提升计算 - 效果转换效率)针对性解决。
4.3 快手的解法——Lazy Decoder Only

为提升效率与性能,架构在Encoder、Cross Attention、Decoder三方面进行针对性优化:
该架构通过模块化设计与针对性优化,实现高效序列处理与资源利用,适用于推荐、对话等需快速生成的场景。
大语言模型的深度推理能力源自token - by - token的深度语义搜索,而推荐系统OneRec目前缺乏自然语言领域的通用知识表征,导致其难以自主产生认知推理过程。

OneRec的推荐逻辑以“视频sid token”为输入,经“算力”环节后,通过“多个推荐结果生成计算(彼此独立、更多推理计算、不增加模型智能)”、“视频sid token难以进行‘思考训练’”、“自然语言作为通用知识的计算中介”等环节,最终输出“推荐结果”。
OneRec-Think的推荐逻辑以“语义对齐的全模态token”为输入,经“通用知识的思考”环节后,输出“更精确合理的推荐”。
