Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

作者头像
深度学习与Python
发布于 2025-03-07 00:41:26
发布于 2025-03-07 00:41:26
2150
举报
分享嘉宾 | 于子淇

编辑 | Kitty

策划 | QCon 全球软件开发大会

随着大模型技术从技术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型,向大模型基础设施技术演变。2025 QCon 全球软件开发大会(北京站)策划了「面向 AI 的研发基础设施」专题,通过本专题的深入探讨,希望让听众了解并掌握大模型基础设施技术的发展趋势和前沿动态,从企业工程实践和学术研究领域借鉴成功经验,为自身企业制定更大规模、更高性能以及更加稳定的大模型基础设施技术。 如果你也有相关案例想要分享,欢迎通过以下链接提交演讲申请: https://jsj.top/f/tUOLpz

当前,多模态模型是 AI 领域研究的最热门方向之一。多模态大语言模型从大规模预训练中获得图文理解、创作、知识、推理、指令遵循等能力,通过可监督微调激发对应的能力。此外,模型输出还要具备特定的风格、符合人类偏好、对齐人类价值观,因此需要引入基于人类的反馈信号的强化学习(RLHF)方法来进一步优化模型效果。

PPO(Proximal Policy Optimization)算法是 OpenAI 在 RLHF 阶段采用的算法。PPO 算法中涉及到多个模型的协同训练和推理,设计和实现一套高效、准确的 RLHF 训练系统是多模态模型研究领域的关键挑战之一。

在 2024 年的 QCon 上海站上,小红书资深技术专家、RLHF 自研框架负责人于子淇发表了题为《基于 PPO 的多模态大模型 RLHF 系统的设计与优化》的演讲。本次演讲主要介绍小红书大模型团队自研 MLLM RLHF 训练框架的实现以及性能优化,分析了小红书团队如何通过训练和推理的混布调度优化等手段实现极致的模型性能,希望能给大家带来一些帮助。

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

RLHF 背景

RL 原理

image.png
image.png

强化学习(RL)的核心过程是:一个智能体在时间 t 处于状态 St,经过动作 A 后其状态变化为 St+1,同时环境会给智能体一个奖励信号 R。当 RL 应用于 NLP 领域时,模型收到提示后开始输出 token,每输出一个 token 就是一个动作,每个 token 后模型会收到一个奖励模型提供的奖励信号对 token 打分,再输出下一个 token,由此逐渐输出符合期望的输出。当奖励模型的打分策略是人类制定时,此过程就称为基于人类反馈信号(HF)的强化学习(RLHF)。

RLHF-PPO 算法

RLHG 的流程主要由奖励模型 RM 和强化学习 RL 过程组成。第一步,通过 SFT 监督训练过程初始化 RM 和 RL 模型。接下来分别训练 RM 和 RL 模型。

image.png
image.png

RM 模型的数据构造是对 LLM 模型输入同一个提示采样多个不同输出,生成多个 pair 对。之后人类专家会对这些 pair 对进行质量排序,生成数据集,然后提供给模型进行 pair-loss 偏好训练。之后 RM 模型就可以对输入的 pair 对进行打分了。

RL 模型训练有多种方法,其中有代表性的是 PPO 策略梯度算法,这是一种 On-Policy 算法,需要在线生成不同的样本实时更新。OpenAI 作为行业先驱,验证了 PPO 算法在 RLHF 领域的有效性,因此行业进行 RLHF 研究时多采用 PPO。

PPO 算法包含四个模型。首先是演员模型(Actor Model),是训练的目标语言模型。第二是评论家模型(Critic Model),负责预估模型当前行为的总收益。第三是奖励模型(Reward Model),计算当前动作的实时收益。第四是参考模型(Reference Model),是演员模型在 Step 0 阶段的参数状态,它会不断与状态更新的演员模型对比计算 diff,从而约束模型输出,防止输出偏移,遗忘上游任务。

PPO 训练流程

PPO 的训练流程可以简单概括为训推混布,整体可以抽象为两大步骤,第一步是经验采样(rollout),是指演员模型对当前提示作出一次响应(generate 阶段),然后根据提示 - 响应计算奖励分数,从而构造奖励的训练数据集(forward 阶段)。第二步就是训练,也就是对演员和评论家模型进行 PPO 训练迭代。

image.png
image.png

上述流程存在一些痛点,首先是流程需要多个 dataloader;其次,演员模型包含了生成自回归部分,因此需要 serving 部分;第三,该流程包含了四个模型的推理过程,复杂度较高;最后,该流程需要训练演员和评论家两个模型,工作量加大。

基于上述背景,小红书团队设计了一个 RLHF 框架。

RLHF 框架设计

整体框架

image.png
image.png

小红书团队设计的整体架构汲取了开源领域的经验,抽象出了只用 Megatron-core 做训练,并用 ray 做调度的经典方式来降低复杂度。推理方面则采用 vLLM 推理引擎来加速。因为训练和推理存在 diff,如果将 diff 引入训练过程,就会给 PPO 过程带来 bias,为了避免 bias 需要使用 megatron 计算 logp 概率。

整体架构来看,首先模型会通过提示生成响应,之后输入四个模型进行前向推理,生成结果经过后处理后生成奖励数据集,再提供给演员和评论家模型进行训练。训练过程是 on-policy 的,需要实时采样当前样本。

异构组网架构

上述框架的前向推理阶段有四个模型,如果采用并行方法会带来四倍的 GPU 内存占用。因此团队采用了 offloading 的方法,将结构相同的评论家与奖励模型,演员与参考模型分为两组复用,从而将推理模型数量减少到两个,降低了内存占用。

image.png
image.png

另一方面,团队还将演员和评论家模型的训练过程放在了独立的集群上进行异步训练,从而提升了 50% 的性能。异步训练启动时,演员集群上进行 torchrun 启动主进程训练,并自动以 mock 方式拉起评论家集群。这两个集群构成 master-worker 架构,集群之间的数据传输会带来一定开销。

同构组网架构

上述异构组网架构投入使用后,小红书团队发现,在数据量、模型参数量等压力增大后,集群压力会大幅上升。以 Llama 3 70B 为例,SFT 单个模型本身的训练就需要 4 机 32 卡,32k 长上下文时需要开启 CP2 并行,此时就需要 8 机 64 卡,推理过程需要 128 卡。另一方面,两个训练集群需要同步缓存,随着序列长度增加等因素,同步耗时也会显著增长。

image.png
image.png

为解决以上问题,团队设计了一个同构组网架构。新的架构中,由于评论家与演员模型还能继续 offload,因此可以将四个模型进一步减少到一个主模型来复用,通过 offload 切换模型,降低推理成本。训练阶段则 offload 了很多中间状态,尽可能减少资源占用。新的架构可以充分利用资源,提供较高的性能。

训推一体优化

训练性能优化

在训练性能优化方面,小红书团队引入了一些常规优化方法,包括数据加载的预读取、双 dataloader;一些常见的并行优化策略,如 TP、PP、CP、SP;常见的长文本场景下的显存优化(recompute 技术);Dynamic-batch,训练和推理使用不同 batchsize;负载均衡方面,提示请求会通过 round-robin 方式发送到多个 vLLM 引擎;vLLM 推理引擎会做不同粒度的切分,虽然降低了单粒度的 running-batch,但能提升并发性。

流水线优化

流水线优化方面,团队发现演员模型采样阶段是无需训练的,存在较大空窗。针对这一问题的解决思路是训推混布。由于训练任务中的简单任务耗时占比超过 80%,且训练任务负载远高于推理,因此可以通过增大 serving 并发来降低训练集群负载。另一方面,生成和前向推理阶段可以进行流水线并行。基于上述思路改进了整体 RL 架构,实现了全量 offload 和流水线并行。

image.png
image.png

新的架构将整体 reward-batch 切分为多个 mini batch,从而 overlap 屏蔽了数据落盘、vllm-restart/offload、forward、数据预处理等上下文开销。与之前的版本相比,流水线新架构的训练耗时从 2250s 减少到了 690s。

image.png
image.png

r1/o1 系列 reasoner 推理模型场景下 decode 长度会大幅增加,比如 128k response 生成会成为瓶颈,此时全量 offload 更适合这种训推不均衡的场景。

PPO 细节处理

进行性能优化时,PPO 部分有一些细节可以进一步挖掘。首先是 Padding-free,这里通过 start-end 的 offset 去除了训练阶段的 padding,减少了 10% 的耗时并降低了内存占用。

第二个细节是参数同步。演员模型需要把参数同步给推理引擎,这里使用新的通信组件降低了通信耗时。

第三个细节是 CP 并行,这是 LLM 在长文本场景中必须开启的特性。这里需要进行 logp、values、reward 的 CP 重排。对各个重排过程优化后也可以进一步降低通信开销。

最后是 Logp 实现:在 actor_loss 计算阶段对 logits 提前重排,计算 CP 的结果之后进行 allgather,得到 total 的结果,再 -1 得到 logp,从而降低通信量(bxsxh -> bx)。

多模 MLLM 优化

MLLM 多模态模型的性能优化存在一些痛点,主要是引入了图像处理、图文混合场景,从而导致训练负载不均衡。不过多模态模型的视觉处理部分计算量虽然巨大,但参数量较小,在 PPO 场景下图像处理能力是存在冗余的。

image.png
image.png

基于上述特点引入三个优化方法。首先是组网优化,在语言处理场景采用 TP、PP、CP 等并行优化,而视觉部分可以复用这些切分优化。其次是多路复用,这里对 vLLM、演员和评论家模型全部复用相同的 img_feature。第三是预读取优化,这里会冻结 visual-model,将 img_feature 的全部计算流程放入 make-experience 阶段内部,通过流水线方式 overlap 多模计算需求。通过上述优化,MLLM 可以实现与 LLM 相当的性能表现。

训推一致性

进入业务部署阶段,小红书团队在训推一致性层面发现了一些痛点。首先是 RM-serving 过程中存在 acc 掉点,其次是推理和评估时的精度与训练时并不完全一致。分析后发现,rm 的 vhead 是一个 linear,本质上是一个矩阵乘,会累积放大误差,初始误差 diff 只有 0.001,累积后可达 0.3。

image.png
image.png

针对这一问题的解决方案是针对 RM+RL 复用相同的网络结构和训练框架(megatron-core),同时针对 RL 场景下的 RM-serving 转变为本地 offload 实现,从而保证精度完全一致。最后,训练和推理采用 mcore 的计算负载,保证评测任务上训推 tokenwise 一致。

Medusa 提升采样效率

即便有了前述优化过程,演员模型部分的生成耗时依旧相对较高。对此一般使用推理量化方式进行加速,但传统量化方式有一定精度损失,无法做到 PPO 训练所需的无损优化。

image.png
image.png

团队发现投机采样是一种无损优化方式,因此使用了 Medusa 算法来做优化。投机采样是一种计算换空间的方式,利用 FLOPS 换取 VRAM 带宽。这里在 LLM Transformer 级别的最后一层添加一个 Medusa head,其结构与 LLM 同构。训练时为了确保精度需要冻结 LLM 主干。这里的 Running-batch 提升到最大,从而实现最大吞吐量。

image.png
image.png

另一个问题是 backbone 与 mhead 的匹配度不足导致接收率下降,降低加速比。这里引入了伴生训练的方式来解决问题。伴生训练要求精度无损,所以 backbone 要实时更新,mhead 更新则可以延后(因为不影响精度),从而可以实现训练 overlap。此外,训练时 mhead 可以少量微调,其数据量只需要 rollout-batchsize 即可。通过这些方式,生成速度得到了 50% 提升(注意:投机采样会引入 verify 的额外计算量,适合推理并发过大时导致 batchsize_per_engine 过小没有充分利用计算资源的场景)。

实践案例与展望

通用能力提升

在一个基于开源模型的案例中,使用新的 RLHF 框架后,模型可以正确遵循原本无法正确识别的提示。例如提示询问“午餐吃什么”,原本的模型回答给出了早餐的选项,改进后可以正确回答午餐的选项。

image.png
image.png

另一个案例则显示出了模型答案内容丰富性的改进,针对提示问题,原始的模型答案只有简单的是 / 否结果,新的答案则给出了详细的解释。

进一步的评测显示,该 RLHF 框架对开源模型进行改进后,模型的推理、创作、问答、数学、对话和代码能力分别提升了 15%、7%、7%、11%、4%、3%,综合提升 6%。

PRM 效果提升

image.png
image.png

该 RLHF 框架还可以提示模型的 PRM 效果。PRM 是指过程奖励,PRM 效果提升后,模型回答问题时的可解释性会更好。更进一步的评估显示,PRM 可以改善模型的激励粒度,带来 5% 的模型能力上限提升。

image.png
image.png

调参经验

在 PPO 调参方面,团队也积累了一些经验:

  • 可视化逐样本 /token 进行细粒度分析;
  • Advantage-batch 对于小 DP 场景较为有效,可以防止走偏;
  • 评论家模型从 RM 加载参数,复用训练集群的计算分数,避免精度下降;
  • LR 基于 sft 设置,演员 < 评论家模型,让后者走得更快,避免发散;
  • 评论家模型先学习,演员模型先冻结,实现更准确的学习;
  • reward hacking 奖励攻击:奖励后期的收敛性与评测结果有差异,需要找到 reward hacking point,开始加强奖励模型的迭代。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
1.7K0
万字长文详解DeepSeek核心技术
RLHF-Safe RLHF:带着脚镣跳舞的PPO!
该模型同样经过多轮safe RLHF,模型名为Beaver-V1/V2/V3, 项目是开源的:
zenRRan
2023/12/20
4780
RLHF-Safe RLHF:带着脚镣跳舞的PPO!
强化学习系列(十)--基于大语言模型的RLHF
推荐文章:《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》
languageX
2024/11/27
5980
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
1990
推理大模型的后训练增强技术-强化学习篇
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
4770
【强化学习】Reward Model(奖励模型)详细介绍
RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶
在一项最新的研究中,来自 UW 和 Meta 的研究者提出了一种新的解码算法,将 AlphaGo 采用的蒙特卡洛树搜索算法(Monte-Carlo Tree Search, MCTS)应用到经过近端策略优化(Proximal Policy Optimization, PPO)训练的 RLHF 语言模型上,大幅提高了模型生成文本的质量。
机器之心
2023/10/28
2230
RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。
致Great
2025/03/05
3500
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
DPO作者新作|From r to Q*
本文几乎是DPO的原班人马搞的,新来的Joey Hejna是X-QL(本文部分核心理论)一作。这篇文章并没有提出一个新的算法,或者是在一个新的任务上刷了SOTA,主要是对DPO算法给出了一个理论解释,统一了处理LLM强化学习任务的两个视角,即序列决策还是单步决策。用强化学习的语言就是说dense or sparse reward,r or Q*。而后者这个Q*有不禁让人联想到OPENAI“泄露的Q*计划”。应该说还是有其理论价值的。
NewBeeNLP
2024/05/14
4450
DPO作者新作|From r to Q*
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
6.8K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
大模型训练全解析:预训练、微调、强化学习,一步到位!
2025年初,随着DeepSeek的迅速走红,公众对LLM(大语言模型)的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而,这些看似神奇的模型背后究竟隐藏着什么秘密?接下来,我们将深入探讨LLM的构建、训练和微调过程,揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。
福大大架构师每日一题
2025/03/18
5230
大模型训练全解析:预训练、微调、强化学习,一步到位!
基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
为了节省训练资源,快速了解整个 RLHF 的过程,我这里每一步的训练,都采用 LoRA 微调的方式:使用 LoRA 进行 SFT,使用 LoRA 训练 Reward Model,以及使用 LoRA 来进行强化学习 PPO 过程。
beyondGuo
2023/09/01
2.2K0
基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
聊聊大模型微调训练全流程的思考
参考现有的中文医疗模型:MedicalGPT、CareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使LLM更有用更安全的响应用户的提示。
Ryan_OVO
2024/03/19
1.2K0
聊聊大模型微调训练全流程的思考
LLM推理:如何通过PRMs和MCTS提升大型语言模型的推理能力
通过这三篇论文的分析,我们将能清晰地理解:PRMs 本质上是一种奖励模型,而 MCTS 则是一种搜索策略。它们各自解决不同的问题,却能在大模型推理优化中形成强大合力。
汀丶人工智能
2025/04/26
1030
LLM推理:如何通过PRMs和MCTS提升大型语言模型的推理能力
LLM成功不可或缺的基石:RLHF及其替代技术
在讨论 LLM 时,我们总是会涉及一个名为「使用人类反馈的强化学习(RLHF)」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分,因为它可以将人类偏好整合到优化图景中,从而提升模型的有用性和安全性。
机器之心
2023/10/08
7800
LLM成功不可或缺的基石:RLHF及其替代技术
每日论文速递 | 使用对比Reward改进RLHF
摘要:来自人类反馈的强化学习(RLHF)是将大语言模型(LLM)与人类偏好相匹配的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标签错误)很脆弱、很敏感,从而使管道变得脆弱。在这项工作中,我们通过在奖励上引入惩罚项来提高奖励模型的有效性,该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤:(1) 离线采样步骤,获取对提示的回应,作为计算基线;(2) 使用基线回应计算对比奖励,并将其用于近端策略优化 (PPO) 步骤。我们的研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,我们的实证结果表明,对比性奖励可以大幅提高 RLHF,而且我们的方法始终优于强基线。
zenRRan
2024/03/25
6180
每日论文速递 | 使用对比Reward改进RLHF
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高,则奖励模型输出的分数也越高。
汀丶人工智能
2023/07/17
1.4K1
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
今天分享Meta的Llama 2: Open Foundation and Fine-Tuned Chat Models:LLAMA2:开源的基础和微调后的聊天大语言模型。Meta开源模型在除了代码能力外都追平或者超过了ChatGPT的水平,它做了很多工作提升大模型的能力和安全性。其利用更高质量的数据来训练模型,同时利用强化学习迭代多次来优化模型效果是使其追上ChatGPT的最强大的法宝。同时目前如何对大模型进行强化学习放出来的文章也不多,本文给出非常多的RLHF实验和结果给大家进行参考,方便社区后续进行相关实验。总之LLaMA2是大模型开源之光,它以一己之力促进了整个LLM开源社区的发展,后续可能在其基础上也会有真正的更大更好的中文开源大模型出来,它的经验也值得大家去学习。
技术人生黄勇
2024/07/19
2060
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。
机器之心
2023/09/08
3640
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
Q* 假说:树状思维推理、过程奖励模型,以及合成数据的超级增强
在星期三,就在我们准备放假庆祝感恩节之际,路透社对 OpenAI 进行了最后一次报道,仅透露了 OpenAI 一个新方法 Q* 的名称和一些高层次的评估。这个方法以其模糊而强大的能力被广泛宣传:
轩源
2024/09/29
1440
Q* 假说:树状思维推理、过程奖励模型,以及合成数据的超级增强
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大语言模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。
机器之心
2024/01/17
2180
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
推荐阅读
相关推荐
万字长文详解DeepSeek核心技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档