

🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的一些知识以及项目经验。 🌎 Github仓库地址:Baby Awesome Reinforcement Learning for LLMs and Agentic AI 📩 有兴趣合作的研究者可以联系我:yirongzzz@163.com
相信初学的小伙伴会对
LLM agent以及Agentic RL两个名词有点混淆,因此,对于这两个名词的解释将作为专题第一章,带你深入理解LLM agent以及Agentic RL的区别
@toc
在系统的学习agentic RL之前,我们需要去了解两个问题:① 什么是agent ② LLM agent 与 agentic RL之间有什么联系
过去几年,LLM 的飞速发展让语言理解与生成达到了惊人的水平——但在“行动”层面,它依然是被动的。给它一个 prompt,它给你一段回答。但这并不是智能,他更像是现代的“百度”,为我们提供答案。LLM 就像是一个知识库反馈我们答案
大语言模型(LLM)已经能写诗、写代码、答题——但它不会自己去行动。 比如它知道“去查天气”,但不会真的去打开天气网站。 那么,如何让它能感知世界、做决策、执行行动? 这正是Agent想要解决的问题。
因此,智能体(Agent)还需要:
这些功能在专题会继续研究。
也就是说,① 现在的大语言模型我们更想让他成为一个智能体Agent,不仅仅是需要让他输出文字,还需要有感知、规划、推理、调用工具、维护记忆、适合策略等的能力。除此之外,② 强化学习 (Reinforcement Learning, RL) 正是让模型“学会在交互中行动”的关键。 而当这种强化学习与大型语言模型(LLM)结合——让语言模型从“说得对”变成“做得对”——就形成了一个新的研究分支:🧠 Agentic Reinforcement Learning (Agentic RL) ——让 LLM 成为会行动的智能体。
Agentic RL 的研究在这之前大致可以分为两条主线 : ① LLM Agents ② RL for LLMs

LLMs在交互式环境里能否自主完成任务。重点是让 LLM 具备感知、规划、推理、工具调用、记忆维护、交互等能力,像一个决策者一样行动。代表工作包括基于 ReAct、AutoGPT、Voyager 等框架的 LLM agents分支 | 研究目标 | 代表工作 |
|---|---|---|
LLM Agents | 让 LLM 拥有感知、规划、行动、反思的能力 | ReAct, AutoGPT, Voyager, MetaGPT, MemGPT |
RL for LLMs | 用强化学习优化 LLM 行为,使其更符合人类或任务偏好 | RLHF, RLAIF, DPO, ORPO, GRPO, AgentTune |
硬币的两面:
LLM Agents 关注“怎么让模型动起来”; RL for LLMs 关注“怎么让动作越来越聪明”。
最终,这两条路径正在融合——形成一个能“自主学习与改进”的智能体生态。
1️⃣ RLHF——静态对齐
在过去的 RLHF(Reinforcement Learning from Human Feedback)中,例如InstructGPT的训练流程大致如下:
这个过程的本质是单步强化学习:
2️⃣ Agentic RL——动态决策
当我们更希望我们的模型能够:
那么原来的“一步到位”训练方式就不够用了。我们需要的是:多步决策 的强化学习。Agentic RL 把 LLM 看作一个“语言驱动的决策体”:
强化微调可以被认为是一个马尔可夫决策过程,一共包含了七个过程元素$<S,O,A,P,R,T,\gamma>$:
变量名 | 含义 |
|---|---|
| 环境状态(包含任务上下文、历史、工具状态等) |
| 模型能观察到的部分状态(可见内容) |
| 模型的动作(生成 token、调用函数、发出指令) |
| 奖励函数(任务成功率、逻辑正确性、工具使用效率) |
| 状态转移概率(执行动作后环境变化) |
| 任务步数上限 |
$\gamma$ | 折现因子(平衡短期与长期回报) |
RLHF是单次决策的结果,不依赖过程的决策,通过起始状态S={prompt},执行一次动作为模型的输出,不需要有过程的输出以及奖励,因此在PBRFT中T = 1, y无效,并且下一个状态是确定的。就像在InstructGPT中一样,我们首先会构建偏好数据集训练一个奖励函数,其中prompt就是起始状态,而最后模型也只会根据输出进行奖励,训练目标是最大化似然估计输出。因此我们可以把 RLHF 看作是一种 偏好驱动的强化式微调(PBRFT / RFT),对应于一个简化的 MDP:
$T=1, S={prompt}, A={generate_y}, R=RM(y), P(S′∣S,A)=1$
Agentic RL被当作连续决策的智能体,每次动作的执行都可以观察到部分信息:包括外部环境、工具/代码运行的中间结果、数据库/网页内容、会话历史、代理的内存等。状态是不断变化的.有多步交互(T>1)、中间会拿到/影响后续信息与奖励,这时才需要$\gamma$来权衡短期和长期,训练会用终点奖励(目标是否完成)+ 过程奖励(步骤是否正确),属于POMDP、多步决策。

在 Agentic RL 中,奖励不再只是“人类喜欢哪种回答”,而是更复杂的组合:
奖励类型 | 含义 | 例子 |
|---|---|---|
终点奖励 (Final Reward) | 任务是否完成 | 答案是否正确、任务是否达成 |
过程奖励 (Process Reward) | 行为过程是否合理 | 推理链条正确、逻辑合理、调用顺序合规 |
辅助奖励 (Auxiliary Reward) | 提升训练稳定性 | 输出长度、token 效率、工具使用代价 |
社会奖励 (Social Reward) | 人类偏好或安全性 | 是否有害、是否礼貌、是否合乎伦理 |
一种典型的实现方式是使用 PRM(Process Reward Model):
我们在这一篇中,从最直觉的问题——“为什么 LLM 需要行动能力?”——出发,逐步理解了 Agentic RL(智能体强化学习) 的核心思想:
从“输出答案”到“行动决策”,Agentic RL 是让语言模型从“被动大脑”走向“主动智能”的关键一步。
理解了“为什么要强化学习”和“Agentic RL 的概念”,接下来我们就要进入最核心的算法——
👉 Proximal Policy Optimization(PPO)。
它是目前最主流、最稳定的强化学习方法,也是 RLHF 与 Agentic RL 的基石。
下一篇我们将详细拆解 PPO 的原理、推导与代码实现,从直觉到数学,一步步理解它如何让语言模型变得“又稳又聪明”。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。