PART 01
概念
RL是 Reinforcement Learning(强化学习) 的缩写,是机器学习三大范式之一(另外两个是监督学习和无监督学习),它的灵感来源于行为心理学: 智能体通过与环境不断试错互动,根据获得的奖励或惩罚来学习最优行为策略 ,最终目标是最大化累积奖励。
可以想象成训练一只小狗:小狗做了正确的动作(如坐下)就给它零食(正奖励),做错了就不给甚至轻微呵斥(负奖励),久而久之,小狗就知道什么动作能获得更多零食。
如果把深度学习看作是赋予机器“观察和理解”世界的能力,那么强化学习就是教会它如何在世界中“做出正确行动”。简单来说,强化学习是一种 通过与环境不断互动和试错,来学习如何做出最优决策的机器学习方法 。
为了让这个概念更具体,我们用一个智能体(Agent,比如清洁机器人)在环境(Environment,比如卫生间)中学习的例子来说明:

PART 02
核心原理
RL 基于 马尔可夫决策过程(MDP) 这一数学框架,由以下五个元素构成:
元素 | 含义 | 类比(清洁机器人) |
|---|---|---|
智能体(Agent) | 做出决策的实体 | 你的清洁机器人 |
环境(Environment) | 智能体交互的外部世界 | 马桶、卫生间 |
状态(State) | 当前环境的情况 | 机械臂的位置、清洁刷接触力、马桶脏污程度 |
动作(Action) | 智能体可采取的操作 | 移动机械臂、调整俯仰角、更换清洁模组 |
奖励(Reward) | 采取动作后获得的即时反馈 | 清除一片污渍得+1,撞到马桶壁得-10 |
工作流程
PART 03
核心算法思想
类别 | 核心理念 | 代表算法 | 特点与适用场景 |
|---|---|---|---|
基于价值 | 学习并利用价值函数,间接指导动作选择。 | Q-LearningDQN (Deep Q-Network) | 优点: 样本效率相对较高,训练稳定。局限: 难处理连续或高维动作空间。适用: 离散动作空间任务,如棋类游戏、简单控制。 |
基于策略 | 直接优化策略函数,输出动作的概率分布。 | REINFORCEPPO (Proximal Policy Optimization) | 优点: 擅长处理连续动作空间,能学习随机策略。局限: 训练不稳定,样本效率通常较低。适用: 连续控制问题,如机器人、自动驾驶。 |
演员-评论家 | 结合上述两者优点,用“演员”选动作,“评论家”做评估。 | A2C/A3CSAC (Soft Actor-Critic)TD3 | 优点: 结合了两者优点,训练更稳定高效,是目前主流框架。局限: 架构和参数调节相对复杂。适用: 绝大多数复杂控制任务,尤其是高精度机器人控制。 |
基于模型 | 学习环境模型,并利用它进行规划和模拟。 | MuZero | 优点: 样本效率极高,适合探索成本高昂的场景。局限: 学习准确的环境模型本身非常困难。适用: 规则明确的游戏、需要远见规划的任务。 |
大模型对齐 | 专门为让大模型(LLM)符合人类偏好而设计。 | RLHFDPOGRPORLVR | 优点: 能有效对齐人类偏好和价值观。局限: 计算开销大,反馈获取成本高。适用: 大语言模型(LLM)的后训练与对齐。 |
PART 04
分类解释
这类方法通过价值函数来评估状态或动作的“好坏”。它依赖贝尔曼方程迭代更新,让模型学会选择价值最高的动作。
2. 基于策略的方法:REINFORCE 与 PPO
这类方法直接优化策略函数,它绕过了计算价值函数的步骤,用策略梯度的方式更新参数。
3. 演员-评论家方法
这是目前最主流的强化学习框架,它融合了价值学习和策略学习两大流派。它包含两个网络:
4. 基于模型的方法:MuZero
这类方法的核心是让AI自己学习环境的运行规则,以MuZero为代表,能在未知环境中学习并规划,高效地选择最优策略。
5. 大模型对齐方法:RLHF、DPO、GRPO
这类方法是大语言模型成功的关键。
PART 05
总结
总而言之,强化学习赋予了机器人与环境互动、从经验中学习的能力,而在实际应用中, 演员-评论家方法 已成为解决复杂控制问题的主流框架,其中 SAC 和 PPO 是表现尤为突出的两种算法,非常适合用来打磨你的清洁机器人,让它的动作更加智能和高效。
结合清洁机器人项目和之前讨论的VLA框架,选择正确的强化学习算法至关重要。考虑到任务特性,建议重点从 演员-评论家方法 中进行选择。
首选方案:SAC(Soft Actor-Critic)
机器人需要在不规则的马桶曲面上保持恒力接触,这是一个典型的 高维、连续控制问题 。 SAC算法 是此类任务的首选。它的最大熵框架能鼓励机器人自主探索更优的接触路径和力控策略,在机器人精细化操作中表现优异,能更好地学习到平滑且鲁棒的控制策略。
备选方案:PPO(Proximal Policy Optimization)
如果你想追求 稳定、快速 的训练过程, PPO 是另一个绝佳选择。作为OpenAI默认的强化学习算法,它被广泛应用于大语言模型的RLHF(基于人类反馈的强化学习)训练中。在机器人控制任务中,PPO以其易于实现和稳定的收敛性而备受青睐。
