首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >强化学习的主流方法概述

强化学习的主流方法概述

作者头像
索旭东
发布2026-05-22 18:45:40
发布2026-05-22 18:45:40
860
举报
文章被收录于专栏:具身小站具身小站

PART 01

概念

RL是 Reinforcement Learning(强化学习) 的缩写,是机器学习三大范式之一(另外两个是监督学习和无监督学习),它的灵感来源于行为心理学: 智能体通过与环境不断试错互动,根据获得的奖励或惩罚来学习最优行为策略 ,最终目标是最大化累积奖励。

可以想象成训练一只小狗:小狗做了正确的动作(如坐下)就给它零食(正奖励),做错了就不给甚至轻微呵斥(负奖励),久而久之,小狗就知道什么动作能获得更多零食。

如果把深度学习看作是赋予机器“观察和理解”世界的能力,那么强化学习就是教会它如何在世界中“做出正确行动”。简单来说,强化学习是一种 通过与环境不断互动和试错,来学习如何做出最优决策的机器学习方法 。

为了让这个概念更具体,我们用一个智能体(Agent,比如清洁机器人)在环境(Environment,比如卫生间)中学习的例子来说明:

  • 核心流程 :智能体(机器人)在某个 状态(State) (例如,机械臂位于上方10厘米处)执行一个 动作(Action) (例如,向下移动5厘米)。
  • 获得反馈 :环境随之会给出一个 奖励(Reward) (例如,清洁刷接触到马桶壁,获得+1分),并转换到一个新的状态。
  • 学习目标 :通过反复尝试,智能体学会在任何状态下,选择能最大化 累积奖励 (长期回报,而非眼前利益)的动作,这套规则就叫 策略(Policy)

PART 02

核心原理

RL 基于 马尔可夫决策过程(MDP) 这一数学框架,由以下五个元素构成:

元素

含义

类比(清洁机器人)

智能体(Agent)

做出决策的实体

你的清洁机器人

环境(Environment)

智能体交互的外部世界

马桶、卫生间

状态(State)

当前环境的情况

机械臂的位置、清洁刷接触力、马桶脏污程度

动作(Action)

智能体可采取的操作

移动机械臂、调整俯仰角、更换清洁模组

奖励(Reward)

采取动作后获得的即时反馈

清除一片污渍得+1,撞到马桶壁得-10

工作流程

  1. 智能体观察当前状态 st。
  2. 根据策略 π 选择一个动作 at。
  3. 执行动作,环境转换到新状态 st+1,并返回奖励 rt。
  4. 智能体更新策略,目标是最大化长期累积奖励(γ是折扣因子,权衡即时和未来奖励)。

PART 03

核心算法思想

类别

核心理念

代表算法

特点与适用场景

基于价值

学习并利用价值函数,间接指导动作选择。

Q-LearningDQN (Deep Q-Network)

优点: 样本效率相对较高,训练稳定。局限: 难处理连续或高维动作空间。适用: 离散动作空间任务,如棋类游戏、简单控制。

基于策略

直接优化策略函数,输出动作的概率分布。

REINFORCEPPO (Proximal Policy Optimization)

优点: 擅长处理连续动作空间,能学习随机策略。局限: 训练不稳定,样本效率通常较低。适用: 连续控制问题,如机器人、自动驾驶。

演员-评论家

结合上述两者优点,用“演员”选动作,“评论家”做评估。

A2C/A3CSAC (Soft Actor-Critic)TD3

优点: 结合了两者优点,训练更稳定高效,是目前主流框架。局限: 架构和参数调节相对复杂。适用: 绝大多数复杂控制任务,尤其是高精度机器人控制。

基于模型

学习环境模型,并利用它进行规划和模拟。

MuZero

优点: 样本效率极高,适合探索成本高昂的场景。局限: 学习准确的环境模型本身非常困难。适用: 规则明确的游戏、需要远见规划的任务。

大模型对齐

专门为让大模型(LLM)符合人类偏好而设计。

RLHFDPOGRPORLVR

优点: 能有效对齐人类偏好和价值观。局限: 计算开销大,反馈获取成本高。适用: 大语言模型(LLM)的后训练与对齐。

PART 04

分类解释

  1. 基于价值的方法:Q-Learning 与 DQN

这类方法通过价值函数来评估状态或动作的“好坏”。它依赖贝尔曼方程迭代更新,让模型学会选择价值最高的动作。

  • Q-Learning: 基础算法,使用表格存储Q值,适用于小规模、离散动作空间的任务。
  • DQN (Deep Q-Network): Q-Learning的深度升级版,它用深度神经网络(DNN)来处理原始图像等高维输入,是价值类方法的核心基石。

2. 基于策略的方法:REINFORCE 与 PPO

这类方法直接优化策略函数,它绕过了计算价值函数的步骤,用策略梯度的方式更新参数。

  • REINFORCE: 策略梯度方法的基石,使用蒙特卡洛方法采样完整轨迹后进行更新,但容易产生高方差。
  • PPO (Proximal Policy Optimization): 当前最流行的算法之一。它通过“剪切”目标函数限制策略的更新幅度,从而保证了训练的稳定性,尤其擅长处理连续控制问题。

3. 演员-评论家方法

这是目前最主流的强化学习框架,它融合了价值学习和策略学习两大流派。它包含两个网络:

  • Actor (演员): 负责选择动作,是策略网络。
  • Critic (评论家): 负责评估动作的好坏,是价值网络。 两者协同训练,使学习过程更高效。代表算法有SACA3C等,在机器人精细操作等连续控制任务中表现卓越。

4. 基于模型的方法:MuZero

这类方法的核心是让AI自己学习环境的运行规则,以MuZero为代表,能在未知环境中学习并规划,高效地选择最优策略。

5. 大模型对齐方法:RLHF、DPO、GRPO

这类方法是大语言模型成功的关键。

  • RLHF (Reinforcement Learning from Human Feedback): 核心是先用人类偏好数据训练一个“奖励模型”,再用PPO等RL算法来优化语言模型的行为,使其更符合人类的期望。
  • DPO (Direct Preference Optimization): RLHF的简化版,它直接利用偏好数据优化模型,无需训练单独的奖励模型,实现更简单、高效。
  • GRPO (Group Relative Policy Optimization): DeepSeek的创新,它将PPO中的Critic模型替换为基于群组分数的基线,降低了资源消耗,实现了高效的强化对齐。
  • RLVR (Reinforcement Learning from Verifiable Rewards): 通过设定客观、可验证的奖励信号(如代码是否运行成功)来优化模型,能显著提升模型在编程、数学等领域的推理能力

PART 05

总结

总而言之,强化学习赋予了机器人与环境互动、从经验中学习的能力,而在实际应用中, 演员-评论家方法 已成为解决复杂控制问题的主流框架,其中 SAC 和 PPO 是表现尤为突出的两种算法,非常适合用来打磨你的清洁机器人,让它的动作更加智能和高效。

结合清洁机器人项目和之前讨论的VLA框架,选择正确的强化学习算法至关重要。考虑到任务特性,建议重点从 演员-评论家方法 中进行选择。

首选方案:SAC(Soft Actor-Critic)

机器人需要在不规则的马桶曲面上保持恒力接触,这是一个典型的 高维、连续控制问题 。 SAC算法 是此类任务的首选。它的最大熵框架能鼓励机器人自主探索更优的接触路径和力控策略,在机器人精细化操作中表现优异,能更好地学习到平滑且鲁棒的控制策略。

备选方案:PPO(Proximal Policy Optimization)

如果你想追求 稳定、快速 的训练过程, PPO 是另一个绝佳选择。作为OpenAI默认的强化学习算法,它被广泛应用于大语言模型的RLHF(基于人类反馈的强化学习)训练中。在机器人控制任务中,PPO以其易于实现和稳定的收敛性而备受青睐。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档