Loading [MathJax]/jax/output/CommonHTML/autoload/mtable.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >强化学习读后感

强化学习读后感

作者头像
BBuf
发布于 2021-10-08 06:52:04
发布于 2021-10-08 06:52:04
7960
举报
文章被收录于专栏:GiantPandaCVGiantPandaCV

说明

此学习笔记基础来源于zhoubolei RL(https://github.com/zhoubolei/introRL),以基本概念,基本定理,问题建模,代码实现,新论文的阅读为逻辑展开写的。学习强化学习的过程,会相对漫长。比如:一个假想的学习过程,可能会包含sutton的 complete draft;一些RL基础课程,David Silver,伯克利RL或周博磊等;经典算法的复现;核心研究部门的学术文章(openAI,DeepMind,...);靠谱博士写的博文;会遇见公式符号,上下标,算法实现细节,问题优化,具体问题建模等问题。这里,只是个开始,代码框架可参考PARL。不太懂wx格式,建议wx对latex支持更友好,不要搞什么其他幺蛾子语法。

基本认识

什么是强化学习

RL Prime

a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment. –Sutton and Barto

  • 基本要素:
    • Agent(智能体)
    • model(模型)
    • value(价值函数)
    • policy(策略函数)
  • 特点:
    • 试错探索
    • 延迟回报
    • 时间问题(序列数据,无既定分布)
    • Agent的动作会影响接下来的输入数据,并改变环境的状态
  • 例子:
    • 策略游戏,跑跑卡丁车,纸片游戏,围棋等
    • 机器人走路,穿衣,抓取东西,拧魔方
    • 路径规划,机器控制

符号定义

小技巧

增量平均:一个简单的变换将序列平均值的计算转化为前一个平均值和当前值与前平均值的“差”的和。

重要采样:分布

不好采样,用更好采样的

替换它,只是需要同时乘以

相对于

的权重因子。

对数求导:利用对数导数为其倒数的特点,可以将连乘函数的导数和化(注意其和重要采样的联合使用)。

重参数化:利用分布的映射关系,将复杂函数的采样转化为从简单分布采样,然后映射到复杂分布上去,从而达到 解决了复杂分布采样难问题。

共轭梯度:使梯度的方向保持共轭关系(垂直),极大加快优化速度, Conjugate gradient method(https://en.wikipedia.org/wiki/Conjugate_gradient_method)

基本定理

Markov Models

MRP

“Markov chain(https://en.wikipedia.org/wiki/Markov_chain)因俄国数学家安德烈·马尔可夫得名, 为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质: 下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。”

数学符号语言为: 历史状态:

,状态

为Markovian当且仅当

若状态转移过程中有奖励(reward),则称之为MRP(Markov Reward Process)。 其基本元素有:

: 有限状态集(

)

:状态转移概率

:奖励函数(reward)

:折扣因子

在实际的RL交互环境中,还需要定义三个变量:

Horizon: 不同 episode(一个探索周期)的时间步长的最大值 Return:时间

到Horizon的折扣回报和

状态价值函数:状态

时刻得到的回报的期望值

根据定义,对价值函数做变换:

容易得出Bellman equation

于是对于有限状态的MRP,有:

,其代数解为

。不过实际应用中因

过大, 求逆运算复杂度

过高,会选择迭代方式求解。包含动态规划,蒙特卡洛估计, Temporal-Difference 学习。

MDP

MDP:在MRP上增加一个动作项,可用

表示。其中

有限的动作集,

MDP是对决策过程的建模,目标是在决策集(Policies)中寻找最优决策。其中决策函数是动作在状态空间 的概率分布,用

表示状态

执行动作

的概率,决策 函数是时间独立的,即对任意

给定MDP(

) 以及决策

,状态序列

是一个马尔科夫 过程

, 状态、奖励序列

是马尔科夫奖励过程

其中

策略

下开始状态为

的状态价值函数

, 动作价值函数

, 表示在状态

执行动作

后,按照策略

执行下去的回报期望。 根据以上定义,容易得两者的关系:

其贝尔曼递归形式也容易写出:

分别把(4)带入(3),(3)带入(4)得到:

公式(7)的图(Backup Diagram)表示:

Q1

Q2

简言之,一个状态下可采取不同动作,得到状态动作价值; 一个状态下执行不同的动作,得到奖励,并进入不同的状态; 一个状态并执行了某一动作,得到即刻回报,进入不同状态,并执行不同动作。

建立好模型,并得到了一些关系式,问题:如何计算?

评估和优化

利用(2),(3)的关系式递推计算,如下迭代:

即能得到给定策略

下的价值函数。 这里递推关系和一般递关系比如Fibonacci数列顺序上 是相反的,在实际优化中会一次更新所有值(有限表格,和关键词bootstrapping吻合),效率虽慢,但能得到最优解。

策略的最优价值函数:

最优策略:

在求得最优状态价值函数或动作价值函数后,根据如上两条定义,很容易得到最优策略。 这个过程被称为值迭代。

这里还有另外一种方式得到最佳策略,一边policy evaluation(

值更新,划分不是很准确), 一边利用更新的价值函数计算出动作价值函数然后更新策略(greedy)。 即:

用图可表示为:

rl

一个MDP模型存在唯一的最优价值函数(证明见Sutton),但最优策略函数不唯一。

Table: Dynamic Programming Algorithms

一些存疑的地方:在RL中总是会存在各种分类,这对初学者不太友好。比如上面的总结,以及讲义中给出的 两种策略优化的方式,在第二种方式中为何不直接迭代

然后更新策略,以此迭代。另外policy evaluation 是对价值函数

的计算,和策略是隐含关系,为何不是值迭代?看上面的表格,就有一点错乱的感觉。中间2,3行是期望 方差,后列对应的却是评估和迭代,而末列3,4行为迭代,对应的中间却一个期望方程,一个最优方程。

简化:值迭代+最后求最值,值迭代+同时策略迭代。

理论补充说明(证明见Sutton):策略优化是一个保序的过程。 一轮优化得到的

,且

于是得到:

取名为最优Bellman方程

以上给出了图1的MDP建模过程,并给出了在MDP已知的情况下,如何做策略评估,策略迭代,价值迭代。 但现实世界中MDP模型不存在,或很难给出的情况很常见。 这种情况,可用图5来表示。

RL Free

学术界称其为Model-free。

问题:如何做Model-free 的预测(值估计)和控制(策略优化)?

Markov Models Free

Markov Models Free表示没有状态转移和奖励函数的RL模型,如上图所示。 此时采用让Agent与环境交互,搜集数据,以频率统计的方式来模拟MDP。于是定义trajectory/episode

,表示Agent从状态

开始做一个完整的(直到结束,terminal) 状态、动作、及时获得的采集链。

那么在策略

下,如何从利用这些trajectories来评估价值函数?

评估(预测)

对价值函数

的估计。

MC

表示状态

在trajectories出现过的次数(有一次tracjectory表示一次的理解误差), 根据

定义(gt),容易从trajectories算出状态

下的

,因

表示

的期望,在MC过程, 可用平均值替代,于是结合(Incremental:Mean),在一个episode/tracjectory中,容易得到

在不严格要求统计关系的模型中,也可以将其简化为:

MC方式的特点:

  • 必须等到一个episode结束才能更新,从完整的episode中学习
  • 只能在episodic(terminating,得结束)的环境中学习
  • 不需要模型具有Markov特性,在非Markov环境中效果更好

TD

Temporal-Difference Learning,克服了MC的必须实验到状态终结的问题(方差大), 将

替换为

即为

,于是有

其中

叫TD target,

叫 TD error。需要注意的是,

利用了

,bootstrapping方式,属于自举。

容易想出

即为MC。他们的关系可用下图刻画:

mcdptd

优化(控制)

策略优化:价值函数迭代+Arg Max或策略迭代(策略估计

+策略改进)。

回想上节的策略迭代,是知道

的,但这里未知,如何 在采样的过程中进行策略改进?已有答案是

探索法。

exploration是指以

的概率选择使当前动作价值函数 最大的动作,以

的概率选择其余动作,得到新策略:

以这种方式改进策略,有如下定理保证:

For any

policy

, the

policy

with respect

is an improvement,

.

证明见Sutton。

于是容易写出

版本的 MC Exploration算法流程:

mcepsion

Sarsa

策略改进中使用TD而不是MC即为Sarsa算法。 这和在价值更新中将MC改进为TD是同样的道理,且在一定程度上,能减少函数值的方差。 于是容易从(10)中写出

函数版本(值估计转化为策略优化)。

综合以上,容易写出one-step 的Sarsa算法流程:

sarsa

脑补一下n-step版本。

Q-Learning

Sarsa明显是自举的(bootstrapping),其在下一步状态所做的动作仍由当前

函数选出, 在策略控制上其被分类为On-Policy control,而本小节的Q-Learning为Off-Policy control,其在 下一个状态的动作选择不是由当前

选出。

重要采样的应用

策略

在优化过程中,其形式可能会变得复杂,不好采样,于是根据(Important:Sample), 可选择辅助策略

来生成episodes:

, 计算其

若Off-Policy 为Monte Carlo,由(Important:Sample)可得

的关系:

于是在采样策略

下的其价值更新变为:

若Off-Policy为TD,容易得到其价值更新为:

问题:离线策略Q-Learning为何不能使用重要采样?

因为Q-Learning不需要在策略分布上做价值的期望估计。 完整答案请看 这里(https://www.quora.com/Why-doesn-t-DQN-use-importance-sampling-Dont-we-always-use-this-method-to-correct-the-sampling-error-produced-by-the-off-policy)。

DP和TD的差异

函数参数化

前面提出的一些值估计,策略改进的方法,但都是以统计为基础,在和环境交互的同时,搜集状态 序列,计算统计量,进行价值,状态动作函数的更新(表格式计算)。经典的例子Cliff walk:

个状态;Mountain car:1600个状态; Tic-Tac-Toe:1000个状态。但当面对西洋棋(

),围棋(

),器械臂、直升机(连续状态)等情况, 就显得肌无力。使用带参数的函数,优化参数是可行的。数学上可表达如下:

这样做还有另一个好处,有了关于状态的具体函数,可计算所有状态的价值。

问题:怎么具体设计函数?参数如何更新?策略如何优化? 本小节回答前两问,第三问见节6.1(当采用可微函数时)。

func design

函数逼近的可选方案:

  • 特征的线性组合
  • 神经网络
  • 决策树
  • 最邻距离

这里只关心可微方式,输入输出参考上图。

线性组合

对于特征的线性组合,若用

表示状态特征向量,则价值函数可表示为:

, 若目标函数采用平方差,则优化目标:

其梯度更新:

,若把参数更新方式写成文字形式,有:

数学抽象做完了,回到实际环境中,需要把理想的

替换回实际中的值。结合上一节的MC,TD 更新方式,容易得到各自对应的更新版本。

对MC:

对TD(0):

在线性组合的方式下,

MC:

TD(0):

需要注意的是,上述梯度下降为semi-gradient,因为其目标值中它自己。

同理可得,控制算法的更新方式:

MC:

Sarsa:

Q-Learning:

Sarsa的VFA(Value Function Approximation)控制算法流程:

sarsa vfa

**问题:参数逼近的控制算法收敛性如何?**见下表:

converge vfa

DQN

特征线性组合的难点和以前CV手工设计特征类似,如何做出好的特征表示,如何对复杂问题进行有效的特征选取等问题。 类似于CNN替换SIFT,ORB等特征提取方式,2015年,DeepMind发表了一篇名为“Human-level control through deep reinforcement learning” 的文章,将DL引入了RL,给出了一种有效的价值函数的非线性表达方法,同时不需要手工设计特征,并在 Breakout, Pong, Montezuma’s Revenge, Private Eye四款游戏上达到了人类专家水平。随之而来的是DQN的各种升级,可参考 DQN综述(https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark)。

DQN对Atari Games的建模DQN Atari(下图):

DQN Atari

从中可以看到基本思想就是:输入像素图,输出状态动作函数值。该建模方式有一些固有的坑, 论文中对采样关联,目标值非平稳两个问题给出了解决方案,分别是经验池采样,固定目标函数。

经验池是指设定一个缓存区

, 存放历史样本

,并从中采样。 固定目标函数是指,使用另外一组参数

来计算目标值

, 这里样本来自

。 最终参数更新量为:

策略参数化

基础建模

上一节提出了函数参数化,并给出了值函数的实现例子,这一节给出策略函数的实现方式。虽然arg max 值函数可得到策略, 但这种方式基本不能给出随机策略,实际情况,会有大量非完全确定的策略需求,比如在石头剪刀布游戏中,其最优策略(纳什均衡点)为随机策略, 在一些带有闭环的探索游戏中,也需要随机策略来避免无限循环。而若将策略函数设置为动作的概率分布函数,则可实现这一点,同时有也可省去 值函数。

是以

为参数的策略函数,如何定义策略的质量?

在episodic环境中,可定义为:

, 始状态的期望价值。在持续(continuing)环境中,可以有两种定义方式:利用平均价值有,

, 利用一步时间段的平均回报值有,

, 其中

的马尔科夫平稳分布。直观来讲,最后一种更为方便,其对应优化目标可表示为:

其中

是策略函数

下的一个采样trajectory。

对于

的优化:若

可微,可用梯度下降,共轭梯度,拟-牛顿等方法,若

不可微,或倒数难算,可用采用 Cross-entropy method (CEM),Hill climbing,Evolution algorithm等。

在多步MDP模型中,状态-动作 trajectory服从以下关系:

表示一trajector的回报和。于是

其中

表示策略

下,该trajectory出现的概率。此时优化目标为:

结合2.3节的对数技巧,容易得出式(19)的梯度为:

展开:

于是多步MDP的策略梯度最终表示为:

最终的梯度公式可以做一个直观认识:对于权重函数的期望(积分),其梯度方向为原始概率的对数的导数乘以对应权重(注意这里是一个trajectory)。 有了这一直观认识,我们可以猜一猜其他各种形式的策略优化函数的梯度。

当权重值为

(在一个trajectory,从时间t开始获得的奖励)时:

当权重值为

时:

验证:见周博磊讲义第5章。也就是说以上猜测确为事实。

不过在一个trajectory中,

往往方差较大,如何做到减小其方差,但保持其期望不变? 答案是减去回报值的期望。

基准值

,有

,并且

于是优化函数变为:

如法炮制,(25)也可做减基准值的改动。不过这里还是回到RL原始的发展顺序来。在教材中,(25))被称为 Actor-Critic Policy Gradient,原因在于

担任了Actor的角色,

扮演了 Critic角色,他们各自有各自的参数,这和生成模型GAN异曲同工。

演员评论家

当用线性价值函数来逼近Actor时:

。 此时Critic由线性的

更新,Actor由策略梯度更新。一个简单版本见图QAC。

QAC

上面提到的Actor-Critic算法的减基改动,怎么做?回想一下策略

下的

的定义是什么。

因状态价值函数是状态-动作价值函数的无偏估计,因此,只需做

(按算法更新写法)即可。 于是我们得到一个重要的函数:优势函数。

其对对应的策略梯度为:

以上就是基本的策略梯度算法。那么策略梯度有什么问题?我想应该需要更详细的推导,分析,以及实验了。 关于策略梯度能克服不可微操作,可参考PG overcome the non-differentiable computation(http://karpathy.github.io/2016/05/31/rl/)。

策略梯度的改进

不同算法的优缺点,除了理论推导,实际实验情况也非常重要。

Policy Gradient→TRPO→ACKTR→PPO

在High-Dimensional Continuous Control Using Generalized Advantage Estimation(https://arxiv.org/abs/1506.02438)一文中, 可以看到,策略梯度可以有多种:

前三种已经见过了,对于第四种,其和优势函数的关系,可能并不能一眼看出。 其实我们有如下结论:

设价值函数,

误差分别为

,则

根据(4),即可证明。

策略梯度的问题:

  • 因为在线学习的原因,采样效率不高
  • 策略更新过大或者步长不合理会导致训练崩溃
    • 和强监督不同这里更新的数据不是独立的
    • 步长太大,导致策略不好,不好的策略搜集了更差的数据,恶性循环严重
    • 很难从坏策略中逃出来,大概率致使模型崩塌

traning unstatble

为了解决训练不稳定,在线更新问题,John Schulman等人在TRPO中提出了用置信区间和自然梯度 下降来克服训练不稳定问题,并顺势而为,用重要采样将在线改为离线。

核心思想就是限制策略更新前后的差异。因为策略是概率函数,于是可用KL散度来 限制。

将重要采样用上则为:

经过一些计算,得到更新方式:

其中

综合以上,TRPO算法的自然梯度下降算法流程:

Conjugate Nature TRPO

Conjugate Nature TRPO

将Fisher Information Matrix的逆用共轭算法实现的算法流程图(CTRPO)。

而ACKTR则对FIM的逆的计算做了进一步改进(使用了矩阵的分块计算)。

PPO做了两点改进,第一将合并了TRPO的限制条件和函数主体:

合并的好处是省略了二阶导数的计算,完全转化为一阶导数,时间上更快。

在前后策略差异的限制上,

也做了动态调整,见图PPO。

第二对新旧策略和优势函数上做了一些简单粗暴的限制。具体如下:

直观上理解,当新旧策略的比率在(

)之外时,优势函数将按如上截取。 也就是说要当新旧策略差距大时,对策略函数做惩罚。

算法流程如下:

PPO Clip

PPO Clip

Q-learning→DDPG→TD3→SAC

DDPG为DQN的连续版本,暂略。

Code

算法基本都有开源实现,环境模拟有 gym(https://gym.openai.com/),MojoCO(http://www.mujoco.org/)等。

RL-Adventure-2(https://github.com/higgsfield/RL-Adventure-2):干净简洁明的实现了DQN+PG系列; TD3(https://github.com/sfujim/TD3/):论文细节完备实现; DeepRL-Tutorials Codes(https://github.com/cuhkrlcourse/DeepRL-Tutorials):RL-Adventure的复杂版本; PARL(https://github.com/PaddlePaddle/PARL)更完整的RL算法框架。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI helps AI -- 强化学习从入门到入门
推荐文章:《使用Python实现深度学习模型:智能食品配送优化》,作者:【Echo_Wish】。
languageX
2024/11/17
5980
AI helps AI -- 强化学习从入门到入门
强化学习详解:理论基础与基础算法解析
强化学习(Reinforcement Learning, RL)是机器学习中的一个重要分支,其目标是通过与环境的交互来学习决策策略,以最大化长期累积奖励。在强化学习中,智能体(agent)通过执行一系列动作来影响环境,从而获得反馈信号,即奖励(reward)。这种学习机制模仿了生物体在自然界中的学习过程,因此具有很强的现实意义和应用前景。
TechLead
2024/07/04
6190
强化学习详解:理论基础与基础算法解析
深度强化学习调研概览及最新论文成果(一)RL base & DQN-DDPG-A3C introduction
来源:https://zhuanlan.zhihu.com/p/25239682
CreateAMind
2018/07/24
1.3K0
深度强化学习调研概览及最新论文成果(一)RL base & DQN-DDPG-A3C introduction
强化学习入门
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户2794661
2022/05/30
1.2K0
深度强化学习综述(上)
人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶到目的地;对于机械手,要驱动手臂运动以抓取到设定的目标物体。这类问题有一个共同的特点:要根据当前的条件作出决策和动作,以达到某一预期目标。解决这类问题的机器学习算法称为强化学习(reinforcement learning,RL)。虽然传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题。
SIGAI学习与实践平台
2018/12/10
1.2K0
深度强化学习综述(上)
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。
数据科学人工智能
2022/03/31
1.9K0
深度强化学习智能交通 (I) :深度强化学习概述
【Copy攻城狮日志】强化学习7天打卡营学习笔记
↑开局一张图,故事全靠编。我常常会扪心自问,一个连本行工作都干不好的人,还有时间去捣鼓别的领域,去“学习”别的领域的新知识?然鹅,自诩为“Copy攻城狮”的我,膨胀到像 学一波AI,不求结果,为了兴趣愿意去尝试,哪怕到头来竹篮打水一场空。于是,机缘巧合通过齐老师了解到Baidu的AIStuio以及此次飞浆的实战入门课。国际惯例,免费的午餐实际上并非真正的面试,如同HuaweiCloud的AI训练营推广ModelArts,这次的课也是为了推广飞浆。当然,对于AI小白来说,这些 都是非常不错的工具,里面的学习资源也非常丰富,废话不多说,马上开启Copy之路!
胡琦
2021/09/09
4480
强化学习方法小结
在介绍强化学习算法之前先介绍一个比较重要的概念,就是Bellman方程,该方程表示动作价值函数,即在某一个状态下,计算出每种动作所对应的value(或者说预期的reward)。
marsggbo
2019/12/23
7170
强化学习方法小结
【强化学习】深入理解:基于价值(Value)VS 基于策略(Policy)
强化学习(Reinforcement Learning,RL) 大致可以分为两类:基于价值的算法 和 基于策略的算法、基于Actor-Critic(混合)以及基于模型的。这几类算法分别侧重于不同的学习方法和策略更新方式。
不去幼儿园
2025/04/22
6210
【强化学习】深入理解:基于价值(Value)VS 基于策略(Policy)
写给开发同学的 AI 强化学习入门指南
作者:bear 该篇文章是我学习过程的一些归纳总结,希望对大家有所帮助。 最近因为 AI 大火,搞的我也对 AI 突然也很感兴趣,于是开启了 AI 的学习之旅。其实我也没学过机器学习,对 AI 基本上一窍不通,但是好在身处在这个信息爆炸的时代,去网上随便一搜发现大把的学习资料。 像这个链接里面:https://github.com/ty4z2008/Qix/blob/master/dl.md 就有很多资料,但是这相当于大海捞针。在学习之前我们先明确自己的目的是什么,如题这篇文章是入门强化学习,那么就需要定义
腾讯技术工程官方号
2023/04/29
1.6K0
写给开发同学的 AI 强化学习入门指南
从强化学习Reinforcement Learning到DQN(Deep Q-learning Network)学习笔记
本篇博客大概会记录强化学习RL的基础知识,基本方法,以及如何推导到DQN,和关于DeepMind的Playing Atari with Deep Reinforcement Learning(DQN学习打砖块游戏)这篇论文的一些理解,后续改进方向,还有一些具体实现。若有理解不当,恳请指出!
大鹅
2021/06/16
7640
强化学习算法总结(一)——从零到DQN变体
中对应价值最大的动作的Q值进行更新,注意这里只是更新,并不会真的执行这个价值最大的动作。这里的更新策略(评估策略)与我们的行为策略(
CristianoC
2021/04/16
2.7K0
强化学习算法总结(一)——从零到DQN变体
强化学习从入门到放弃
重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略,即一个从状态到最优行为的映射。 强化学习的目标是最大化总回报,而不是立即回报。 强化学习的主体:智能体和环境。 机器/智能体(Agent):The learner and decision-maker 环境(Environment)The thing agent interacts with, comprising everything outsi
企鹅号小编
2018/02/27
1.2K0
强化学习从入门到放弃
《深度强化学习》面试题汇总
4. 强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?
深度强化学习实验室
2019/11/21
5.1K0
《深度强化学习》面试题汇总
强化学习笔记5:无模型控制 Model-free control
贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略
列夫托尔斯昊
2020/08/31
9320
强化学习笔记5:无模型控制 Model-free control
强化学习-5:Model-free control
贪婪策略梯度法如果用V(s),需要MDP已知 用Q(s,a),不需要已知MDP
列夫托尔斯昊
2020/08/25
7070
强化学习-5:Model-free control
强化学习方法小结
上面这个公式就是Bellman方程的基本形态。从公式上看,当前状态的价值和下一步的价值以及当前的反馈Reward有关。它表明价值函数(Value Function)是可以通过迭代来进行计算的!!!
marsggbo
2020/06/12
7310
强化学习系列(二)--算法概念
上文我们已经理解强化学习的基础概念以及其目标是找到一个策略 最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分类为model-based和model-free,value-based和policy-based,其中value-base的学习方法又分为off-policy和on-policy。本文主要介绍这些方法的区别和概念。
languageX
2022/01/10
1.8K0
强化学习总结
强化学习总结 强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。 强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。 强化学习的故事1:找到最优价值 强化学习就是:追求最大回报G 追求最大回报G就是:找到最优的策略\(\p
绿巨人
2018/05/17
1.6K0
从Q学习到DDPG,一文简述多种强化学习算法
选自towardsdatascience 作者:Steeve Huang 机器之心编译 参与:Edison Ke、路雪 本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着与神经网络的结合,这种算法不断发展,已经能够解决更
企鹅号小编
2018/02/05
1.7K0
从Q学习到DDPG,一文简述多种强化学习算法
相关推荐
AI helps AI -- 强化学习从入门到入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档