Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >强化学习读书笔记(14)| 资格迹 Eligibility Traces(上)

强化学习读书笔记(14)| 资格迹 Eligibility Traces(上)

作者头像
用户1621951
发布于 2019-11-08 02:15:06
发布于 2019-11-08 02:15:06
1.6K0
举报
文章被收录于专栏:数据魔术师数据魔术师

前言

The λ- return

TD(λ)

n-step Truncated λ-return Methods

Redoing Updates:

Online λ-return Algorithm

小结

资格迹与TD error的结合提供了一个高效增量形式的在MC和TD算法之间转换和选择的方式。第七章介绍的n步算法也能做到,但是eligibility trace方法更加通用,学习速度更快而且共不同计算复杂度的选择。

第五章提到MC算法在非马尔科夫的任务中有优势,因为它不使用自举。而eligibility trace方法使得TD算法更像MC算法,因此带eligibility trace的TD也能够得到这种优势。如果想用TD算法的一些特性而任务又是部分非马尔科夫的,就可以选择使用eligibility trace形式的TD。

参考资料:

[1] R.Sutton et al. Reinforcement learning: An introduction , 1998

[2] https://blog.csdn.net/LagrangeSK/article/details/82556644

[3] https://blog.csdn.net/qq_25037903/article/details/82756629

[4] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction


转载自 | 公众号 老薛带你学Python

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据魔术师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)
【导读】Richard S. Sutton就职于iCORE大学计算机科学系,是强化学习领域的专家,其在强化学习领域的著作“Reinforcement Learning”一直是认为是强化学习方面的圣经,
WZEARW
2018/04/13
11.4K93
Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)
资源 | Richard Sutton经典教材《强化学习》第二版公布(附PDF下载)
选自incompleteideas 机器之心编译 参与:黄小天、刘晓坤 强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning:An Introduction》第二版公布啦。本书分为三大部分,共十七章,机器之心对其简介和框架做了扼要介绍,并附上了全书目录、课程代码与资料。下载《强化学习》PDF 请点击文末「阅读原文」。 书籍百度网盘:https://pan.baidu.com/s/1miP38tM 原书籍地址:http://incompleteideas.net
机器之心
2018/05/10
9.2K1
强化学习读书笔记(13)| Off-policy Methods with Approximation(下)
TDC on Baird’s counterexample 问题描述见 Off-policy Methods with Approximation(上)。
用户1621951
2019/11/05
8630
强化学习读书笔记(13)| Off-policy Methods with Approximation(下)
强化学习读书笔记(10)| On-policy Prediction with Approximation(下)
本讲将继续学习使用on-policy的数据对状态值函数进行逼近,也就是在策略π下估计值函数vπ。
用户1621951
2019/10/09
8170
强化学习读书笔记(10)| On-policy Prediction with Approximation(下)
强化学习读书笔记(8)上| 用表格方法规划和学习
本讲为需要环境模型的model-based强化学习方法(如DP和启发式搜索)和不需要环境模型的model-free方法(比如MC和TD)提供一个统一的论述框架。基于模型的方法依赖规划(planning)作为其主要组成部分,而无模型方法主要依赖于学习(learning)。
用户1621951
2019/09/17
1.1K0
强化学习读书笔记(8)上| 用表格方法规划和学习
强化学习读书笔记 - 00 - 术语和数学符号
强化学习读书笔记 - 00 - 术语和数学符号 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 基本概念 image.png image.png image.png 策略 image.png 由上面的公式可以看出:\(\pi(s)\)可以由\(v_{\pi}(s)\)或者\(q_{\pi}(s,a)\)决定。 强化学习的目
绿巨人
2018/05/17
1.6K0
强化学习读书笔记(7)| n步自举(n-step Bootstrapping)
由于蒙特卡洛算法(MC)和一步差分算法(one-step TD) 都了采取比较极端的形式,所以这两种方法都不可能永远是最优的,最佳的方法往往就是介于TD和MC之间。n步Bootstrapping是MC和TD(0)的综合。随着对参数n的调整,我们可以看到TD是如何过渡到MC的。
用户1621951
2019/09/09
2.5K0
强化学习读书笔记(7)| n步自举(n-step Bootstrapping)
重磅 | 经典教材 R. Sutton《增强学习导论》最新版(548PDF)
精彩回顾 2018新智元产业跃迁AI技术峰会圆满结束,点击链接回顾大会盛况: 爱奇艺 http://www.iqiyi.com/l_19rr3aqz3z.html 腾讯新闻 http://v.qq.com/live/p/topic/49737/preview.html 新浪科技 http://video.sina.com.cn/l/p/1722511.html 云栖社区 https://yq.aliyun.com/webinar/play/419 斗鱼直播 https://www.douyu.c
新智元
2018/05/28
1.6K0
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化
绿巨人
2018/05/17
2.1K0
强化学习读书笔记(11)| On-policy Control with Approximation
本讲我们关注on-policy control问题,这里采用参数化方法逼近action-value函数。主要介绍的semi-gradient Sarsa算法是对上一章中介绍的semi-gradient TD(0)的一种扩展。在episodic任务中,这种扩展十分直观,但是对于continuing的情况,我们需要再次考虑对于discounting方法来定义一个最优策略的方式。而当我们使用函数逼近的时候需要放弃discounting并且转到一个新的average-reward的控制机制。
用户1621951
2019/10/18
8960
强化学习读书笔记(11)| On-policy Control with Approximation
强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)
强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记
绿巨人
2018/05/17
1.6K0
强化学习读书笔记(2)| K摇臂赌博机问题
上一次的强化学习简介中我们提到了强化学习是一种试错学习,没有直接的指导信息,需要用户不断地与环境进行交互,通过试错的方式获得最佳策略。这一节我们将从一个简单的单步强化学习模型进行进一步理解。
用户1621951
2019/08/09
1.6K0
强化学习读书笔记(2)| K摇臂赌博机问题
强化学习笔记4:无模型预测 model-free prediction
对于Env来说,不是参数已知的MDP 比如元组中a、s、P的关系不确定 or 未知
列夫托尔斯昊
2020/08/25
5650
强化学习读书笔记 - 03 - 有限马尔科夫决策过程
强化学习读书笔记 - 03 - 有限马尔科夫决策过程 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 代理-环境接口(The agent-environment interface) 代理(agent) - 学习者或者决策者 环境(environment) - 代理外部的一切,代理与之交互。 情节性任务(Episodic Tasks)和连续任务(
绿巨人
2018/05/17
6850
强化学习读书笔记(1) | Introduction
强化学习(Reinforcement learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户1621951
2019/07/30
6730
强化学习读书笔记(1) | Introduction
用“小红的下任男友是谁”通俗解释强化学习中的 基于模型方法 与 免模型方法
我朋友最近不知哪根弦不对劲,特别八卦。他特别特别想“预测”出小红的下任男友是谁。于是他找我来帮忙。
Piper蛋窝
2020/11/19
5690
用“小红的下任男友是谁”通俗解释强化学习中的 基于模型方法 与 免模型方法
强化学习读书笔记 - 04 - 动态规划
强化学习读书笔记 - 04 - 动态规划 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 动态规划(Dynamic Programming) - 计算最优策略的一组算法。 策略 强化学习的一个主要目的是:找到最优策略。 我们先要明白什么是策略? 策略告诉主体(ag
绿巨人
2018/05/17
6420
强化学习读书笔记 - 11 - off-policy的近似方法
强化学习读书笔记 - 11 - off-policy的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语
绿巨人
2018/05/17
8280
重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)
2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。 【新智元导读】加拿大阿尔伯塔大学著名增强学习大师 Richard S. Sutton 教授的经典教材《增强学习导论》(Rein
新智元
2018/03/23
1.2K0
李宏毅的强化学习视频用于梳理翻阅(3)值
MC(Monte-Carlo)的方法,在Sutton的书中有比较权威并详细的说明。地址:https://rl.qiwihui.com/zh_CN/latest/index.html
嘘、小点声
2020/05/26
4540
推荐阅读
相关推荐
Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档