前言
The λ- return
TD(λ)
n-step Truncated λ-return Methods
Redoing Updates:
Online λ-return Algorithm
小结
资格迹与TD error的结合提供了一个高效增量形式的在MC和TD算法之间转换和选择的方式。第七章介绍的n步算法也能做到,但是eligibility trace方法更加通用,学习速度更快而且共不同计算复杂度的选择。
第五章提到MC算法在非马尔科夫的任务中有优势,因为它不使用自举。而eligibility trace方法使得TD算法更像MC算法,因此带eligibility trace的TD也能够得到这种优势。如果想用TD算法的一些特性而任务又是部分非马尔科夫的,就可以选择使用eligibility trace形式的TD。
参考资料:
[1] R.Sutton et al. Reinforcement learning: An introduction , 1998
[2] https://blog.csdn.net/LagrangeSK/article/details/82556644
[3] https://blog.csdn.net/qq_25037903/article/details/82756629
[4] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
转载自 | 公众号 老薛带你学Python
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有