腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
强化学习
专栏成员
举报
1
文章
518
阅读量
1
订阅数
订阅专栏
申请加入专栏
全部文章(1)
编程算法(1)
搜索文章
搜索
搜索
关闭
SARSA
编程算法
SARSA算法的全称是State Action Reward State Action,属于时序差分学习算法的一种,其综合了动态规划算法和蒙特卡洛算法,比仅仅使用蒙特卡洛方法速度要快很多。当时序差分学习算法每次更新的动作数为最大步数时,就等价于蒙特卡洛方法。
用户1502634
2019-02-27
518
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档