首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    课程实录丨增强学习入门(3)

    我们再回到这张图上,我们如何去计算呢?我们就需要把这个问题去做一个推演,我们刚才其实已经看到了有那么一个序列,那个序列就是环境给我们一个状态,我们产生一个行动环境,给我们一个状态,我们产生一个行动,这样不断交替的,那么实际过程当中我们是什么样的一个状态呢?我们可以看现在这个画面,就是说如果我们在时刻1的时候环境给了我们一个S_1,那么我们这个时候也能拿到一个S_1状态下的一个Reward的就是S_1状态下的回报,拿到了S_1我们刚才说从S要变成A了,这个时候我们要涉及到我们自己的策略,那么我们就可以算一下。基于我们当前的这个策略,我们可能会产生很多的行动,也就是各种各样的A。我们对于产生从某一个状态到某一个行动,它会有一个概率,那么根据概率我们就会产生这样种种的A,然后这些A实际上每个就是因为有一些概率,它会有一定概率去产生的,但是每一条路都是有可能会走到的。刚才我们说我们从S_1走到了A_1了,然后A_1有好多种选择,如果我们选择了某一种,比方说我们选择了上面的A_1的第一种方案A_1^1,那么从它开始,我们Agent走完走了A_1^1这种策略这种行动那么就把这个行动发给了那个环境,然后我们还可以想象刚才的那个图片那个Agent和Environment的交互,当我们把Action发给了Environment之后,Environment要进行State Translation就是它要把状态做一个变换,根据我们刚才想象的那个用形式化的方法定义概率的形式,我们现在已知S_1和A_1,那么S_2又会有很多很多的形式,我们也在这列出来了。

    02
    领券