批次大小是指在监督学习中接受神经工作训练的样本数,但是,在强化学习的背景下,批次大小的意义是什么?它也是指样品吗?如果是的话,在强化学习的背景下,样本的意义是什么?
发布于 2019-04-02 15:56:33
与监督学习相比,批次大小在强化学习中确实意味着同样的事情。“批量学习”(通常是小批量)的直觉有两方面:
在监督学习中,例如神经网络,你会做小批量梯度下降来更新你的神经网络。在深度强化学习中,你训练的是相同的神经网络,所以它以同样的方式工作。
在监督学习中,您的批处理将由一组特性及其相应的标签组成。在深层强化学习中,它是相似的。它是一个元组(状态、动作、奖励、状态t+ 1,有时完成)。
状态:描述您的环境的原始状态。
行动:你在那个环境状态下所做的行动。
奖励:在该状态下执行该行为后获得的奖励信号。
State t+1:您的操作将您转换到的新状态。
完成:表示任务结束的布尔值。例如,如果你训练RL下国际象棋,那么这样做不是赢就是输。
您将对这些(s,a,r,s(t+1),You )的一批元组进行抽样。然后将其输入TD更新规则,通常形式为:
这两个q是动作值,通过将s,s(t+1)和a传递到您的神经网络中来计算。
然后,用Q作为标签更新你的神经网络。
https://stackoverflow.com/questions/55473950
复制相似问题