首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在深入强化学习的背景下,批量大小的含义是什么?

在深入强化学习的背景下,批量大小的含义是什么?
EN

Stack Overflow用户
提问于 2019-04-02 11:41:05
回答 1查看 5K关注 0票数 3

批次大小是指在监督学习中接受神经工作训练的样本数,但是,在强化学习的背景下,批次大小的意义是什么?它也是指样品吗?如果是的话,在强化学习的背景下,样本的意义是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-02 15:56:33

与监督学习相比,批次大小在强化学习中确实意味着同样的事情。“批量学习”(通常是小批量)的直觉有两方面:

  1. 由于硬件内存的限制,可能很难对超过1,000,000个数据点进行批处理梯度下降。
  2. 计算整个数据子集的损失梯度,即代表整个数据的损失梯度。如果您在每个步骤中培训的批处理不能代表整个数据,则更新步骤中会有偏差。

在监督学习中,例如神经网络,你会做小批量梯度下降来更新你的神经网络。在深度强化学习中,你训练的是相同的神经网络,所以它以同样的方式工作。

在监督学习中,您的批处理将由一组特性及其相应的标签组成。在深层强化学习中,它是相似的。它是一个元组(状态、动作、奖励、状态t+ 1,有时完成)。

状态:描述您的环境的原始状态。

行动:你在那个环境状态下所做的行动。

奖励:在该状态下执行该行为后获得的奖励信号。

State t+1:您的操作将您转换到的新状态。

完成:表示任务结束的布尔值。例如,如果你训练RL下国际象棋,那么这样做不是赢就是输。

您将对这些(s,a,r,s(t+1),You )的一批元组进行抽样。然后将其输入TD更新规则,通常形式为:

这两个q是动作值,通过将s,s(t+1)和a传递到您的神经网络中来计算。

然后,用Q作为标签更新你的神经网络。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55473950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档