问RL: On-Policy和Off-Policy的自演
EN

Stack Overflow用户

提问于 2020-12-10 02:25:57

回答 1查看 45关注 0票数 1

我尝试使用PPO实现self play。假设我们有一个有2个智能体的博弈。我们控制每一方的一名玩家，并在每一步后获得观察和奖励等信息。据我所知，您可以使用左右球员的信息来生成训练数据并优化模型。但这只可能是非政策的，不是吗？因为在策略上，例如PPO，您希望训练数据由当前网络版本生成，而这通常不是自玩期间的情况？

谢谢!

reinforcement-learning

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-11 19:03:43

确切地说，这也是为什么你只能对Q-BUffers这样的非策略方法使用体验重播(Replay BUffers)的原因。使用不是由当前策略生成的样本步骤违反了正在反向传播的梯度背后的数学假设。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65222734

复制

相似问题

问RL: On-Policy和Off-Policy的自演
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RL: On-Policy和Off-Policy的自演EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RL: On-Policy和Off-Policy的自演
EN