首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >RL: On-Policy和Off-Policy的自演

RL: On-Policy和Off-Policy的自演
EN

Stack Overflow用户
提问于 2020-12-10 02:25:57
回答 1查看 45关注 0票数 1

我尝试使用PPO实现self play。假设我们有一个有2个智能体的博弈。我们控制每一方的一名玩家,并在每一步后获得观察和奖励等信息。据我所知,您可以使用左右球员的信息来生成训练数据并优化模型。但这只可能是非政策的,不是吗?因为在策略上,例如PPO,您希望训练数据由当前网络版本生成,而这通常不是自玩期间的情况?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-11 19:03:43

确切地说,这也是为什么你只能对Q-BUffers这样的非策略方法使用体验重播(Replay BUffers)的原因。使用不是由当前策略生成的样本步骤违反了正在反向传播的梯度背后的数学假设。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65222734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档