我尝试使用PPO实现self play。假设我们有一个有2个智能体的博弈。我们控制每一方的一名玩家,并在每一步后获得观察和奖励等信息。据我所知,您可以使用左右球员的信息来生成训练数据并优化模型。但这只可能是非政策的,不是吗?因为在策略上,例如PPO,您希望训练数据由当前网络版本生成,而这通常不是自玩期间的情况?
谢谢!
发布于 2020-12-11 19:03:43
确切地说,这也是为什么你只能对Q-BUffers这样的非策略方法使用体验重播(Replay BUffers)的原因。使用不是由当前策略生成的样本步骤违反了正在反向传播的梯度背后的数学假设。
https://stackoverflow.com/questions/65222734
复制相似问题