先看跑CartPole-v0的效果(实在是太简单了。。。)
SQN:颤抖吧,CartPole!
再看LunarLander-v2的效果(也是比较简单了。。。),AverageEpRet就是不上300... : (
最后Breakout-ram-v4的效果(通关无压力。。。)
可以看下面视频最后打完无砖块,可以看到864分即最高分。
并没有调到最优,只是为了验证自己的算法,也没有使用视频版本的Breakout。
SQN (Soft Q Network )是基于Q-value的强化学习算法,伪代码及源代码详见createamind代码库。
代码:https://github.com/createamind/DRL