不过这次, 我优化了代码结构, 将这个自己做过的练习给大家呈现一遍, 让你也能一步步知道在做强化学习的时候要考量些什么, 怎么样做一个合理的环境. 所以我将从下面几个方面来阐述这些。...代码主结构
在做每一个强化学习的时候, 我们最好先规划好要怎么分解这一个 task。一般来说我们尽量不要把所有代码 (环境, 强化学习算法, 学习主循环) 放在一个脚本中。...具体来说, 这三方面的脚本可以是这样:
环境脚本 (env.py)
强化学习脚本 (rl.py)
主循环脚本 (main.py)
我们在主循环脚本中将会 import 环境和强化学习方法, 所以主循环脚本将上面两者给串联了起来...这里涉及了程序的主循环, 也是学习的部分。整个学习的框架可以被简化成下面这样, 我采取了 gym 模块的形式。所以如果使用过 gym 的朋友, 你会发现无比的熟悉。...rl.py
rl.choose_action(s)
rl.store_transition(s, a, r, s_)
rl.learn()
rl.memory_full
env.py
env.reset