模仿学习
强化学习的典型应用场景是人为设定一个奖赏函数,然后不断的反馈给机器,从而提高机器的策略。但是现实中,很多时候可以得到人类专家的决策过程范例,如何将这种范例引入强化学习中,就是“模仿学习”(imitation learning)要解决的问题。
直接模仿学习
从零开始学习一个策略需要较长时间的探索,如果能够从人类经验中学习出一个较好的初始策略,那么可以极大的提高强化学习的效率。
直接模仿人类决策的状态-动作对的方法就是“直接模仿学习”。与蒙特卡洛强化学习类似,这种方法将人类专家提供的状态-动作序列作为采样,然后用来拟合一个Q(x,a)函数,这样就可以得到一个较好的策略。
逆强化学习
有些任务设定奖赏函数是比较困难的,从人类专家提供的决策序列中学习出奖赏函数,就是“逆强化学习”的目标。这一方法最早是吴恩达在2004年提出的。
此方法的思路是:假定奖赏函数是状态的线性函数,我们的目标就是学习出线性方程里面的权重w;这样,给定人类的决策序列就可以计算出其累积奖赏;学习的目标就是找到权重w和策略π,使得策略π的累积奖赏尽可能接近人类决策序列的累积奖赏。因此,这一方法可以同时学得奖赏函数和策略。
领取专属 10元无门槛券
私享最新 技术干货