适用于:
策略、非策略学习:
贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略
要实现不基于模型的控制,需要满足两个条件:
用Q(s,a),不需要已知MDP
每个箭头对应一个段,Prediction一次,Control一次
保证试验进行一定次数是,所有a-s状态都被访问到很多次
由贝尔曼公式推导
要保证Q值收敛,需要服从下列2个条件
与TD(λ)类似,扩展q的视野
在正向视角中,迭代一次Q值,需要完整的一次episode 为了解决这个问题,引入迹的概念,实现incremental update
Attention:迹E是属于episode的,切换episode后,E要归零
引入了概率缩放系数,判断两个策略动作概率函数
利用期望分布的概念,在更新目标前x一个系数,对当前策略的置信度
在学习过程中:
区别在于: