之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数
对于不同的任务,需要建立针对性的3种目标函数
对每个维度的权重,分别进行查分求梯度,然后迭代权重,至最优
特点:
要求:策略目标函数可微分,梯度可计算 引入了似然比概念
通过取对数,拆分为加法,进而表示为
例子:简单线性价值函数的AC算法
上节线性近似的价值函数引入了偏差,小心设计的Q函数满足:
核心思想:减去一个baseline,将MSE的减数和被减数都 往 0 方向拉,减小偏差 Advantage function = PG减去B(s),好的B(s)是状态价值函数,V(s)是和策略无关的值,所以不改变梯度的期望的值
几种时间尺度下的更新算法
高斯策略:按照期望和概率执行动作 缺点:对梯度估计不利,收敛性不好
Solution:Natural PG