Tabular TD(0) for estimating v_{\pi}
计算v(s)的单步TD算法。
Sarsa: An on-policy TD control algorithm
计算q(s, a)的单步TD算法。
Q-learning: An off-policy TD control algorithm
是一个突破性算法。但是存在一个最大化偏差(Maximization Bias)问题。
Double Q-learning
解决了最大化偏差(Maximization Bias)问题。
7 多步时序差分方法
n-step TD for estimating V \approx v_{\pi}
计算v(s)的多步TD算法。
n-step Sarsa for estimatingQ \approx q_*, or Q \approx q_{\pi} for a given \pi
计算q(s, a)的多步TD算法。
Off-policy n-step Sarsa for estimating Q \approx q_*, or Q \approx q_{\pi} for a given \pi
考虑到重要样本,把\(\rho\)带入到Sarsa算法中,形成一个off-policy的方法。
\rho - 重要样本比率(importance sampling ratio)
\rho \gets \prod_{i = \tau + 1}^{min(\tau + n - 1, T -1 )} \frac{\pi(A_t|S_t)}{\mu(A_t|S_t)} \qquad \qquad (\rho_{\tau+n}^{(\tau+1)})
n-step Tree Backup for estimating Q \approx q_*, or Q \approx q_{\pi} for a given \pi
Tree Backup Algorithm的思想是每步都求行动价值的期望值。
求行动价值的期望值意味着对所有可能的行动\(a\)都评估一次。
Off-policy n-step Q(\sigma) for estimating Q \approx q_*, or Q \approx q_{\pi} for a given \pi Q(\sigma)结合了Sarsa(importance sampling), Expected Sarsa, Tree Backup算法,并考虑了重要样本。
当\sigma = 1时,使用了重要样本的Sarsa算法。
当\sigma = 0时,使用了Tree Backup的行动期望值算法。
8 基于模型的算法
这里的思想是:通过体验来直接优化策略和优化模型(再优化策略)。
Random-sample one-step tabular Q-planning
通过从模型中获取奖赏值,计算q(s, a)
Tabular Dyna-Q
如果n=0,就是Q-learning算法。Dyna-Q的算法的优势在于性能上的提高。
主要原因是通过建立模型,减少了执行行动的操作,模型学习到了Model(S, A) \gets R, S'。
Prioritized sweeping for a deterministic environment
提供了一种性能的优化,只评估那些误差大于一定值\(\theta\)的策略价值。
9 近似预测方法
预测方法就是求v(s)。
\hat{v}(s, \theta) \doteq \theta^T \phi(s), \quad \text{state value function} \\ where \\ \theta \text{ - value function's weight vector} \\
Gradient Monte Carlo Algorithm for Approximating \hat{v} \approx v_{\pi}
蒙特卡罗方法对应的近似预测方法。
Semi-gradient TD(0) for estimating \hat{v} \approx v_{\pi}
单步TD方法对应的近似预测方法。
之所以叫半梯度递减的原因是TD(0)和n-steps TD计算价值的公式不是精确的(而蒙特卡罗方法是精确的)。
n-step semi-gradient TD for estimating \hat{v} \approx v_{\pi}
多步TD方法对应的近似预测方法。
LSTD for estimating \hat{v} \approx v_{\pi} (O(n2) version)
10 近似控制方法
控制方法就是求q(s, a)。
\hat{q}(s, a, \theta) \doteq \theta^T \phi(s, a), \quad \text{action value function} \\ where \\ \theta \text{ - value function's weight vector} \\
Episodic Semi-gradient Sarsa for Control
单步TD的近似控制方法。(情节性任务)
Episodic semi-gradient n-step Sarsa for estimating \hat{q} \approx q_*, or \hat{q} \approx q_{\pi}
多步TD的近似控制方法。(情节性任务)
Differential Semi-gradient Sarsa for Control
单步TD的近似控制方法。(连续性任务)
Differential semi-gradient n-step Sarsa for estimating \hat{q} \approx q_*, or \hat{q} \approx q_{\pi}
多步TD的近似控制方法。(连续性任务)