Monte Carlo Off Policy Evaluation

Steve Wang

发布于 2019-10-24 23:24:22

7980

发布于 2019-10-24 23:24:22

文章被收录于专栏：从流域到海域

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估介绍的是On-Policy的策略评估。简而言之，On-Policy就是说做评估的时候就是在目标策略本身上做的评估，而Off-Policy指的是在别的策略上对目标策略做评估。

目标：在给定由行为策略π2\pi_2π2产生的轮次(episodes)下，评估策略π1\pi_1π1的价值Vπ(s)V^\pi(s)Vπ(s)
- s1,a1,r1,s2,a2,r2,....s_1,a_1,r_1,s_2,a_2,r_2,....s1,a1,r1,s2,a2,r2,....其中的action是由π2\pi_2π2采样而来
MDP模型M在策略π\piπ下产生的收益为Gt=rt+γrt+1+γ2rt+2+γ3rt+3+....G_t=r_t+\gamma r_{t+1} + \gamma^2r_{t+2}+\gamma^3r_{t+3}+....Gt=rt+γrt+1+γ2rt+2+γ3rt+3+....
价值函数为Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t = s]Vπ(s)=Eπ[Gt∣st=s]
有不同的策略，记为策略π2\pi_2π2的数据
如果π2\pi_2π2是随机的，那么通常可以使用它来评估一个不同的策略的价值(这是通常情况下遵循的一般原则)
再次强调，不需要有模型，也不必要求状态必须是马尔科夫的。