版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Solo95/article/details/102672689
前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估 介绍的是On-Policy的策略评估。简而言之,On-Policy就是说做评估的时候就是在目标策略本身上做的评估,而Off-Policy指的是在别的策略上对目标策略做评估。
如图,该方法可能面临着已有的行为策略和新的行为策略分布相差巨大的缺点,这点需要注意。