在习惯了离散动作-状态-空间中的Q-Learning算法之后,我现在想将其扩展到连续空间。为了做到这一点,我阅读了萨顿介绍中的On-Policy Control with Approximation一章。这里,推荐使用像线性函数或ANN这样的可微函数来解决连续动作状态空间的问题。然而,Sutton随后描述了将连续变量映射到离散表示的平铺方法。这总是必要的吗?
为了理解这些方法,我尝试在没有平铺方法和线性基函数q的情况下实现了书中的Hill Climbing Car示例。因为我的状态空间是二维的,而我的操作是一维的,所以我在这个等式中使用了一个三维权重向量w:
当我现在尝试选择最大化输出的