本文将比较分析Monte-Carlo控制算法与时域差分控制算法在解21点(Blackjack)博弈中的应用。
?...在本文中,您将了解强化学习中无模型算法背后的动机和内部工作原理,同时应用它们来解决Blackjack。...TD方法的独特之处在于,它是由相同数量的时间连续估计值之间的差异驱动的。关于时间差异学习的起源更多的是在动物心理学中,特别是在二次强化的概念中。...在python中是这样实现的:
def update_Q_sarsamax(alpha, gamma, Q, state, action, reward, next_state=None):
"...在python中是这样实现的:
def update_Q_expsarsa(alpha, gamma, nA, eps, Q, state, action, reward, next_state=None