首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习:决策行为中的“试误说”

最近看文献发现一个很有意思的现象:很多机器学习中的算法都拿来建模试图解释一些人脑的基本认知过程(就连取材于人脑神经元连接方式的“神经网络”也被反过来在心理学中使用,虽然neural network本质是基于数学的算法,连神经元复杂结构的神韵也没有emmm),这种研究思路跟上世纪7,80年代全然不同,数据驱动的导向确实也算形成了一点小热潮。

今天想来说说在心理学较早出现这种倾向的领域话题:人类是如何利用以往经验来学习的?

行为主义很早给出了解释,我们对巴普洛夫的狗和桑代克的猫实在不陌生,甚至桑代克的试误说影响和带动了强化学习和决策领域中关于“估计误差”(prediction error)的诸多讨论。

桑代克发现了猫在箱子里不断地“犯错误”——横冲乱撞,但能在反复的过程中踩到脚踏板逃出箱子。这是一个简单的学习过程,当然人类必然更为复杂一些了。桑代克于是提出,学习的本质就是基于误差的,是通过不断缩小你对结果估计和实际结果之间的差别,最后达到目的的过程。

而这个差别就是“估计误差”。那么到现在为止,我们只是得到了一个概念,或者说一个道理。

哦,我们就是不断地犯错,积累经验,才能一步一步走向成功。这不是鸡汤?

心理学的教材确实很多时候都止步于这种对人生道理的探讨,但当时的研究者所做的工作却远甚于此。

Bush和Mosteller在巴普洛夫经典条件反射实验中试图用数学算法总结并且预测狗在整个conditioning中流口水的可能性。描述的公式可以看作是:

下一次响铃后流口水的可能性 = 上一次对可能性的估计 + α(上一次实际的结果 - 上一次可能性的估计)

α是学习率,可以看作是个体差异,而括号里就是所谓的PE。

这个简单的公式利用迭代的思想,表达出个体利用估计误差进行学习并预测可能性

后来这个公式通过演化,加入了奖赏和期望值等决策中的元素,形成了Rescorla-Wagner模型。

但这个模型确实是过于简单了,还有很多问题不能通过它来解决。

对下一刻的估计应该发生在刺激产生的时候,也就是说在得到结果(奖励)之前,估计是会发生变化的,比如:你对一档电视节目好坏的评价最终发生在你看了节目后,但在之前很多事件都会影响你对节目的预估,豆瓣上的评分,朋友的吐槽……这些都可以算是经典条件反射中的刺激,而每一个事件后你的预期都是不一致的,你甚至都不用去亲自看这档节目,评价就已经发生了改变。

不像Rescorla-Wagner模型那样将决策和学习的过程看作是每次选择之间的离散过程,新的TD模型则是采用时间上的连续视角来考察。

回到狗-铃铛-口水的例子,如果在铃铛响后,巴普洛夫进入了实验室,这个事件狗也会利用起来加入到学习的经验当中。那么TD模型是如何描述的呢?

公式用文字描述就是:

未来响铃后流口水的可能性 = 铃铛响后狗预估的可能性【30%】 + α(巴普洛夫进入实验室后的结果【有肉吃】 + 巴普洛夫进入实验室之后狗预估的可能性【80%】- 铃铛响后狗预估的可能性【30%】)

同样的括号内是TD版本的估计误差,此时因为是对新事件产生影响的实时更新,也称是temporal prediction error。

TD模型的原公式如下:

实际上这个是机器学习中强化学习重要的一个“时间差分”算法的模型,而具体的推导原理确实过于复杂,并不理解(希望之后有时间深入学习)。

而更为重要的是,TD模型也不能满足部分人的需求,尤其是那些支持建构主义的心理学家。毕竟,在整个模型建造的过程中,似乎认为个体是并不是完全通过试误来学会知识的,至少不是简单地通过前后状态之前的预估错误来学习的。托尔曼的“认知地图理论”则是很鲜明地体现出了这一思想,认为学习是建立在先前经验组织成的知识框架上的,而这就涉及到了model-based reinforcement learning,同样地在机器学习领域也有相应的Q-learning,Sarsa算法。

可见计算机算法是如何和心理学的基础研究形成互为反哺的关系,尽管这种关系仍然相当浅显,甚至涉及到利用算法建造的模型往往无法正确拟合人的行为,也算是computational psychology的局限吧。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209G1CKDR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券