首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

作者头像
IT派
发布于 2018-07-30 06:41:53
发布于 2018-07-30 06:41:53
2950
举报
文章被收录于专栏:IT派IT派

上周,DeepMind 在 Nature 发表论文,用 AI 复现大脑的导航功能。今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科学中的多巴胺学习模型的局限,强调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的元强化学习证明。DeepMind 期望该研究能推动神经科学自 AI 研究的启发。

近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现令人印象深刻,但 AI 仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现。而人类仅需数分钟就可以掌握视频游戏的基本玩法。

对大脑何以能在如此少的经验下学到那么多这一问题的探究推动了元学习(meta-learning)或「学习如何学习」理论的发展。人们认为我们是在两个时间尺度上学习的:短期学习聚焦于学习特定实例,长期学习主要学习抽象技能或用于完成任务的规则。正是该组合帮助我们高效地学习,并在新任务上快速灵活地应用知识。在 AI 系统中重新创建这种元学习结构,即元强化学习(meta-RL),已被证明在推动快速、单次的智能体学习中卓有成效(参见 DeepMind 论文《Learning to reinforcement learn》以及 OpenAI 的相关研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大脑中允许该过程的特定机制目前在神经科学中基本未得到解释。

在 DeepMind 刚发表在 Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的元强化学习框架来探索大脑中的多巴胺所发挥的帮助学习的作用。多巴胺是人们所熟悉的大脑快乐信号,通常被认为是 AI 强化学习算法中使用的奖励预测误差信号的类比。这些系统学习通过反复试错来行动,这是由奖励推动的。DeepMind 指出多巴胺的作用不仅仅是使用奖励来学习过去动作的价值,它发挥的是整体作用,特别是在前额叶区域,它允许我们高效、快速和灵活地在新任务上学习。

研究者通过虚拟重建神经科学领域中的六个元强化学习实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(代表多巴胺)训练了一个循环神经网络(代表前额叶),然后对比该循环网络的活动动态和神经科学实验之前研究成果的真实数据。循环网络是很好的元学习代理,因为它们可以内化过去的动作和观察,然后在多种任务训练中利用那些经验。

DeepMind 重建的一个实验是 Harlow 实验,这是一个 1940 年代出现的心理测试,用于探索元学习的概念。在原始测试中,向一组猴子展示两个不熟悉的物体并让它们进行选择,只有一个物体能带来食物奖励。这两个物体被展示了 6 次,每次展示中两个物体的左右位置都是随机的,因此猴子必须学会哪个物体能带来食物奖励。然后,它们被展示了两个全新的物体,这时也是只有一个能带来食物奖励。通过该训练过程,猴子发展出了一种策略来选择奖励相关的物体:它学会了在第一次选择时进行随机选择,然后基于奖励反馈选择特定的物体,而不是左边或右边的位置。该实验证明了猴子可以内化任务的基础原则,并学习一种抽象的规则结构,即学会学习。

DeepMind 使用虚拟计算机屏幕和随机选择的图像模拟了一个类似的测试,他们发现「meta-RL agent」的学习方式与 Harlow 实验中的动物非常相似,这种相似性即使在展示完全没见过的全新图像时也会存在。

在 DeepMind 模拟的 Harlow 实验中,智能体必须将关注点移向它认为与奖励相关的目标。

实际上,DeepMind 研究团队发现 meta-RL 智能体能快速学习适应有不同规则和结构的大量任务。而且由于该循环神经网络学习了如何适应多种任务,因此它还学到了如何高效学习的通用法则。

重要的是,研究者发现大多数学习发生在循环网络中,这也支持了 DeepMind 的假设,即多巴胺在元学习过程中扮演的角色比以前认为的更重要。传统观点认为,多巴胺加强前额叶系统中的突触联系,从而强化特定的行为。在 AI 中,这一现象意味着,随着类似多巴胺的奖励信号学习到解决任务的正确方式,它们会调整神经网络中的人工突触权重。然而在一般的实验中,神经网络中的权重是固定的,这意味着权重在学习过程中不能进行调整。

模拟循环网络中编码动作和奖励历史的独立单元。

因此,DeepMind 研究团队提出了 meta-RL 智能体,它能解决并适应新的任务。这种智能体表明类似多巴胺的奖励不仅用于调整权重,它们还传输和编码关于抽象任务和规则结构的重要信息,使得智能体能够更快适应新任务。

长期以来,神经科学家们发现前额叶皮质中有类似的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质不依赖缓慢的突触权重变化来学习规则结构,而是使用在多巴胺中直接编码的基于模型的抽象信息,这个思路为其多功能性提供了更合理的解释。

为了证明导致人工智能元强化学习的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科学和心理学的一系列神秘发现。尤其是,该理论揭示了大脑中如何出现结构化的、基于模型的学习,多巴胺本身为什么包含基于模型的信息,以及前额叶皮质的神经元如何适应与学习相关的信号。对人工智能的深入了解可以帮助解释神经科学和心理学的发现,这也强调了领域之间可以互相提供价值。放眼未来,他们期望在强化学习智能体中设计新的学习模型时,可以从特定的脑回路组织中获得许多逆向思维的益处。

论文:Prefrontal cortex as a meta-reinforcement learning system

  • 论文地址:https://www.nature.com/articles/s41593-018-0147-8
  • 预印论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf

摘要:过去 20 年来,对基于奖励学习的神经科学研究已经收敛到了一类规范模型上,其中神经递质多巴胺通过调整神经元之间突触连接的强度在情景、动作和奖励之间建立关联。然而,近期出现的许多研究向这个标准模型提出了挑战。我们现在利用人工智能中的近期进展来引入一种新的基于奖励的学习理论。这里,多巴胺系统训练了另一个大脑区域——前额叶,来将其作为独立的学习系统。这个新的研究视角适应了启发标准模型的那些发现,并且还能很好地处理宽泛的经验观察,为未来的研究提供全新的基础。

上图展示了 meta-RL 在多个 episode 上学习如何高效地学习每一个 episode。其中 a 为智能体架构、b 为 DeepMind 模拟中实现的具体神经网络结构、c 为试验模型在带有伯努利奖励参数的摇臂赌博机问题上的行为、d 为 meta-RL 网络在摇臂赌博机问题上独立训练的性能,最后的 e 为循环神经网络激活模式在独立实验中的进化可视化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT派 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
人脑的前额皮质里藏了一个强化学习系统,DeepMind 如是说
AI 研习社按:最近,AI 系统已经学会一系列游戏的玩法,如雅达利经典游戏 Breakout 和 Pong。尽管这样的表现令人印象深刻,但其实人工智能需要数千小时的游戏时间才能达到并超越人类玩家的水平。相比之下,我们则可以在几分钟内掌握以前从未玩过的游戏的基础操作。DeepMind 对这个问题进行了研究,论文《Prefrontal cortex as a meta-reinforcement learning system》发表了在了《自然》神经科学子刊上。随着论文发表,DeepMind 也撰写了一篇解读博客,介绍了论文的主要内容。 AI 研习社编译如下。
AI研习社
2018/07/26
3400
人脑的前额皮质里藏了一个强化学习系统,DeepMind 如是说
DeepMind发Nature子刊:通过元强化学习重新理解多巴胺
据昨天DeepMind在Nature Neuroscience刊出的新论文Prefrontal cortex as a meta-reinforcement learning system指出,人类之所以能非常快地掌握新事物,原因可能是能从以往的经历中提取出规律,这种能力称为元学习。
量子位
2018/07/24
4250
DeepMind发Nature子刊:通过元强化学习重新理解多巴胺
DeepMind用强化学习探索大脑多巴胺对学习的作用
---- 新智元报道 来源:DeepMind 编辑:肖琴 【新智元导读】继上周在 Nature 发表极受关注的“网格细胞”研究后,DeepMind今天又在《自然-神经科学》发表一篇重磅论文:利用强化学习探索多巴胺对学习的作用,发现AI的学习方式与神经科学实验中动物的学习方式类似。该研究提出的理论可以解释神经科学和心理学中的许多神秘发现。 AI系统已经掌握了多种电子游戏,如雅达利经典的“突出重围”(Breakout)和“乒乓球”(Pong)游戏。但尽管AI在玩游戏方便的表现令人印象深刻,它们仍然是依靠
新智元
2018/05/30
6630
DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!
AI科技评论按:近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏、到围棋、再到无限制扑克等领域,AI 的表现都大大超越了专业选手,这一进展引起了众多认知科学家的关注。不过 Deep RL 需要大量的训练数据,人们开始质疑深度强化学习过于依赖样本,导致效率低下,无法与人类学习的合理模型相匹配。
AI科技评论
2019/06/02
4610
DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong。尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家的表现。相比之下,人类玩家通常可以在几分钟内粗浅掌握以前从未玩过的视频游戏。
AiTechYun
2018/07/27
4480
DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上发表文章,概览了深度强化学习中的一些新技术,这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five,它相当于人类玩了「4 万 5 千年」的 Dota 2 游戏,如果智能体能像人类那样「快学习」,也许它的学习能更高效。
机器之心
2019/05/14
7900
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
【DeepMind最新Nature论文】探索人类行为中的强化学习机制
【新智元导读】DeepMind与来自普林斯顿、NYU、达特茅斯学院、UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策略。研究人员具体探讨了一种存在于无模型和基于模型的学习算法之间的方法,基于后继表示(successor representation,SR),将长期状态预测存入缓存中。作者预计,这些发现将为计算科学、电生理学和神经影像学研究开辟新的途径去研究评估机制的神经基础。相关论文《The successor representation in human re
新智元
2018/03/22
8990
【DeepMind最新Nature论文】探索人类行为中的强化学习机制
推特800赞,DeepMind强化学习综述:她可以很快,但快从慢中来
强化学习 (RL) 太慢。人类一两盘就能学会的游戏,AI可能要和游戏环境互动上亿次才能解锁。样本效率低,模拟不出人类学习的过程。
量子位
2019/05/14
4350
解读二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
这一块被会抑制,当得到的奖励比预测的奖励少时。于是这种机制就被成为奖励预测误差(Dopamine reward prediction error )。
CreateAMind
2019/07/10
6980
从认知学到进化论,详述强化学习两大最新突破
深层强化学习(deep RL)近年来在人工智能方面取得了令人瞩目的进步,在Atari游戏、围棋及无限制扑克等领域战胜了人类。
大数据文摘
2019/05/29
7830
Neuron 2020 | 深度强化学习和神经科学
今天给大家介绍DeepMind人工智能研究团队负责人Matthew Botvinick在Neuron上发表的文章“Deep Reinforcement Learning and Its Neuroscientific Implications”。作者在文章中提供了深度强化学习(RL)的高层次介绍,讨论了深度RL在神经科学中的应用,并调查了它对大脑和行为研究的更广泛的影响。
DrugAI
2021/02/01
6570
Neuron 2020 | 深度强化学习和神经科学
DeepMind新型AI训练技术与大脑的关系
DeepMind前段时间发表了一篇论文,详细阐述了一种新开发的强化学习,有希望解释人类大脑中的奖赏通路是如何运作的。据《新科学家》报道,这种机器学习训练方法被称为“分布强化学习”,其背后的机制似乎合理地解释了大脑神经元是如何释放多巴胺的。
AiTechYun
2020/02/20
5020
【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。
元学习作为一种增加强化学习的灵活性和样本效率的方法,科研学者对此的关注兴趣迅速增长。然而,该研究领域中的一个问题是缺乏足够的基准测试任务。通常,过去基准的基础结构要么太简单以至于无法引起兴趣,要么就太不明确了以至于无法进行有原则的分析。在当前的工作中,DeepMind科学家介绍了用于元RL研究的新基准:Alchemy,该基准是将结构丰富性与结构透明性相结合。它是在Unity中实现的3D视频游戏,涉及潜在的因果结构,该过程都经过程序重新采样,从而提供了结构学习,在线推理,假设测试以及基于抽象领域知识的动作排序。并在Alchemy上评估了一对功能强大的RL方法,并对这些方法进行了深入分析。结果清楚地表明,Alchemy作为元RL的挑战性基准提供了验证。
深度强化学习实验室
2021/02/26
7760
【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。
DeepMind强化学习新研究:更快的知识学习,更强的环境适应
DeepMind官方博客在一篇文章“Fast reinforcement learning through the composition of behaviours”中,针对强化学习中的“从头学习”问题给予了解决方案。文章中表示,人类处理一些新任务时候,例如做菜,往往能够利用之前学过的知识、技能。而强化学习中的智能体往往需要从头学习。
AI科技评论
2021/05/19
6750
DeepMind强化学习新研究:更快的知识学习,更强的环境适应
AI 在科学研究的应用
聊起 AI,画面都充斥着机械语言:精密高级的芯片,光怪陆离的智能产业……你眼中的 AI 有什么样的能力?能给传统行业带来哪些变革与发展?基于此,云加社区联手知乎科技,从知乎AI 与传统行业相关话题中精选内容落地社区专题「 AI 与传统行业的融合 」。
腾讯云开发者社区
2020/04/14
1.3K0
《Nature》最新研究:大脑中存在分布式强化学习机制
学习和动机是由内、外部奖励所驱动的。我们的许多日常行为都以预测或预测给定的行动是否会带来积极的(即有益的)结果为指导。
AI科技评论
2020/02/13
1.1K0
《Nature》最新研究:大脑中存在分布式强化学习机制
DeepMind提出强化学习新方法,可实现人机合作
本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。
深度学习与Python
2021/12/22
4160
DeepMind提出强化学习新方法,可实现人机合作
Google发布“多巴胺”开源强化学习框架,三大特性全满足
强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。
AI科技大本营
2018/09/28
3490
Google发布“多巴胺”开源强化学习框架,三大特性全满足
DeepMind发表Nature论文:「预测地图」海马体催生强化学习新算法
选自DeepMind 作者:Kimberly Stachenfeld等 机器之心编译 参与:路雪、黄小天 DeepMind 近日在《Nature Neuroscience》上发布最新研究,认为海马体能够通过预期的后续状态来展示每一个当前状态,从而传输对未来事件的细致总结。这种特殊形式的预测地图使大脑快速适应奖励不同的环境,而无需运行对未来的模拟。受此启发,DeepMind 提出将强化学习中基于模型的算法和无模型算法结合起来,既保证计算成本低廉,又能快速适应奖励变化。DeepMind 表示,预测地图理论可以转
机器之心
2018/05/08
8260
DeepMind发表Nature论文:「预测地图」海马体催生强化学习新算法
DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点
【新智元导读】在 AlphaGo 获胜一周年的今天,DeepMind 发表最新研究成果,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步。新智元盘点 DeepMind 一年多以来的技术和商业成果,他们确实一直向着“解决智能”在努力。在赞叹的同时,我们也需要问自己——中国的 DeepMind 在哪里? “以前,我们有一个能够学会玩任何游戏的系统,但它一次只能学会玩一个游戏,” DeepMind 研究科学家 James Kirkpatrick 在接受 Wired 采访时表示,“现在我
新智元
2018/03/27
9710
DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点
推荐阅读
相关推荐
人脑的前额皮质里藏了一个强化学习系统,DeepMind 如是说
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档