前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >迁移学习进展:单次学习能力达人类水平(附论文)

迁移学习进展:单次学习能力达人类水平(附论文)

作者头像
新智元
发布2018-03-27 10:36:48
7270
发布2018-03-27 10:36:48
举报
文章被收录于专栏:新智元

【新智元导读】 本文的作者开发了一种使用贝叶斯程序学习(BPL)的算法,该算法将概念表示为简单随机程序,也就是结构化过程,在执行时生成概念的新示例。这些程序让模型表达关于如何形成原始数据的因果知识。概念之间的结构共享是通过随机组合重用来实现的,可用新方式组合以创建新概念。”BPL在具有挑战性的一次性分类任务中达到了人类水平。

人工智能(AI)的最新进展已经重新引起了人们对构建像人们一样学习和思考的系统的兴趣。许多进步来自于使用深入的神经网络训练端对端的任务,如对象识别,视频游戏和棋类游戏,实现等于甚至在某些方面击败人类的性能。除了他们的生物灵感和绩效成就,这些系统不同于人类智力在关键的方式。

我们回顾认知科学的进展,表明真正的人类学习和思维机器将不得不超越当前的工程学趋势,他们学习什么,以及他们如何学习它。具体来说,我们认为这些机器应该:

(a)构建支持解释和理解的世界的因果模型,而不是仅仅解决模式识别问题;

(b)物理学和心理学关于直觉理论的基础研究,支持和丰富所学的知识;

(c)利用组合性和学习 - 学习来快速获得知识并将其推广到新的任务和情况。

对于这些目标,我们提出具体的挑战和有希望的路线,结合最近的神经网络进步的优势与更结构化的认知模型。

超过五十页的论文看上去很费劲,除非像“Building machines that learn and think like people“这样的,才值得花时间看。

我肯定我们会看到问题的规模越来越大,在这些方面我们是还有很多提升的空间

  • 数据效率 - 使用比当今模型少得多的训练数据,将模型训练到一定水平的熟练程度。
  • 培训时间 - 与数据效率密切相关,达到一定水平的熟练度,大大减少了培训时间。
  • 适应性 - 能够在学习新任务时更有效地利用先前的“知识”(训练模型)(这也意味着需要更少的数据,培训时间更短)。

此外,我希望,来自研究团队和工业实验室的一些奇妙的惊喜。 “建筑机器学习和思考像人一样”通过询问人类似乎学习什么来研究这些问题,我们仍然在性能上优于最先进的机器学习系统,以及为什么会是这样。 这是类似于“Towards deep symbolic reinforcement learning”,这是我最喜欢的论文,在过去几个月。

模式识别与模型构建

像Garnelo等人看到基于统计模式识别的学习系统与建立他们可以推理的世界的一些模型的学习系统之间的重要区别。

模式识别方法可以发现具有一些共同点的特征的事物 。例如,在大量不同的训练数据集中分类标签。模型建立方法创建模型来理解和解释世界,想象行动的后果,并制定计划。

“模式识别和建模之间,预测和解释之间的差异,是我们对人类智能观点的核心。 正如科学家寻求解释自然,而不是简单地预测它,我们认为人类思想本质上是一个建模活动。”

两个挑战揭示目前的局限性

在认知科学中,我们不认为思想是从一开始就很少限制的通用神经网络。相反,(大多数)认知科学家认为我们从一些早期归纳偏差开始,其中包括核心概念,如数量,空间,代理和对象,以及依靠先验知识从少量训练数据提取知识的学习算法。Lake 等人提出两个简单的挑战问题,突显其中一些差异。

字符识别

如果机器学习领域具有宠物商店,那可能是识别来自MNIST数据集的数字0-9。机器现在可以在这个任务上达到人类水准,所以到底有什么问题?与机器学习系统相比:

  • 人类从更少的例子中学习(我们可以学习从单个示例中识别新的手写字符)
  • 人类学习更丰富的表示法...

“人们学习的不仅仅是如何做模式识别,他们学习一个概念 - 即一个类的模型,允许他们获得的知识以新的方式灵活应用。除了识别新的例子,人们还可以生成新的例子,把一个字符解析成几个重要的部分和关系,并生成新的字符给定一小组相关的字符。这些额外的能力随着认识基本概念而来。即使对于这些简单的视觉概念,人们仍然比最好的字符识别算法更好。人们从更少的材料中学到更多东西,并且在机器中捕捉这些人类学习能力是 Characters Challenge。“

玩 Frostbite

Frostbite是DeepMind团队训练一个DQN来玩的49个Atari游戏之一。其中29个游戏达到了人类水准,但Frostbite需要更长远的规划策略,这对 DQN 来说非常困难。“Frostbite Bailey”必须在时间限制内建造一座冰屋,同时跳上浮冰,收集鱼类和避免危险。

“有趣的是,虽然DQN用很少的先验知识训练到人类水准,但是DQN用完全不同于人类的方法,学习玩 Frostbite 和其它游戏”

  • 它需要更多的训练时间 - DQN与只有有2小时的训练时间的职业玩家进行比较; DQN用了38天,在受控测试期间达到了人类水平的10%以下。
  • 人类可以在几分钟内掌握游戏的基础。“我们推测,人们通过推出一种通用模式描述游戏的目标和对象的类型以及他们的交互,并运用各种直觉理论、建模能力,以及我们下面描述的基于模型的计划机制。”
  • 人类可以快速适应他们所学到的新目标。例如:获得最低的分数; 获得最接近却又不超过限制的分数; 恰好在时间点击零之前最晚通过每一关; 得到尽可能多的鱼等等。

“这一目标突出了人类智能的一个重要组成部分:人们可以学习模型,并将其用于任意的新任务和目标。”

当然,人类可以快速学习和适应的原因之一是,我们可以处理具有广泛的先前经验的新问题,而DQN从头开始。我们如何构建不总需要从头开始的机器学习系统?

“我们如何带来丰富的先验知识,以快速地学习新任务和解决新问题?先验知识采用什么形式,以及它是如何构建的,从内置能力和以往经验的某种组合?“

接下来的三个部分突出介绍了应对这一挑战的一些核心要素。

“...下一代的神经网络将看起来与当前的最先进的技术非常不同。他们可以被赋予直觉物理学,心理理论,因果推理和其他能力...“

直观的物理学

如果你通过深度学习和Wolfram Alpha ++,你会得到什么?人类在其发展周期的早期对数个核心领域有了了解,包括数字,空间,物理和心理学。

“在2个月也许更早的时候,人类婴儿期望无生命物体遵循持久性,连续性,内聚性和坚实性的原则。年轻的婴儿认为物体应该沿着平稳的路径移动,不眨眼进出现有的,不是相互穿透的,而不是在远处行动...。“

6个月的时候,进一步的期望围绕刚体,软体和液体发展。12个月的时候有了如惯性,支持,遏制和碰撞的概念。

“在深度学习系统中嵌入或获取这种物理直觉的前景是什么?“

来自Facebook AI Team 关于 PhysNet 的一篇的论文可能是朝这个方向迈出的一步 - 它可以学习对具有两个,三个或四个立方体块的塔的稳定性进行简单的“Jenga-style”计算。它对真实图像处理达到人类水准,在模拟图像上超过人类水准。PhysNet确实需要大量的训练,而人们不需要那么多训练,而效果却更好。

“深层学习系统如PhysNet是否能捕获这种灵活性,而不需要明确模拟三维物体之间的因果关系?我们不能确定,但我们希望这是他们将要承担的挑战。“

直觉心理学

我们不知道这是怎么做到的,一个解释是使用行为选择的生成模型(“贝叶斯理论”模型)。这些模型将诸如“目标”,“代理”,“规划”,“成本”,“效率”和“信念”等概念形式化。通过模拟agent的规划过程,人们可以预测下一步可能做什么,或者从一系列推断agent所相信和使用的行为反过来推导。

“与对象和力量一样,尚不清楚这些概念(代理,目标等)的完整表示是否可以从纯粹的预测能力训练的深层神经网络中出现...“

例如Frostbite挑战 - 看着一个专业玩家玩,直觉心理学让我们推断玩家的信念,欲望和意图。“例如,到有经验的玩家避开鸟类,我们可以学到应该躲开鸟类。我们不需要经历遇到一只鸟的一个例子 – 而是看着FrostbiteBailey 因为鸟死了 - 推断鸟可能是危险的。

“有几种方法可以将直觉心理学纳入当前的深度学习系统中...。简单的归纳偏差,例如发现有东西要移动其它东西,可以引导关于更抽象概念的推理。同样,大量的目标导向和社会导向,也可以以一种可以与其他认知能力共享的方式,归结为简单的实用微积分。“

学习作为模型建设

儿童(和成人)具有“一次性”学习的巨大能力 – 例如,一把梳子、一个菠萝或一把光剑,孩子理解其类别,“掌握无限集合的边界,它定义了所有可能物体的无限集合中的每一个概念。

“不同于人类学习的高效,由于神经网络高度灵活的近似函数而具有通用性,神经网络是众所周知需要大量数据。”

即使只有几个例子,人们可以学习丰富的概念模型。例如,在看到一个新型两轮车的例子之后,一个人可以绘制新的实例,将概念解析为其最重要的组件,或者甚至通过熟悉的概念的组合创建新的复杂的概念。

“这种丰富性和灵活性表明,模型建设式的学习比模式识别式的学习更好。此外,人类一次性学习的能力表明,这些模型建立在丰富的领域知识基础上,而不是从空白开始。”

本文的作者开发了一种使用贝叶斯程序学习(BPL)的算法,该算法将概念表示为简单随机程序 - 结构化过程,在执行时生成概念的新示例。

“这些程序让模型表达关于如何形成原始数据的因果知识,并且概率语义允许模型处理噪声和执行创造性任务。概念之间的结构共享是通过随机原语的组合重用来实现的,可用新方式组合以创建新概念。”

BPL在具有挑战性的一次性分类任务中达到了人类水平。

另一个有趣的模型是因果模型。篇幅有限,我不会在这里讨论它,但是在论文§4.2.2中有详细论述。

作者在本节中讨论的最终领域是“学会学习”:

“虽然迁移学习和多任务学习已经是AI的重要主题,特别是深度学习没有做出像人类一样快速和灵活地学习新任务的系统...为了获得人类从学习中获得的全部好处AI系统可能首先需要采用我们上面论述的更具组合性(或更多类似语言)和因果形式的表示。“

例如,学习基于直观物理学和心理学基础的游戏的组成结构的因果模型的系统可以更有效地传递知识,从而更快地学习新游戏。

“分层贝叶斯(Hierarchical Bayesian)模型运行在概率程序,用来处理类似理论的结构和丰富的因果表示,但有对于高效推理还有强大的挑战...对于程序或理论学习发展迅速的领域,人们可能采用inductive biases不仅用于评价假设,而且用于指导假设选择。”

例如,“20英寸”不可能是问题“林肯诞生了什么年份”的答案。最近的工作尝试使用前馈映射来解决这个挑战,以摊销概率推理计算。参见论文§4.3.1。

在ML主流之外?

如果以上介绍引起了您的兴趣,我们鼓励您查阅完整的论文。如果我们要看到这种机器学习的突破,很可能是由那些记住早期的AI的人,或那些工作在主流以外开发的人。

Building Machines That Learn and Think Like People https://arxiv.org/abs/1604.00289

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档