【新智元导读】Facebook AI实验室负责人、深度学习三驾马车之一的Yann LeCun今天(没有错,就在几个小时之前!)在Quora上回答提问,有一万多人提问。LeCun在回答中阐述了深度学习在短期内值得期待的突破、人工智能未来5到10年的发展,以及他对深度学习自学者的建议。LeCun认为Hinton的网上公开课现在“有点过时”了。本次问答,LeCun还谈到了深度学习在理论上的突破、目前深度学习是否存在泡沫,以及Facebook 的AI研究的与众不同之处。
深度学习领域将有哪些值得期待的突破?
深度学习的局限在哪里?
“经典的”深度学习包括各种各样的前向传播(feed-forward)模型(通常是卷积神经网络)和递归神经网络的组合(有些时候还有记忆单元,比如LSTM或者MemNN)。
所有这些模型的“推理”(reason)能力都有限,也就是说进行很长串的inference或优化过程以达到一个结果的能力十分有限。计算的步骤受前向传播网络的层数限制,经过一段时间一个卷积网络就会有一定的记忆。
要让深度学习系统学会推理,我们需要调整模型,使其不止得出一个单一的结果(比如对一幅图像的描述,或者对一句话的翻译等等),而是得出一组不同的输出(比如一句话有好几种翻译的方法)。这就是基于能量的模型派上用场的地方:每个configuration都给你一组不同的参数去inference。基于能量的模型一个很好的例子就是因子图(factor graph)。将学习系统和因子图相结合的方法被称为机器学习的“结构化预测”(structured prediction)。过去有很多人提议将神经网络和结构化预测结合在一起,最早在上世纪90年代初就有这样的提法了。实际上,我和我贝尔实验室的同事在上世纪90年代初制作的支票阅读系统,就在卷积网络的基础上,使用了一种结构化预测,我们将其称之为“Graph Transformer Networks”。近来有很多工作都在研究在卷积网络上面加图模型(graphical models),然后端到端地训练整个系统。了解更多基于能量的模型和在神经网络之上的结构化预测,可以参见这篇论文:https://scholar.google.com/citations?view_op=view_citation&hl=en&user=WLN3QrAAAAAJ&cstart=20&pagesize=80&citation_for_view=WLN3QrAAAAAJ%3A8k81kl-MbHgC
深度学习以其目前的形式而言当然是有局限的,因为几乎所有成功应用都是使用了监督学习并且依赖于人类标注过的数据。我们需要找到方法,训练大型神经网络从没有经过标注的“原始”数据中,找出现实世界的规律。正如我在前面一个问题中回答的那样,我相信对抗训练(adversarial training)将会带来突破。
深度学习近期有哪些值得期待的突破?
短期看,深度学习领域有许多有意思的进展,也许数量太多,我在这没能全部都描述完。但是,有少数几个ideas引起了我的注意,让我在研究项目中可以亲自践行。依我看来,最重要的一个是对抗式训练(也称GAN,即生成对抗式网络)。这一概念最初由Ian Goodfellow提出,当时他还在蒙特利尔大学,是Yoshua Bengio的学生(随后他去了谷歌大脑,最近去了Open AI)。
生成对抗式网络,以及现在被提出的一些变体,是深度学习领域过去10年我认为最有意思的idea。这只是个人之见。
生成对抗式网络指的是同时训练两个神经网络。第一个叫鉴别器,我们在这标注为D(Y),它在获得一个输入(比如一张图片)后,会输出一个纯量(scalar),表明图像Y看起来是“自然的”或者不是。在一次对抗式的训练例子中,D(Y)可以被看成是一种能量函数,当Y是一个真实的样本(比如,数据库中的一张图片),这个函数会采用一个低值(比如,接近0),当Y不是一个真实样本(比如,是一张noisy的或者看起来模式的图片),就会采用一个正值。
第二个网络成为生成器,标注为G(Z),其中,Z通常是一个向量,在一个简单的分布(比如高斯的)中,被随机取样。生成器的角色是生产图像,以训练D(Y)函数,形成正确的模型(低值针对真实图像,高值则是别的所有东西)
在训练的过程中,D被显示为一个真实的图像,通过调整其参数,能让其输出值更低。随后,D被显示为一个从G产出的图像,通过调整其参数,来让其输出D(G(Z))更大(随着一些客观的预设函数的梯度)。但是,G(Z)将会自己训练,生成图片,以骗过D,让D认为其是真实的图片。通过获得D随着Y产生的梯度来实现。换句话说,它在尝试将D的输出最小化,而D自己却在尝试最大化。所以这被叫做对抗式训练。
Ian Goodfellow 最初的构想使用了一个更加复杂的概率框架,但这就是其主旨。
这为什么会如此有趣?它让我们可以训练一个鉴别器,作为一种非监督的“密度估计”(density estimator),比如,一个对比函数(contrast function)会提供一个针对数据的低值,和针对其他的高值。这个鉴别器必须要发展出一个好的数据内部表征,来有针对性地解决问题。随后,鉴别器还可以被当成分类器中的一个特征提取器。
但是,可能更加有趣的是,在对真实数据的复杂层面进行参数化的时候,生成器是可以观测的:给它一个向量Z,它就能在数据流形中绘制出其所在点。许多人发表了论文,用这一概念做了许多让人很赞叹的事,比如生成卧室的图像以及在Z向量空间内,对人脸进行计算:(戴眼镜的男人)-(不戴眼镜的男人)+(不带眼镜的女人)=(戴眼镜的女人)。
在这一话题上,FAIR上也有一系列有趣的论文:
最后一篇就是用对抗式训练进行视频预测的。研究解决了一个非常重要的问题,那就是,当你训练一个神经网络(或者其他任何模型)来预测未来,如果要预测的东西有多种可能性时,一个网络以传统的方式进行预测(比如,用最小平方),将会预测出所有可能性的平均值。在视频的例子中,有很多模糊的混乱。对抗式训练能让系统产出其想要的任何东西,只要是在鉴别器喜欢的任何数据库内就可以。这解决了在不确定条件下进行预测的“模糊”难题。
这听起来像一个非常技术性的难题,但是我真的认为这(对抗式生成网络)打开了另一个世界的大门。
无监督学习接下来会有什么大的突破?
对抗式训练是最酷的东西了,前面的回答中,我已经列出了大量的相关论文。在接下来的几年的时间内,我期待会有更多令人印象深刻的研究成果出现。
当下缺乏的是对无监督学习的一个好的理解,让我们能确保其运行得更加可信。人们无监督学习有点过于苛求。
无监督学习现在跟90年代的卷积网络很像,当时,我被认为是唯一能让其运转的人(然而事实并非如此)。
深度学习在理论或概念上的突破会有哪些?
这是研究目前非常活跃的话题。我很高兴地看到高水准的数学家和理论物理学家越来越对深度学习背后的理论感兴趣。
其中一个让人不解的理论是,为什么训练深度神经网络稳定工作时需要完成相应的非卷积优化。另一个觉得有趣的理论问题是,为什么层数越多越好?第三个有趣的问题是,为什么卷积网络的效果会这么好?此外,周边分布的随机优化的问题也很值得研究。
有什么是深度学习永远学不会的吗?
显然,目前的深度学习能力相当有限。但是,当人们弄清楚如何建立和人类水平的人工智能,那么深度学习则必定会是解决方案的一部分。
深度学习的意思是
除此之外,还有一个哲理问题:什么是可学习的任务,什么是不可能学会的任务,这些东西不管你投入多少资源就是无法学会。关于这方面已经有相当多的工作。一个有趣的结果就是“没有免费的午餐定理”,这个定理认为某个会学习的机器可以 tractably 学会所有可能任务中的少数任务。没有机器能够切实学会所有的任务。
AI机器必须有“偏向”才能学会某些任务。这与人类相比或许是显得很渺小,因为我们的大脑并不是通用的学习机,但这就是事实。尽管有明显的普适性,我们人类的大脑是非常善于专攻的。
有些问题本质上是无法通过计算求解的。这就是为什么即使我们修建出具有超人类智慧的机器,它们在现实世界中超越我们的范畴也十分有限,或许在下国际象棋或围棋的时候能超过人,但在预测抛硬币是正面还是反面就跟人一样差了。
近来深度学习形成炒作了吗?
当下围绕AI和深度学习有很多炒作。炒作是不好的,因为它创造更高的期望,当不能满足这些期望时就会导致失望。这也是过去形成“AI冬天”的部分原因。
所以,如果你看到一些令人震惊的炒作,直接说它们是炒作。我只要有机会就这么做。
初创公司有动机来炒作,因为他们需要吸引投资或客户。这不是说吸引到投资的公司就不是炒作了:一些AI公司已经吸引了大量的投资,但无非是些空的炒作。
话说回来,深度学习会产生真正的成果,是一个真正产生利益的产业的基础。在不久的将来,深度学习能做到的事情(即使没有炒作)也是非常令人兴奋,比如自动驾驶汽车,医疗成像,个性化医疗,内容过滤/排名等领域。
Facebook AI 实验室在做什么,与其他机构相比有何不同?
Facebook AI研究的重点是什么?
解决什么是智能,建造真正智能的机器。
让会学习的机器给他们周围的环境建模,记忆、推理、规划。
我们用视频游戏训练这些机器,将它们连接上虚拟3D游戏引擎 tot Torch,还有其他真实的虚拟的环境。
我们还从事利用AI进行图像和视频理解、文本理解、对话系统、语言翻译、语音识别、文本生成和其他深奥的领域。
Facebook AI研究目标与其他公司和研究机构不同在哪里?
我们有目标,也有执行的人和方式。
首先,我要说说目标。Facebook 基本上就一个长期目标:理解智能并修建智能的机构。这不仅仅是个技术挑战,还是个科学问题:智能是什么?我们该如何在机器中再现智能?与“宇宙是由什么构成的”“生命的意义是什么”一样,“智能是什么”也算是人类历史上终极科学问题之一。归根结底,了解智能不但有助于我们修建具有智能的机器,也将使我们了解人类思维和人脑工作原理。
在构建拥有真正智能的机器的过程中,我们也不断在发现新的理论、新的原理、新的方法和新的算法,而这些发现都将在短期内或不远的未来得到应用。没过多久,这些技术中有很多都通过Facebook 的产品投入使用。
当初扎克伯格招聘我去Facebook,他和我的老板CTO Mike Schroefer 都给了我很大的自由,可以说是让我按照自己的想法去建设FAIR。
此前我也在几家产业研究所待过(贝尔实验室、AT&T实验室、NER研究所,上世纪80年代我在还施乐Xerox PARC当过实习生),我也有在微软研究院、IBM研究院、Google、DeepMind等研究机构的朋友。因此,我自己有过好几次在产业研究大环境下,什么能行什么不能行的经历。我也经历过研究型实验室成功和没落的案例。这些经历都有助于我在Facebook 设计FAIR的架构以及运营方式。
首先,只有那些有余力考虑长远的公司才能有资金和资源修建先进的研究实验室,并让这些实验室常怀远大的目标。这意味着拥有“真正”研究所的公司规模都相对大,并在市场上已经占有一定份额(不需要担心存亡)。从过去的情况看,这些公司包括 IBM、AT&T、施乐、通用电气、微软,还有现在的谷歌和Facebook。
其次,研究必须公开进行,研究人员必须按照规定发表自己工作。这是至关重要的:秘密进行的研究几乎总是比公开发表的研究质量差(有点像开源软件往往比闭源软件质量更好)。发表并通过同行评议筛选的研究成果会更可靠、更稳定。此外,研究人员的生活和事业是与他或她的学术影响紧密相关的。除非你鼓励他们发表自己的工作,你无法吸引最优秀的研究员。最后,公开发表有利于公司的声誉。许多工程师和科学家都希望为那些在科学和技术方面引领创新的公司工作。开放研究这一理念使我们能够轻松地与大学和公共及非盈利研究实验室合作。没有公司能垄断好的点子。有很多好的想法都来自学术界(实际上大部分都来自学术界),除了个别可能需要Facebook等大公司拥有的基础设施和工程支持才能实现的。
第三,科学发现是一个“自下而上”的过程。我们聘请科研人员,部分原因是他们对选择好的项目和研究课题有好的嗅觉。在初始阶段,大量的研究工作是探索:你有一个想法,你就去试吧。你需要有灵活的工具,让你可以快速把事情实现并研究它们是如何工作的。如果事情顺利就可以立项,每到一个阶段,团队人数都会更多,工程师和研究员的比例也会越大。在FAIR,我们与AML(应用机器学习组)紧密合作,AML相比FAIR是一个更偏向工程的团队(但他们也有很多炫酷的ML / AI科研项目、计算摄影、虚拟/增强现实)。在FAIR是70%的研究和30%的工程,AML则是70%的工程和30%的研究。我在贝尔实验室工作时,那里也有像这样的两个研究组,配合运作十分融洽。有关FAIR和AML的详细描述可以参见:Facebook 腾飞的双翼。
如何评价苹果、微软、谷歌和Facebook之间的人工智能实力?
关于这一点,我的立场让我无法做出公平的回答,但有几点我可以说一下:
苹果不是人工智能研究圈子里的玩家,因为他们的公司文化很隐秘。你不可能在隐秘的氛围下做前沿研究。不发表则算不是研究,顶多也就是技术进步。
微软一直都在做一些很好的工作,但有很多人才都在从微软流向Facebook和谷歌。微软过去做了一些很厉害的语音相关的深度学习研究(2000年左右在手写识别方面取得了很好的成果)。但从他们最近的一些项目可以看出,微软研究院的目标相比FAIR或DeepMind要逊色很多。
谷歌(具体是Google Brain等研究组)无论是在深度学习产品还是服务方面都可以算是领先的,因为谷歌在这方面起步最早。他们在基础设施(比如TensorFlow和TPU)上有很多积累。但谷歌AI研究的关注点是应用及产品开发,而非长期AI研究。证据就是Google Brain的一些顶尖研究人员离开了那里,去了DeepMind、OpenAI,或者到了FAIR。
DeepMind在基于学习的AI(learning-based AI)方面一直都做得很好。他们的长期目标跟FAIR的有些类似,研究的课题重合度也挺高:无监督/生成模型,规划(planning)、RL、游戏、记忆增强网络、差分编程(differentiable programming)。DeepMind的一个问题在于,他们从地理位置和组织结构上都远离谷歌(Alphabet)。这样就不太方便为其所有者盈利,不过他们现在看来做得挺好的。
Facebook的人工智能研究所FAIR成立于2.5年前,在这么短的时间内在业界树立起自身领导者的地位。我自己都为FAIR能吸引这么多世界顶尖AI研究员而感到震惊(FAIR有60多个研究员和工程师,现在分布在纽约、Menlo Park、巴黎和西雅图)。同样,我也为我们在过去两年半时间里取得的成果感到震惊。我们的目标远大,在FAIR我们从长期着眼,在公司里也有一定的影响力,因此存在不会受质疑(不出成果)。最关键的,我们非常开放:我们所有的研究员一年都会发表多篇论文。没有什么比看见一位前景大好的研究员加入一家不那么开放的公司或者一家初创企业,然后从研究圈子里消失更令人当头一棒的了。
人工智能领域值得关注的发展
最近有哪些被人忽视但却令你兴奋的机器学习研究项目?
在1987年到1995年神经网络热潮中提出的一些想法值得再次回顾。
可以去看我跟我在FAIR的一些同事在ICML举办的workshop:back to the future
以下是我FAIR同事Armand Joulin的回答:
“因果推理(causal inference)领域近来的一些进展十分有趣,但受关注不多。
“因果推理旨在发现不同变量之间的因果关联。理解系统的因果结构,我们就可以预测有一些变量改变了以后,系统接下来会发生什么。这是自然推理的一种形式,让你在全新的环境中也能对事情接下来的发展做出预测。
“这方面的工作并不是最近才提出的(Causality: Models, Reasoning, and Inference by J. Pearl in 2000),下面是一些入门资料
确实,如果你想让机器人(或某种其他形式的智能体)学会在现实世界中根据情况做出反应,那么它就必须要能够预测何时何地做出反馈才能得到理想的结果。下雨时,纽约会有很多雨伞,但把这些雨伞除去并不能让雨停止。对于一个拥有真正智能的agent来说,弄清楚因果关系是必须具备的能力。
人工智能领域未来5到10年会有哪些值得期待的发展?
在AI中有很多领域,人们正在其中努力工作并获得进展,包括:
结合推理与计划的深度学习
基于深度模型的增强学习(包括无监督预测学习)
通过微分记忆模块(例如记忆网络)增强的循环神经网络
通过对抗性训练建立的生成/预测模型
“微分编程”:这是将一个程序(或电路)看成可用backprop训练的微分模块图像的思路。这意味着或许能够除了学习识别模式(如用前馈控制神经网络),还能生成算法(用循环、递归、子程序等)。DeepMind、FAIR等已经对此发了一些论文,但目前这一领域仍处于初期。
分层规划和分层增强学习:这是将一个复杂任务分解成简单子任务的问题。这似乎是智能系统的需求。
无监督式的学习预测模型(例如视频预测)
如果这些方向在未来的几年中有显著的进展,我们应该能够看到对话系统、问题回答、自适应机器人控制与规划等相当多AI智能体的出现。
一个巨大的挑战是设计出无监督/预测学习方法,能够使超大规模神经网络不需要通过明确的人工注释数据,而只通过观看视频,阅读教材等,就能“学习世界如何运行”。
这样或许最终会出现对世界有充分认识的机器,而在我们看来他们像是有“常识”的样子。
这可能需要5年、10年、20年或更久。我们并不知道。
人工智能有可能威胁到人类的发展路线是什么?
坦白说,我并不认为人工智能会威胁到人类。但我并非说这不可能,只是让事情发展到那一步实在是很愚蠢。
有些人认为我们必须十分聪明才能避免这种情况发生,但我并不这么认为。
如果我们聪明到能够制作出超越人类智慧的机器,就意味着我们不大可能愚蠢到给它们无限的资源让其能够毁灭人类。
当然,还有这样一个悖论,由于我们只接触过人类智能,机器智能或许根本就不会想要称霸世界或者主宰人类。即使有这种想法,那也只是站在人类的立场上产生的一些想法罢了,而且也只有部分人如此。
即使是在人类中,智慧也与对权利的渴望并不相关。事实上,目前的事件告诉我们,一些智力有限的人才会对权力有过度的渴求(而且从某种程度上看还显得很成功)。
作为一个产业研究实验室的管理人员,我的下属有很多都比我更聪明(我认为我工作的主要目标就是招聘比我更聪明的人)。
人类对彼此做的很多不好的事情都与人性相关。例如当我们感觉受威胁、嫉妒,或是想独占资源时所产生的暴力,以及比起陌生人更愿意相信自己的亲朋好友,这些都是在演化中为了生存而习得的能力。具有智慧的机器不会具备这些能力,除非我们故意为之,但我们为什么要这么做呢?
另外,如果有人故意构建一个危险的通用智能体,那么其他人也能够建立一个不那么通用的智能体,其唯一目的是要摧毁第一个智能体。如果两个智能体的计算资源相同,那么第二个就会获胜,就像老虎、鲨鱼或病毒能杀死智力超越它们的人一样。
对自学深度学习的建议
网络上有很多关于ML的资料、教材和课程,包括Coursera上的授课。
我将更多就深度学习进行回答。你可以通过网上的一些资料和视频,对深度学习有大概的理解。最重要的有:
我和Yoshua Bengio、Geoff Hinton发在Nature上的综述文章,里面有很多引用文献:https://scholar.google.com/citations?view_op=view_citation&hl=en&user=WLN3QrAAAAAJ&citation_for_view=WLN3QrAAAAAJ%3Alo0OIn9KAZgC
Goodfellow、Bengio以及Courville合著的深度学习教材:http://www.deeplearningbook.org/
最近我在巴黎法兰西学院开的一系列共八次关于深度学习的课程。课是用法语讲的,后来被译成了英语:
Coursera上Geoff Hinton的神经网络课程(有点过时了)。
2012IPAM深度学习暑期班课程:http://www.ipam.ucla.edu/programs/summer-schools/graduate-summer-school-deep-learning-feature-learning/?tab=schedule
我2015年在NYU开设的深度学习课程(很不幸,授课视频已下架,但PPT还在)。2017年春我将再次讲授这门课:http://cilvr.nyu.edu/doku.php?id=deeplearning2015%3Aschedule
2015年深度学习夏季学校:http://videolectures.net/deeplearning2015_montreal/
很多材料都普遍集中在使用某种特定的软件平台,诸如Torch、TensorFlow 或Theano。
什么是学习深度学习最有效的方法?
找一个工作成就让你崇拜的人,然后读完他/她的博士生。
你最喜欢的算法是什么?
Backprop。
如何申请加入 FAIR 等一流ML/AI 研究院?
FAIR共有6种位置:
研究员:你需要一个博士学位,有一两年的经验研究(例如,作为博士后)和良好的论文发表记录。这算是相当高的标准。
研究工程师:硕士学位,在以往的研究或工作经历中接触过ML/ AI。通常这些职位是相对初级的,但也有少数高级研究工程师。FAIR大约25〜30%的人是研发工程师。
博士后:是一个1或2年的研究职位,一般直接在读完博士以后申请。
博士研究生:在我们巴黎的实验室,有一种称为“CIFRE”的博士生。这是法国才有的事情,允许博士生大部分时间在产业研究实验室工作,由该公司研究员和大学的教授共同做导师。
实习生:我们接受暑期实习生,有时也学年期间也招收实习生。几乎所有的人都在读博士课程,在欧洲叫“本科+”(undergrad +)