【新智元导读】Facebook的“十年路线图”,人工智能成为重中之重。作为“后来者”的Facebook凭何赶超谷歌和微软等在人工智能已经遥遥领先的公司?本文深入Facebook人工智能最核心的两个部门:LeCun的FARI和Candela的AML,一个负责研究,一个负责应用,从某种程度上代表了学术和产业的矛盾,LeCun 如何平衡?文章认为,开放或封闭是Facebook能否在AI上获得成功的一个关键,更多的开源才会带来更多的人才。
Facebook的公司文化盛产口号,不少还都挺流行的,比如扎克伯格和其他高管常挂在嘴边的“代码胜过争论”、“快速行动,破除陈规”和“完成比完美更重要”。
在纽约办公室墙上,有一句口号完美地诠释了Facebook人工智能和机器学习带头人Yann LeCun的领导哲学——保持开放(Alway be Open)。人工智能现在Facebook中的比重已经相当大。这一技术现在已经用于在照片中识别人脸和修正信息流推荐等。上周,Facebook推出了文本理解引擎DeepText:“准确率接近人类”,每秒能读几千条贴子,通晓20种不同的语言。很快,多种语言间的自动翻译将得以实现。
后来者能否居上?
Facebook的野心是统治AI和机器学习,正如这家公司在社交网络和即时通讯中所做的那样。目前为止,Facebook已经聘用了超过150名员工,专门负责这一领域的开发。Facebook称,对相关研究的投入已经翻了三倍,虽然具体数额并没有透露出来。
在计算机领域,如果说上一个王朝是移动云的话,那么下一个将会是AI,Nvidia CEO Jen-Hsun Huang在接受采访时说。Nvidia与Facebook在开放资源硬件的设计上有合作。
在接下来的20年内,AI将会是计算领域最重要的发展,现在,Facebook等公司正全力展开竞赛,以确保拥有AI核心竞争力。但是,鉴于Facebook只是在近三年才真正踏入这一领域,仅仅有钱还不足以保证竞争力,因为这是当下最火热的科技领域之一。“他们(Facebook)属于后来者”,华盛顿大学计算机科学教授、《主算法》(The Master Algorithm)的作者Pedro Domingos说,“谷歌和微软等公司现在遥遥领先”。在扎克伯克宣布计划研究智能管家时,这些公司已经在开发智能软件了。
微软从1991年开始就在研究机器学习,在先关的领域,这家公司有近千名科学家和工程师。Google Assistant是谷歌深度学习研究的核心,正在成为公司大多数app和服务的前端大脑。2014年,中国的搜索引擎巨头百度挖走了谷歌深度学习项目的领头人Andrew Ng。此外,特斯拉创始人马斯克和其他科技巨头联合创建的OpenAI现在已经获得了10亿美元的投资。亚马逊的CEO贝索斯在Code大会上说,亚马逊已经暗自研究AI已经有4年了,现在已经有近千人在开发公司的语音识别生态系统。苹果和Uber也在人工智能上投入重金,争夺人才。
所有的这一切都得益于AI领域一波显著的创新,其中一些就来自LeCun,他也被认为是该领域成就最大的人物之一。LeCun加入Facebook后,让这家公司告别了没有正式的研究室的日子,并且一下设了两个:一个是由Lecun领导的人工智能研究项目(FAIR),主要负责基础科学和长期研究;另一个是西班牙人 Joaquin Candela领导的机器学习应用部门(AML)。Candela是一个有着丰富经验的机器学习专家,在剑桥大学开设了相关课程。他的团队主要负责把最新的技术应用到既有的Facebook产品上。
这两个部门是独立的,LeCun和Candela都对Facebook的CTO Mike Schroepfer汇报。现在的难题是,如何让这两个部门合作,把长期的科技研究的成果应用到近期的商业计划中去。
最简单的一个办法是:让两个团队坐在一起办公。“他们需要建立私人关系”,LeCun说,“同时,他们需要真正的紧密的合作。”在Facebook,这两个团队可不仅仅是坐在一起,他们还位于整个公司的核心部分,离扎克伯格和 Schroepfer仅有几步之遥。事实上,这也显示了AI和机器学习在公司的价值。
但是,仅仅是办公位置靠得近,并不会让你为科研项目争取资金的任务变得更加容易。要理解LeCun和Candela是如何做到的,你首先要了解这两人究竟是何方神圣。
FARI:研究70% 研发30%
LeCun办公室门口的logo Photo: Daniel Terdiman
纽约大学计算机系 Yann LeCun 办公室门前贴着一幅Facebook 风味的蓝色“竖起拇指”logo 。LeCun 是深度学习领域最杰出的专家之一 。这个 logo 并不是 LeCun 自己贴的。这会儿,LeCun 正穿着一件海军蓝 polo 衫,上面绘着爱因斯坦头像和“思考”二字。他笑着解释说,两年半之前,当他宣布要加入 Facebook 时,就有人把这个“竖拇指”logo 贴在了他的门上,自此他也从未把它摘下。
Yann LeCun Photo: Celine Grouard for Fast Company
LeCun 今年55岁,他现在仍然是纽约大学计算机系兼职教授,而学校离Facebook 办公室只有几步之遥。在人群里,你很难辨认出这位在全球最大的社交媒体公司中引领人工智能壮志的人——而且,他第一次乘坐 Telsa 轿车的体验还是和 Elon Musk 一起度过的。
如果你曾经用 ATM 存过钱,那你大概已经体验过 LeCun 的研究成果了。LeCun 是深度学习的分支——卷积神经网络的创始者之一,是人工智能界的名人。因为,LeCun 等创造的 ConvNets 为研发可规模化的自动自然语言理解和图像识别、语音识别和视觉搜索系统等工具提供了基石。而这些工具对Facebook、谷歌、百度、微软等公司都具有巨大的价值。LeCun 在该领域中的工作专注于这样一些模型,这些模型能重现生物视皮层的工作方式。
LeCun 有很大的权力,他能以他认为合适的方式来打造Facebook人工智能研究实验室,为这个原先只有十几名人工智能研究人员的实验室雇佣新人、进行组织。Zuckerberg 和 Facebook CTO Schroepfer 之所以赋予 LeCun 如此大的权力是有原因的:LeCun 曾在贝尔实验室工作了 14 年,他已经养成出了一种直觉,知道什么可行、什么不可行;他也曾长期思考,如果有机会的话他将如何建立一个全新的研究性实验室。
LeCun 相信,他成功的关键在于投身于开放性。LeCun 过着业界和学界的双重生活,因为他坚持这样的原则:一个研究者应该发表其作品以让所有人阅览,应该参加会议、与学界广泛互动,并在 GitHub 这样的开源服务上发表代码。
“我曾经见过,我的许多朋友离开了具有开放性文化的实验室,加入了大型科技企业,他们试图改变企业的文化,但都失败了。”LeCun 说。在他加入 Facebook 之前,他问 Facebook 的第一个问题便是,Facebook 是否真的会保持对开源世界和开放性文化的承诺。
LeCun 也希望能在做研究和把研究转化成产品这二者之间取得平衡。他感到,许多科技公司都很难做到这一点,很难在不让其研究者失去对研究的专注的同时,保持研究与产品的平衡。或许,这方面最臭名昭著的例子是当年硅谷的传奇企业 Xerox PARC 研发的图形用户界面工作;乔布斯 1979 年访问了该公司之后,把它应用于苹果公司的 Lisa 电脑,随后又应用于 Macintosh 电脑,而 Xeron PARC 自己却未能在商业上获益。
LeCun 曾见过一种失败的模式,这种模式被称为“混合研究”(hybrid research),在这种模式中,科学家被嵌入到工程团队之中。这么做通常会阻碍科学家的创造力。另一种失败的模式是把研究者们藏在象牙塔中,不与公司其他人进行多少交流;这么做可以为公司带来名望,但没什么别的好处。
LeCun 了解这一点。从 2002 到 2003 年,他在著名的日本电气(NEC)普林斯顿实验室工作。日本电气建立了这家高级研究实验室,但并不要求实验室去影响产品。LeCun 说,“公司从不要求实验室去为公司创造任何产品。然后有一天,公司突然开始这么要求。他们告诉研究人员,你们若能生产出一些公司能用的东西,那样才好。结果,大家纷纷辞职——包括我。不可能打破做研究和研发产品之间的隔阂。”
在 LeCun的领导下,Facebook 于 2013 年 12 月建立了人工智能研究实验室(FAIR),专注研究人工智能和机器学习领域的长期问题。Facebook 知道,为了让该团队既能致力于长期发展,又能取得短期成果,它必须让一些科学家和工程师去发展那些多年后才能影响产业的新技术,而让另一些人去研究能直接影响当前产品的技术。LeCun 估计,实验室中大约 70% 的工作是做研究,而 30% 的工作是近期技术研发。
LeCun 解释说,“我们更倾向于外向型的研究。因此我们把我们做的许多东西都发表了出来,也开源了大量代码。因此,我们真的是研究社区的一部分,因为我们真的希望能把技术和科学进步都推进到极致。我们要确保,我们具有相关的专长,并能掌握目前最先进的技术,在相应方向上驱动进步。”
FAIR 团队 成员 Antoine Bordes, Yann LeCun, Laurens van der Maaten, Leon Bottou, Y-Lan Boureau, Soumith Chintala Photo: Celine Grouard for Fast Company
该团队的目标是雄心勃勃的:他们要教机器学会常识——在本质上让机器能够像婴儿或动物一样进行学习。LeCun 说,人工智能研究实验室目前最大的项目是对对话系统的自然语言理解。这一项目将成为Facebook 的智能语音助手的基础。
显然,每家科技巨头都希望能成为语音助手方面的领导者。最著名的例子是苹果的 Siri。微软开发了 Cortana,亚马逊开发了 Alexa,而 Siri 的早先版本的开发团队则开发出了 Viv。
Facebook 也有智能语音助理方面的计划,例如一年前它建立的 Facebook M 计划。LeCun说,人工智能是智能助理的核心,因为为了让系统能在“现实中成功回答任何问题”方面带来改变,系统必须具有常识。
“这意味着,我们如何让机器通过观察世界来进行学习,”他说,“而不是去刻意训练机器去辨认厕纸、汽车、手机和其他物品。”
目前,还不存在能让机器具有常识的技术。LeCun 相信,不能通过直接进攻的方式来解决这个问题。相反,我们需要弄清楚,如何让机器能够理解文本;而这又意味着教机器学会足够多的关于世界的背景知识,这样机器才能理解文本。
“如果我说‘ 奖杯装不进箱子里,因为它太小了’,你就会知道‘ 它’是指箱子,而不是指奖杯。因为你知道,把一个东西装入另一个东西是什么意思。 ”
机器还理解不了这一点。而 Facebook 人工智能研究实验室的长期目标之一便是让机器获得这一水平的理解能力。
当机器获得了复杂常识和文本理解能力,这将不仅为语音助理带来巨大影响,而且会影响到自动语言翻译。Facebook 将语言翻译也视为其核心工作,因为 Facebook 用户正在变得越来越国际化。
“翻译非常重要。”LeCun说。“Facebook 的主要使命是连接众人,而为此你要做的第一件事便是确保,人们能够通过翻译进行有效的交流。
开源成为招贤纳士的关键
AML的目标是“提升把产品影响力做到最大的能力”,是“科学研究与产品影响之间的黏合剂”。
为排名、广告、搜索、翻译、语音识别、视频字幕自动生成、自然语言理解等应用开发更好的算法,是AML一直在努力的方向。
Joaquin Candela Photo: Christophe Wu, courtesy of Facebook
Candela 此前曾在微软研究院有过5年的经验,也在德国著名的 Max Planck Institute工作过,后到 Facebook 担任工程经理,领导一个负责机器学习基础架构的团队。在最开始组建AML时,Candela希望能避免他所看到的其他应用研究实验室所犯的错误。他说:“在从科学到工程的转化中,我见过许多导致没能找到最优选择的例子。”
这些错误包括:实验室和工程团队的联系太少、研究员不太关注产品效果。
LeCun的团队花在研究上的时间是70%,而Candela的团队正好相反,只有30%,他们大部分的时间花在把研究应用到可部署的产品上。Candela说,他的团队对项目的规划都是以季度或月来计算,通常以6个月为节点来组产品计划,虽然目前团队大多数的工作是“计划从现在起两年内,我们要到达什么目标”这样的事。而LeCun他们的目标,都是5或者10年这样的时间跨度。
虽然两个团队的工作有分别,但是Candela和LeCun都同意:追求开放会让他们获得更大的成功。CTO Schroepfer 也同意这一观点。在践行开放哲学上,Facebook确实做了一些事实。Schroepfer 说,除了硬件和数据中心的开放以外,Facebook的工程师已经发布了超过1000万行开源代码,此外,在Github上还有350个活跃的项目。
对开放性的追求已经成为招贤纳士的关键。“顶尖的科学家想到哪儿去工作?”Candela问,“当然,他们想要和一些有相同思想境界的人一起工作。那么他们怎么知道我们这有没有这样的人?他们可以看我们都做了什么,看我们发布了什么。你在开源的项目中可以看到科学家们在尝试解决什么问题,他们又是怎么做的。”
Hussein Mehanna, Joaquin Candela, Tommer Leyvand, and Vincent Cheung
Photo: Christophe Wu, courtesy of Facebook
AML最新的一个团队是计算机图像,由Rick Szeliski和几位研究员组成,他们去年10月从微软跳槽过来。这一团队将主要负责视频业务,其中包括360度视频以及怎么帮助人更好地自拍,怎么让人们更好地在手机上组织可视化内容。
Szeliski 在微软研究院主要负责交互视觉媒体,他说:“我们选择Facebook是因为这就是照片产生的地方,是数据产生的地方。这里有大量的我们可以分析的东西。我们每天都能处理像素,取悦用户,让他们高兴,从而拍更多的照片,分享更多的信息。所以,这并不仅仅是照片所在的地方,这是照片流动的地方。“
技术的价值不在技术本身
“流动”是在Facebook常常能听到的一个词。很多时候,这个词指的是“FBLearner Flow”, 这是AML创建的一个端对端的研究和设计渠道。从某种程度上来说,对于测试和分享机器学习,这是一个杀手级的应用。虽然目前,还只能在内部使用。这也是一个平台,Facebook内任何对AI或者机器学习感兴趣的人都可以在上面发布自己的工作成果,让其他工程师可以在自己的项目中使用。”
“假如我们有一些新的广告团队,需要把广告加入到贴文中去,但是团队内并没有太多的机器学习经验”, Candela 说,“那么工程师就可以到Flow中去,在整个公司中,找一些简单的试验和产品模型,利用起来。我常常鼓励员工去请求、去接或者‘偷’。没必要重新再造一个轮子。”
Flow还是一个在可控环境下测试新的功能的平台。“这是一件美妙的事情”,Candela说,“这是一个能把你从研究带到实际的试验的地方,如果我们正在做的试验有1%在交互,并且看起来还不错的话,我们就开始把它推向所有人。”
Flow广泛的实用性使得Facebook中不仅是AI团队,甚至所有的工程师都开始在使用这一工具。Flow也是Facebook在内部实践开放性的最佳代表:所有的员工都可以看到。
Facebook动态的、长短期结合的研究让其在AI和机器学习领域赢得了不少声誉,但是这并不能保证这家公司能实现CEO 扎克伯克所许下的10年战略雄心。能导致失败的原因很多,其中最明显的一个是——隐私。随着Facebook的用户逐渐意识到自己的照片、文字会在多大程度上被分析,并进一步地影响到自己的生活,他们可能会有所顾虑。
还有一个问题来自财政:Facebook的管理和董事层对AI花费的回报率的要求是多少?
Schroepfer坚称,Facebook的管理层并不担心FAIR和AML的回报问题,他说,我们并不会花心思去计算ROI。
但是,考虑到几位领导人——LeCun, Candela, Schroepfer 都十分强调开放的关键性,如果条件发生改变,几位领导人会趋于保守吗?
“如果他们偏离了这个,正如过去所做的那样,那么他们将很快失去在研究上的优势”,深度学习另一位领军人物Yoshua Bengio评价说,“在某些时候,公司会自然地催促研究员短期内出成果,这对实验室是有害的,对公司自身长期的发展也是如此。”
Bengio补充说,要解决这一难题,就应该有一些比较强的人,比如LeCun,作为产品开发者和研究者的缓冲,保证不会有太大的压力,要在短期内出成果。
“但是(对于Facebook来说),未来,这将是一个持续的难题,因为来自短期目标的压力其实一直都是存在的。”
LeCun自己也意识到这一问题。他说:“目前为止还没有人强迫我们去证明自己存在的价值,在几家公司的实验室经历了起起伏伏后,我知道除非你可以用事实来说明,你为公司做了什么,为什么你花掉了这些钱,要不,这个问题会一直存在。
这也是为什么 LeCun 和 Candela在建设自己的实验室时都如此小心翼翼,以能把成功的希望最大化的方式在推进。
“你对团队内要做的事情规划得越清晰,你要做的事情就越少”,Schroepfe说,“你如果要求做10件事,他们可能会把其中的3件做得很好,然后剩下的7件很烂。所以你最好希望他们能选到那三件对的事。但是,如果团队只做一件事,你就可以看到事情是怎么做的。现在,我们有两个基本的问题要解决:“研究未来,以及,找到当下产品能够应用的途径。”
这意味着要在整个团队内找到高效的途径,来分享创意。“理想的场景,也就是我们在努力的方向”,Candela说,“就是构成一种循环,AML的人会加入FARI,反之亦然。
这确实是在发生。Candela说, Facebook的人脸识别团队最先是在FAIR起来的,后来,因为工作跟产品相关度比较大,转到AML门下。计算机视觉团队也是如此,其领导人Manohar Paluri现在仍在两个团队间来回转换。
此外,Candela还举了机器翻译团队的例子:机器翻译团队的研究员先是在AML工作,但是对神经网络研究非常感兴趣,后转到FAIR。
LeCun提到,一个实验室开发的基础设施,可能也会转移到另一个实验室。比如,最近公布的DeepText就是AML直接从FAIR所做的工作中拿过来应用的。其中涉及的技术包括,使用卷积神经网络和其它深度学习技术来对文本分类、理解文本。
“(在Facebook)你在现实和虚拟中都会有最好的收获”, Paluri 说,“你会发表学术论文,参加学术会议,对科技作出贡献。同时,你也会看到,你的工作如何影响10亿多人。”
一些人担心,开放会带来商业上的风险,但是LeCun否定了这一说法。Facebook能从外部的的工程师上获益,因为如果这些人非常优秀,Facebook可以聘用他们或者直接采纳他们的成果。
“如果其他人使用我们的技术,这没什么,因为技术的价值几乎不在技术本身”,LeCun说,“价值在于,我们用自己所在的市场地位对其进行开发。在社交网络业务上,我们做得很大。所以如果我们创造了一种可以应用的技术,我们将会是最快利用的”。
但是,“如果我们没能在他人之前利用好这些技术,那就是我们的问题了”。