今年 6 月,图灵奖得主、深度学习先驱、Meta 公司首席 AI 科学家 Yann LeCun 发表了一篇长达 62 页的论文,论文阐述了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,并提出了 AI 未来的新愿景。 对于这篇论文的观点,著名 AI 学者、Robust.AI 的创始人兼 CEO 、纽约大学的名誉教授 Gary Marcus 并不认同,并专门写了一篇长文驳斥,以下为全文。
62 岁的深度学习先驱、纽约大学教授、图灵奖获得者兼 Meta 公司首席 AI 科学家 Yann LeCun,又肩负起自己的一项新使命。他的任务,就是从技术缔造者以及思想者的角度,探索如何超越深度学习。
经过一番深思熟虑,他把自己的观点透露给了多家外媒,于是,《Yann LeCun为AI未来大胆勾勒出新愿景》的报道迅速亮相。
今年 6 月初,LeCun 还发布了一份激起热烈讨论的宣言,也对我(Gary Marcus)的差异化研究工作做出回顾,表达了他自己在一系列重要符号处理问题上的立场。
但是,他所谓的“新”主意到底有多新?
读了那篇报道,我的第一反应是震惊。LeCun 提到的一切我之前几乎都曾说过,而且字句甚至都没多大变化——大部分内容来自我在 2018 年发表的《深度学习:一种批判性评价》的论文,LeCun 当时可是嘲讽说此文“大多不靠谱”。
下面我先列出他观点照搬的七个例子,之后再聊聊 LeCun 的观点整体上出了什么问题。
但我不打算指责 LeCun 抄袭,毕竟他可能只是在认识到现有架构的失败之后,很诚实地自己得出了这些结论。我之前的想法,现在终于为他所认清和接受。这对我来说相当于巨大的胜利——毕竟 LeCun 可是非常杰出的研究者,他能认可我的观点非常难得。
但事情到这里还远没有结束。
首先,LeCun 明显想把自己的观点跟我的想法刻意区分开来。他之前公开批评过我的论文,所以这次发言他全程没提到很多想法我早就说过——这其实不大符合学术礼仪,也让人对这位老教授颇为失望。
不仅如此,为了保证我的言论得不到广泛支持,他还在采访中对我进行了无端且毫无客观性可言的攻击。他宣称“Gary Marcus 根本不是搞 AI 的,他其实是个心理学家。他从来没为 AI 做出过任何贡献。他在实验心理学方面做得非常好,但从来没写过关于 AI 的同行评议论文”——这种论断完全错误。
实际上,我在 AI 方面发表过很多文章,有些发表在同行评议的期刊上、有些没有。我最重要的 AI 论文就是关于神经网络实验的,而且在 1998 年就预见到了分布变化与异常值方面的难题——这些难题目前正困扰着 Yoshua Bengio 等研究者。
过去十年来,我发表了不少经过同行评议的 AI 论文,主题涵盖常识、利用不完整信息进行推理,以及模拟/自动推理的局限性等。
其中很多文章还是跟 LeCun 学术阵营中的同事、纽约大学计算机科学家 Ernest Davis 共同撰写的。而我最具影响力的 AI 成果,其实并不是期刊文章,而是 2001 年出版的《代数思维》(The Algebraic Mind ,由麻省理工出版社送交同行评议)。LeCun 在此次采访中表达的一切,在那本书中几乎都有提及。但讽刺的是,LeCun 却总在暗示自己没读过这本书,这实在太可笑了。
也许是 LeCun 的说法太过离谱,引得其他人现身帮我辩护。就在我撰写本文的同时,Vmind.AI 公司 CEO Miguel Solano 发表了推文来支持我:
Miguel Ignacio Solano @miguelisolano @GaryMarcus @ZDNET @TiernanRayTech @ylecun 确实如此, @ylecun. @GaryMarcus 的《代数思维》(麻省理工学院出版社,2001 年)得到过 868 次引用,而且他肯定发表过 AI 文献: scholar.google.com/scholar?cites=…-2022 年 9 月 25 日
Henning Schwabe 的表达则更加尖锐:
Henning Schwabe @SchwabeHenning @ylecun 的攻击并不公平,就连最支持深度学习的人也要站出来说两句了。 @GaryMarcus 是个很好的盟友,大家应该团结起来共同推动技术发展。过度自我永远是理性的敌人。
Dagmar Monett @dmonett 我在 @Eric_Sadin 的《世界的芯片殖民化》(2016/2018)中找到了对 LeCun 行为的解释。详见图片和翻译。@ZDNET 的采访也再次证明了这一点,让我们感受到了 LeCun 如何粗暴鲁莽地指摘其他学者的工作。😳 https://t.co/qy3WrIcJAb https://t.co/KlPXhYjNxM —— 2022 年 9 月 25 日
研究生有时候爱用学分来证明自己。Harold Bloom 还专门写过《焦虑的影响》(The Anxiety of Influence)一书分析这种心态。但直到现在,我才在 LeCun 这个量级的大咖身上看到同样的毛病。
而且不是一次,是一次又一次。
LeCun 最近发表的每篇论文,都是在用自己的方式否定自己的过去。
其中一篇文章谈到了符号处理这个老大难问题。简单总结一下,LeCun 在很长一段职业生涯中都在抨击符号处理。他的研究合作伙伴 Geoff Hinton 也是一样,二人在 2015 年共同撰写的深度学习评论最后提到,他们“需要新的范式来取代基于规则的符号表达处理。”
现在,LeCun 又开始支持符号处理了(符号处理的概念不是我发明的,但我 30 年来一直都表示支持),而且表现得好像这是他刚刚发现的新趋势一样。但 LeCun 所说的“每位深度学习从业者都认为,符号处理是创建类人 AI 的必要一环”,其实就是过去几十年来无数研究者的探索方向。所以连一直支持 LeCun 的斯坦福 AI 教授 Christopher Manning 也表达了震惊:
Christopher Manning @chrmanning 我感觉 @ylecun 的立场似乎有所变化——可能是受到了 Browning 的影响;新的文章提到,“每位深度学习从业者都认为,符号处理是创建类人 AI 的必要一环。”但十年前可不是这么说的呀,或者现在大家真的都这么认为了?!? —— 2022 年 7 月 28 日
在我一一列举出这些问题时,LeCun 并没有做出正面回应,而是转发了来自合著者 Browning 的一段莫名其妙的反驳:
Browning.jake00 @Jake_Browning00 来自 @GaryMarcus 的回复已经看到,但我们不同意他的观点,或者说不同意他所指出的分歧。不过我觉得,解决困难问题时难免会出现种种分歧。Noema Magazine @NoemaMag 长达十年的 AI 辩论终于要解决了吗?@garymarcus 似乎看到了结束的迹象。现在,“我们终下载可以专注于真正的问题:如何让数据驱动的学习与抽象符号表示统一起来。”https://t.co/QtaxfAEWdv ——2022 年 8 月 14 日
但对我提出的一条条反驳,他们完全没做出任何具体评论。
LeCun 最近发表的另一篇文章谈到了一个重要问题,即大型语言模型是否真的走上了通往人工通用智能的正确道路,包括人是否真能单靠语言表达就掌握足够的常识。
LeCun 和合著者 Browning 提出了强有力的论断,认为单凭语言输入(也就是 GPT-3 训练模型之类的成果)还不够。他们专门写了一篇题为《AI和语言的局限》的文章,认为“单靠语言训练的系统既从现在开始一直训练到宇宙热寂,也永远不可能接近人类的智慧。”
但他们这个观点仍然不是原创。我在 2020 年 2 月《AI的下一个十年》一文中也提出过相同的问题:
等待越来越大的语言训练语料库中自动孕育出认知模型和推理能力,就像是在等待神迹的出现……——这几乎跟 LeCun 和 Browning 的结论完全相同。
这还没完呢。
下一个关键问题,就是我们到底该怎么做。我们没法单靠大型语言模型来真正解决 AI 问题,所以我就在 2020 年 1 月提出:
像 GPT-2 这样的系统无论自身功能表现如何,都不具备任何明确(即无法直接表示、无法简单共享)的常识知识、推理能力和确切认知模型。
之后是 2020 年 2 月:
花在改进大规模单词级预测模型上的每一秒钟都是浪费,不如用在开发有望实现推导、更新和推理认知模型的技术上。
听起来是不是很耳熟?LeCun 在最新采访中宣扬的,也是与认知模型相结合的相同观点。
而我在 2019 年第一次提出这个观点时,猜猜谁马上跳出来喷我?对,就是 Yann LeCun。
我当时写道:
Gary Marcus @GaryMarcus 像 GPT-2 这类系统的最大问题并不在于能不能理解数量(@ylecun 的意见恰好相反),而是没能发展出能准确表示事件如何随时间展开的清晰 w 数。这个问题单靠堆数量是解决不了的:
Yann LeCun @ylecun @StanDehaene @GaryMarcus 实际上,接受过数量处理训练的机器确实学会了处理数量。Gary 总说通过训练来预测缺失单词的机器掌握不了数量的概念,呸!2019 年 10 月 28 日 这其实就是在用另一种表达,强调大型语言模型缺乏认知模型的问题。
当时,LeCun 还说我的论证在根源上就错了:
Yann LeCun @ylecun @GaryMarcus 是错的。咱们看看: arxiv.org/abs/1612.03969其中表二:第 7 行(计数)和第 14 行(时间推理)都获得了 0 错误率(在 bAbl 任务中)。你在抛出论点的时候,最好搞清楚你的论据三年之前就已经站不住脚了。 —— 2019 年 10 月 28 日
现在他的想法变了,于是之前说过的话就如同没说。他也开始强调认知模型的重要意义,又反“捅”我一刀,坚称这是他的独创观点。
所以我当然有理由生气,而且也有其他同行在为我打抱不平。
深度学习先驱、广泛应用的 LSTM 神经网络创造者 Jürgen Schmidhuber 最近也在推特上提到:
Jürgen Schmidhuber @SchmidhuberAI Lecun (@ylecun)在 2022 年关于自主机器智能的论文中把老观点复述了一遍,但却丝毫没提到这些内容早在 1990 年到 2015 年的研究中就已经存在了。我们已经发表了他口中的那些“重要原创贡献”,包括:学习子目标、可预测的抽象表示、多个时间尺度等。
LeCun2022 年发表的新论文其实是对 1990 至 2015 年间原有成果的“洗稿”,例如 1990 年:梯度下降学习子目标;1991 年:多个时间尺度与抽象级别;1997 年:学习可预测抽象表示的世界模型…… —— 2022 年 7 月 7 日“复述却不引用”——这可以说是对其他学术研究者最大的冒犯了。
LeCun 的新宣言总体上还是出于良好的动机,呼吁将“可配置的预测世界模型”纳入深度学习。我也一直强调应该这么做,但最早提出这一理念的是 Schmidhuber。作为 1990 年代的深度学习先驱,他也一直在为此而努力,但 LeCun 对此甚至不愿提一句感谢。
LeCun 的妄言已经在推特上激起波澜。
德国计算神经科学家与 AI 研究员 Patrick Krauss 也在推文中嘲讽:
Patrick Krauss @Krauss_PK 哇哦,AGI 终于实现了! 😂 @ylecun 发现了迄今为止深度学习中缺失的环节:常识和世界模型! technologyreview.com/2022/06/24/105…@GaryMarcus @maier_ak
Yann LeCun 对于 AI 未来的大胆设想,其实是把当初深度学习先驱们的观点汇总了起来。但尝试回答问题的同时,这又生成了很多新的问题。 —— 2022 年 6 月 25 日
今天早上,Lathropa 发布了更加尖锐的批评。大家都知道,我在 2022 年 3 月发表的《深度学习正走进死胡同》(https://nautil.us/deep-learning-is-hitting-a-wall-238440/)一文受到了 LeCun 的猛烈抨击。
现在几个月过去,他怎么想法又变了呢?
Lathropa @lathropa@GaryMarcus @MetaAI @ylecun “好吧,我们造了把梯子,但我们想要登月,而靠这把梯子显然登不了月。”LeCun 说他希望重新审视深度学习的基本概念,“似乎是说他的方法走进了某种形似死胡同的空间”…… -2022 年 9 月 25 日
我实在没从 LeCun 的采访中看到什么真正的新东西,所以昨天专门邀请他在推特上做出解释。他暂时还没回复,让我们拭目以待。
原文链接:
https://garymarcus.substack.com/p/how-new-are-yann-lecuns-new-ideas
领取专属 10元无门槛券
私享最新 技术干货