来源:AI科技评论本文约4100字,建议阅读7分钟寻找人工智能中的常识(common sense)是比关注语言更重要的任务。
前段时间,谷歌工程师声称自家的 AI 聊天机器人 LaMDA 具有了意识,引发了一片混乱。
LaMDA 是一种大型语言模型(LLM),能够基于任何给定文本预测出可能出现的下一个单词。许多对话在某种程度上都很容易预测,所以这种系统可以推动并保持对话流畅地进行。LaMDA 在这一点上表现非常出色,以至于这位叫 Blake Lemoine 的工程师开始怀疑它产生了类人的知觉。
随着 LLM 越来越普遍,变得越来越强大,人类对 LLM 的看法也越发不同。的确,如今的系统已经超越了许多“常识”语言推理的基准,但很多系统仍然缺乏常识,很容易出现胡说八道、不合逻辑和危险的建议。所以这就引出了一个很矛盾的问题:为什么这些系统如此地智能,同时又如此地具有局限性?
最近,图灵奖得主 Yann LeCun 与纽约大学的博士后研究员 Jacob Browning 在 Noema 杂志上共同发表了一篇文章,对这个问题给出了回答:
根本问题不在于 AI 本身,而是在于语言的有限性。
他给出了这样的论证:
1.语言只承载了人类全部知识的一小部分。
2.大部分人类知识和所有动物的知识都是非语言的(非象征性的)。
3.因此大型语言模型无法接近人类水平的智能。
显然,LeCun 认为我们应当摒弃关于语言与思维之间关系的旧假设,即语言与思维具有同一性。在他看来,这些语言系统天生就是「肤浅」的,即使是地球上最先进的 AI,也永远不可能获得人类所具有的全部思维。
这种观点实际上否认了图灵测试的有效性。图灵测试的基础是,如果一台机器说出它要说的一切,就意味着它知道自己在说什么,因为知道正确的句子以及何时使用这些句子会耗尽它们的知识。
LeCun 首先从语言哲学的角度谈起,来阐释图灵测试的思想基础及其不合理之处。
1、AI 并不理解自己在说什么
19 世纪和 20 世纪的语言哲学认为,“知道某事”就意味着能够想出一个正确的句子,并知道在我们所知的真理大网络中,它是如何与其他句子联系起来的。按照这种逻辑,理想的的语言形式便是一种数理逻辑的纯形式化语言,它由严格的推理规则连接的任意符号组成。但如果你愿意花点力气去消除歧义和不精确性,那使用自然语言也可以。
语言哲学家维特根斯坦曾说:“真命题的总和就构成了自然科学的整体。”长期以来,人们都深信,逻辑数学、形式化是语言的必要基础。在 AI 领域,这种立场的体现便是符号主义:我们所能知晓的一切都可以写在百科全书中,所以只要阅读所有内容就能让我们对所有事物都有全面的了解。在早期,这种根据逻辑规则以不同的方式将任意符号绑定在一起的操作成了人工智能的默认范式。
在这种范式下,AI 的知识就是由大量的真实语句数据库组成,这些句子通过人工逻辑相互连接起来。判断 AI 是否具有智能的标准,就是看它是否能在正确的时间“吐”出正确的句子,也就是看它能否以恰当的方式来操纵符号。这便是图灵测试的基础。
但 LeCun 认为,将人类专业知识提炼成一套规则和事实证明是非常困难、耗时且昂贵的。虽然为数学或逻辑编写规则很简单,但世界本身却是非常模棱两可的。
所以在 LLM 问题上,LeCun 并不认同图灵测试所基于的思想,他认为:机器可以谈论任何事情,这并不意味着它理解自己在说什么。因为语言并不会穷尽知识,相反,语言只是一种高度具体且非常有限的知识表征。无论是编程语言、符号逻辑还是自然语言,它们都具有特定类型的表征模式,都擅长在极高的抽象层次上表达离散的对象和属性以及它们之间的关系。
所有的表征模式都涉及对关于某事信息的压缩,但压缩所留下和遗漏的内容各不相同。语言的表征模式处理的是更具体的信息,例如描述不规则的形状、物体的运动、复杂机制的功能或绘画时细致入微的笔触,如果要描述一个冲浪事件时,还要考虑特定语境中的动作。
另外还有一些非语言的表征方式,它们可以用一种更易于理解的方式来传达信息,比如象征性的知识,包括图像、录音、图表和地图等等。在经过训练的神经网络中发现的分布式知识也是如此。
2、语言的有限性
LeCun 认为,语言表征图式的特点是它传递的信息非常少,这也是它具有局限性的原因。
从信息传输的角度看,语言传输信息的带宽非常低:孤立的单词或句子,没有上下文,传达的内容很少。在语言学家看来,自然语言也从来不是一种清晰明确的交流工具,由于同音异义词和代词的数量众多,很多句子都非常有歧义。
那么,自然语言是不是就非常妨碍我们表达自己的思想呢?显然不是。LeCun 指出,人类并不需要完美的交流工具,因为我们对许多非语言有共同的理解。我们对一个句子的理解通常取决于我们其上下文的更深入理解,从而推断出这个句子所要表达的含义。
在谈话中,对话者通常有相同的知识背景。比如你和朋友谈论眼前正在播放的足球比赛,或者一个人在其扮演的特定社会角色下进行某种目标明确的交流,如消费者从服务员那里点菜。
在阅读情境中也是如此,研究表明,儿童对当前话题的背景知识的多少是理解一个句子或段落的关键因素。而 AI 在这种常识性语言测试中的表现并不好。
LeCun 由此指出,单词和句子的所在语境是 LLM 的核心。神经网络通常将知识表示为一种叫做「know-how」的能力,即掌握高度上下文敏感的模式并找到规律(具体的和抽象的)的熟练能力。在特定任务中,以不同的方式处理输入,需要应用这些规律。
具体到 LLM 中,这涉及系统在现有文本的多个层次上的识别模式,既可以看到单个单词在段落中是如何连接的,也可以看到句子之间如何连接在一起以构成更大的段落。所以,LLM 对语言的掌握一定是上下文相关的。它对每个单词的理解不是根据其字典含义,而是根据它在各种句子中的作用来理解。
所以,LLM 应当是什么样?LeCun 的观点是,LLM 的训练目标应当是让它可以了解每个句子的背景知识,观察周围的单词和句子来拼凑出正在发生的事情。这样它就可以无限可能地使用不同的句子或短语作为输入,并以合理的方式来继续对话或续写文章。在人类写下的文字段落上进行训练的系统,会经常相互交谈,所以它们应当具备展开一段有趣对话所需的一般性理解。
3、LLM 理解粗浅
不少人不愿说 LLM 的行为是「理解」,也不愿意认为LLM是「有智能的」,批评者们认为 LLM 只是在进行某种模仿,这样想的确有道理。因为 LLM 对语言的理解虽然乍一看很厉害,但实际却很肤浅。这种粗浅的理解似曾相识:教室里的学生个个都在高谈阔论,却都不知道自己在说什么——他们只是在模仿教授或自己阅读的文本说话,模仿得很像而已。
这恰恰体现了真实世界的属性:我们常常不知道自己其实所知甚少,尤其是基本没从语言里获得什么知识。
LLM 对一切事物都抱有这种肤浅的认识。像 GPT-3 这样的系统通过屏蔽句子/文章中可能出现的单词,让机器猜测最有可能出现的单词,最后再纠正错误的猜测。这个系统最终会被训练得能够熟练猜测最有可能出现的单词,于是乎便成为了一个有效的预测系统。
但是,从语言上解释一个概念的能力不同于实际使用该概念的能力。系统可以解释如何进行长除法运算,但却无法完成长除法运算;系统也能够解释哪些词是不应该说出口的冒犯词汇,然后毫无压力地说出口。语境知识体现在背诵语言知识的能力上,却没有体现在处理问题的能力上。
而对语言使用者来说,处理问题的能力才是必不可少的,但是能够处理问题并不意味着他们具备相关的语言技能。这个情况在很多地方都有体现,比如科学课会要求学生演讲,但学生得到的分数主要还是基于他们的实验效果。尤其是在人文学科之外,能够谈论某事往往只停留在表面,还是让事情顺利运转起来的技能更有用、更重要。
一旦我们深入到表面以下,就更容易看到系统的局限性:它们的注意力持续时间和记忆大致只够一段文字。如果我们是在跟 LLM 对话,那这一点很容易被忽略,因为在对话中人倾向于只关注最后一两个回复和即将获得的回复。
但是,处理更复杂的对话的技能,比如积极倾听、回忆之前的对话、坚持谈论一个话题来表明某个特定观点,同时避开干扰等等,这些技能都需要系统有更强的注意力和更大的记忆容量。这便进一步削弱了系统的理解能力:我们可以轻易采用每隔几分钟换种观点、换说另一种语言等方式去欺骗系统。如果回答你必须得回溯太多步骤的话,系统就会从头开始,接受和旧评论一致的新观点,跟着你换一种语言或者承认自己相信你说的任何话。要形成一种连贯的世界观所必需的理解远远超出了系统的能力范围。
4、语言之外
放弃「所有知识都是语言知识」的错误观点,可以让我们意识到有多少知识是非语言知识。书籍中记载了许多我们可以使用的信息,说明书、论文图表、城市地图也有同样的用处。除了文字体现出的信息,自然特征、人造产品、动物和人类的心理、生理特点都充满了可以被人类利用的信息。
这说明在语言之外,这个世界本身就向人类展示了大量的信息,可供人类探索并使用。
同样的,社会习俗和割裂仪式可以仅仅通过模仿向下一代传递。人类的很多文化知识都是标志性的,只是看着就可以传递下去。这些微妙的信息模式很难用语言表达,但收到信息的人仍然可以理解。就此可以看出,非语言理解对于人类的发展来说十分重要。
LeCun 指出,被记录在文字中的人类知识并没有很多,在灵长类动物的交流中也几乎捕捉不到非人类灵长类动物的知识。
我们之所以认为语言重要,是因为语言可以用小格式传达很多信息,尤其是在印刷术和互联网出现之后,语言可以复制信息并广泛传播。但是压缩语言中的信息并不是没有代价的,这需要我们花费大量的精力来解码信息密集的段落。比如,人文学科的课程可能需要学生做大量的课外阅读,或者大量的课堂时间都得花在复习困难的文章上等等。虽然信息提供到手上了,但是要想对信息进行深入的理解仍然是很耗时的。
这也就解释了为什么经过语言训练的机器能知道的这么多却又懂得这么少。机器获得了人类知识的一小部分,但这一小部分人类知识可以是关于任何事情的。这就有点像镜子了,系统给人一种很深的错觉,又可以反射几乎任何东西。但问题是,镜子只有一厘米厚, 如果我们试图进去探索,就会撞到脑袋 。
可以看出,人类有了深刻的非语言理解,才使得语言有用武之地。正是因为我们对世界有深刻的理解,所以我们可以很快地理解别人在谈论什么。这种更广泛的、情境敏感的技能是人类自古就有的基本知识。
非语言理解让感知得以出现,并使得感知能够得以留存和繁荣。所以对于 AI 研究人员来说,寻找人工智能中的常识(common sense)是比关注 AI 语言更重要的任务。
最后,LeCun 总结, LMM 没有稳定的身体,也不能持久地感知世界,所以它们只能更多地关注语言,因此 LLM 的常识总是肤浅的。我们的目标是让人工智能系统关注所谈论的世界,而不是语言本身——虽然 LLM 并不理解这两者的区别。我们无法仅仅通过语言来达到深刻的理解,经过对 LLM 的研究,我们可以看明白,仅仅从语言本身能了解的东西是多么少。
参考链接:
https://www.noemamag.com/ai-and-the-limits-of-language/
编辑:于腾凯
校对:林亦霖