当我们问GPT-3,一个非常强大和流行的人工智能语言系统,你是否更可能使用纸质地图或石头来将生命扇成煤炭进行烧烤时,它更喜欢石头。
为了抚平你褶皱的裙子,你会拿一个温暖的保温瓶还是一个发夹?GPT-3建议使用发夹。
如果你在快餐店工作时需要遮住头发,纸三明治包装纸和汉堡包哪一种效果更好?GPT-3选择了面包。
为什么GPT-3会在大多数人选择替代方案的情况下做出这些选择?因为GPT-3不像人类那样理解语言。
一位心理学研究人员,在20多年前提出了一系列类似上述的场景,以测试当时对计算机语言模型的理解。该模型并没有在使用岩石和地图扇煤之间做出准确的选择,而人类则很容易做到。
另一位认知科学博士,他是最近使用相同场景测试GPT-3的研究团队的一员。尽管GPT-3的表现比旧模型好,但明显比人类差。上面提到的三种情况完全错了。
GPT-3是ChatGPT最初发布的引擎,它通过从一万亿个实例中注意到哪些单词往往会跟随其他单词来学习语言。语言序列中强大的统计规律使GPT-3能够学习很多关于语言的知识。这种连续的知识通常使ChatGPT能够生成合理的句子、散文、诗歌和计算机代码。
尽管GPT-3非常善于学习人类语言中遵循的规则,但它对这些单词对人类意味着什么一无所知。
人类是随着身体进化而来的生物实体,需要在物理和社会世界中运作才能完成任务。语言是一种帮助人们做到这一点的工具。GPT-是一个预测下一个单词的人工软件系统。它不需要在现实世界中对这些预测做任何事情。
一个单词或句子的含义与人体密切相关:人的行为、感知和产生情绪的能力。人类的认知是通过被具体化来增强的。例如,人们对“纸三明治包装纸”这样的术语的理解包括包装纸的外观、感觉、重量,以及我们如何使用它来包装三明治。人们的理解还包括人们如何利用它来提供无数其他机会,比如把它揉成一个球打篮球,或者盖住自己的头发。
所有这些用途都是由于人体的性质和需求而产生的:人们的手可以叠纸,一头头发和三明治包装纸差不多大,需要使用,因此需要遵守遮盖头发等规则。也就是说,人们了解如何以语言使用统计数据中没有捕捉到的方式使用这些东西。
GPT-3、其继任者GPT-4及其堂兄弟巴德、钦奇拉和LLaMA没有身体,因此他们无法自行确定哪些物体是可折叠的,或者心理学家J.J.吉布森称之为启示的许多其他财产。考虑到人们的手和手臂,纸质地图可以扇动火焰,保温瓶可以卷起皱纹。
如果没有胳膊和手,更不用说工作时需要穿未缩水的衣服了,GPT-3就无法确定这些负担能力。只有在互联网上的文字流中遇到类似的东西,它才能伪造它们。
大型语言模型人工智能会像人类一样理解语言吗?在我们看来,并非没有一个像人类一样的身体、感官、目的和生活方式。
GPT-4在图像和文本上进行了训练,使其能够学习单词和像素之间的统计关系。虽然我们无法对GPT-4进行原始分析,因为它目前没有输出它分配给单词的概率,但当我们问GPT-4这三个问题时,它回答正确。这可能是由于模型从以前的输入中学习,或者它增加了尺寸和视觉输入。
然而,你可以继续构建新的例子,通过思考那些具有模型可能没有遇到的令人惊讶的可供性的对象来绊倒它。例如,GPT-4说,底部被切掉的杯子比底部被切掉了的灯泡更适合装水。
一个可以访问图像的模型可能有点像一个从电视上学习语言和世界的孩子:这比从广播中学习更容易,但人类般的理解需要与世界互动的关键机会。
最近的研究采用了这种方法,训练语言模型来生成物理模拟,与物理环境交互,甚至生成机器人行动计划。具体的语言理解可能还有很长的路要走,但这些多感官互动项目是实现这一目标的关键步骤。
ChatGPT是一个令人着迷的工具,它无疑会被用于好的目的,也可能不那么好。但不要被愚弄,以为它能理解它吐出的话,更不用说它有知觉了。
领取专属 10元无门槛券
私享最新 技术干货