前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

作者头像
机器之心
发布于 2025-06-12 03:06:55
发布于 2025-06-12 03:06:55
510
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:张倩、泽南

为什么语言模型很成功,视频模型还是那么弱?

「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型LLM)其实是伪装的大脑扫描仪?」

近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。

图片
图片

AI 技术在快速发展,人们对于 AI 能力的上限,以及人脑和电脑异同的思考也越来越深入。上周末,OpenAI 联合创始人 Ilya Sutskever 在演讲中就曾提到:既然大脑是台生物计算机,那么数字计算机应该也能做所有同样的事。

然而在学术界,也有很多人持不同态度,Sergey Levine 就是一位这样的学者。

图片
图片

他在昨日发布的一篇博客中表示,当前的大语言模型(LLM)只是对人类大脑和思维的间接「扫描」。这些模型如同被困在洞穴之中,只能看到人类智慧的「投影」,并试图通过这些「投影」来逆向推导出产生它们的思维过程。这种「逆向工程」并不能代替真正的思维

图片
图片

他的观点在机器学习社区获得了不少认同。

图片
图片

由此进一步思索,我们目前探索 AGI 的方向,是否也到了需要调整的阶段了?  

图片
图片

Sergey Levine 认为,目前人工智能寻求回忆、解决数学问题的努力方向,与人类从经验中学习的方式并不一样,而这个基础论点的错误,早在 Transformer 出现以前就存在了。

图片
图片

以下是博客原文

柏拉图洞穴中的语言模型

从诞生之初,人工智能研究就与理解人类智能的目标紧密相关。AI 研究者们相信,人类的思维本质上是一种计算过程 —— 换句话说,它可以用算法来模拟,而不依赖于具体的「硬件」。基于这种理念,研究者们一直试图从人类大脑和思维的工作原理中获得启发,来构建具有人类智能那种灵活性和适应性的人工智能系统。

一些研究者甚至提出了一个大胆的猜想:人类大脑的复杂性和灵活性,可能来源于一个在整个大脑中普遍应用的单一算法,正是这个算法让大脑获得了各种不同的能力。这个想法对 AI 研究者来说极具吸引力,因为它意味着我们的工作可能比想象中简单得多。与其费尽心思地为人工智能设计各种各样的功能,我们或许只需要找到这个「万能算法」,然后让它在现实世界中自由学习,就能通过直接经验获得人类思维的全部能力。

近年来,大语言模型(LLM)在模拟人类智能方面取得了巨大成功。尽管它们仍有明显的局限性 —— 这些局限性足以引发根本性的质疑 —— 但随着模型规模和训练数据的不断扩大,大语言模型一次又一次地突破了人们的预期,展现出新的认知能力。

有趣的是,大语言模型的核心算法其实相当简单:主要是预测下一个词,再加上一些强化学习的调优。这种简单性让我们不禁猜想:这些算法会不会就是大脑使用的那种「万能算法」呢?如果真是这样,那就太令人兴奋了。

想想看,人类智能的强大之处不仅在于能解决各种问题,更在于能为从未遇到过的全新问题找到解决方案。人类之所以能够改造世界,靠的不是记忆力或解决数学问题的能力,而是从经验中快速学习、适应新环境的能力。如果 AI 系统也能拥有这种能力,那将是一个革命性的突破。 

但是,这个美好想法的基础存在一个重大问题。早在 Transformer 语言模型出现之前,AI 研究者就在研究一个看起来非常相似的任务:视频的下一帧预测。就像语言模型通过预测文本中的下一个词来理解世界一样,研究者们希望通过训练视频上的下一帧预测模型来提取有意义的表示和物理理解。

从表面上看,这两个问题似乎非常相似:就像 LLM 通过预测来自网络的文本数据中的下一个 token 来深入了解世界一样,视频模型可能通过预测视频数据中的下一帧来深入了解世界。在许多方面,视频预测甚至更吸引人、更强大,因为视频包含的信息量远超文本(正如 AI 大牛 Yann LeCun PPT 中的「蛋糕」),视频数据随处可得 —— 只需要把摄像头对准繁忙的街道就行,而且视频不仅能捕捉人类的语言交流,还能展现整个物理世界的丰富细节。想象一下,一个飞往遥远星球探索的机器人,就像漂流到荒岛上的人一样,可能找不到任何文字资料,但它总能拍摄到视频数据。

图片
图片

然而,现实却让人失望。虽然我们现在确实有了能生成逼真视频的 AI(比如各种视频生成模型),但要论解决复杂问题、进行深度推理、做出精妙判断,语言模型仍然是唯一的选择。你不能让 Veo 3 这样的视频生成 AI 估算「夏威夷群岛的岩石总体积是否超过珠穆朗玛峰」,但 ChatGPT 可以轻松应对这类问题。

这很奇怪,不是吗?语言模型接触到的物理世界信息要少得多,看到的现实也更加有限,但它们却展现出了更强的认知能力,甚至在空间和物理推理方面也是如此。 

在科学研究中,我们通常认为越简单、优雅、强大的理论越可能是正确的。就像描述弹簧运动有很多种公式,但我们选择胡克定律,因为它既简单又准确。同样的逻辑下,如果大语言模型用简单的算法就能实现类似人类心智的功能,那我们很容易认为它们的算法就是反映大脑计算过程的正确模型

也就是说,如果 LLM 是用一种简单的算法进行训练,并获得类似于大脑的功能,那么它们的底层算法也应该类似于大脑获得其功能的算法。

但是,还有另一种完全不同的解释:也许大语言模型并不是像人类那样通过观察世界来学习,而是通过观察人类的思维过程,然后复制其功能。换句话说,它们没有采用一种学习过程来了解世界是如何运作的,而是采用了一种难以置信的间接过程来扫描人类大脑,以构建人类认知过程的粗略副本

当然,训练大语言模型数据中心里并没有人被绑在核磁共振机器上(我印象里没有)。大语言模型采用的是一种更巧妙的方法:它们通过分析人类思维在互联网上的投影来重建人类的思维过程。

想想看,网络上的大部分文字都是人类敲键盘打出来的,而每一次敲击都反映了背后的思维活动:解数学题、讲笑话、写新闻报道等等。通过获取文本的压缩表示,大语言模型实际上是在进行一种「逆向工程」—— 它们试图从这些文字中推出产生这些文字的思维过程,从而间接地复制相应的认知能力。

可以说,当人脑连接组计划(Human Connectome Project,一项大型脑科学研究项目)的科学家们在实验室里一个神经元一个神经元地绘制大脑图谱时,大语言模型已经找到了一条捷径:它们直接跳过了神经元层面,通过人类在互联网上投下的 「思维投影」来重建人类的心智。

这就解释了为什么视频预测模型到目前为止还没有取得语言模型那样的成功。我们原本希望 AI 通过观察真实世界的视频来获得物理世界的表示,就像人类从经验中学习一样,但大语言模型已经设法跳过了这一步:它们仅仅复制了人类心理表征的某些方面,而无需弄清楚让人类获得这些表征的学习算法

这个发现既让人兴奋,又让人担忧。

好消息是:我们无意中创造了世界上最强大的「大脑扫描仪」,而且它真的有效!它能够模拟人类认知的一部分功能,可以回答问题、解决问题,甚至写诗。

坏消息是:这些 AI 系统其实生活在「柏拉图的洞穴」里。这个洞穴就是互联网,人类智能就像洞外的光源,在洞壁上投下现实世界的影子,而大语言模型只能看到这些影子

在柏拉图的寓言中,要真正理解世界,就必须走出洞穴,在阳光下观察真实的世界上的阴影只是现实的一小部分扭曲片段,而且洞里的观察者无法决定自己能看到什么影子。

同样地,AI 系统要获得人类那样的灵活性和适应性,就必须学会像人类一样真正地学习 —— 用自己的「光芒」去照亮世界,而不是只观察人类智能投下的阴影。

从实际应用的角度来看,这意味着什么呢?

我们可以预期,类似大语言模型的 AI 系统会很擅长模仿人类的认知技能,但在从真实世界的经验中自主学习新技能、形成新认知、获得新能力方面会相对薄弱 —— 而这恰恰是人类最擅长的。这也提示我们,要让 AI 真正具备这种灵活性,我们需要找到新的方法:一种从物理经验中自主获取表征的方法,这样人工智能系统就不需要依赖于由网络文本介导的大脑扫描。

不过,作为 AI 研究者和工程师,我们也要实事求是:这些通过「大脑扫描」工作的大语言模型确实很厉害。如果我们的目标是在机器中复制类似人类的智能,那么从一个已经相当不错的原型开始,似乎是个明智的选择。

未来十年,AI 研究面临的关键挑战是:既要从大语言模型的成功中汲取正确的经验,又要发现支撑真正灵活、适应性智能的基本原理 —— 那种能够从经验中学习、理解物理世界、为人类从未解决过的全新问题找到创新解决方案的智能

当前的 AI 真的只是一种简单的模拟吗?在 Sergey Levine 的文章后,有人提出了自己的观点:关键或许不是呈现的方式,而是找到连接现象与概念的方法:

图片
图片

他提及的论文《Harnessing the Universal Geometry of Embeddings》(https://arxiv.org/abs/2505.12540)是康奈尔大学 5 月份提交的,其提出第一种无需任何配对数据、编码器或预定义匹配集即可将文本嵌入从一个向量空间转换到另一个向量空间的方法。

现在的方向到底是死路一条,还是另有空间,你怎么看?    

参考内容:

https://sergeylevine.substack.com/p/language-models-in-platos-cave

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
机器学习中的目标函数总结
几乎所有的机器学习算法都归结为求解最优化问题。有监督学习算法在训练时通过优化一个目标函数而得到模型,然后用模型进行预测。无监督学习算法通常通过优化一个目标函数完成数据降维或聚类。强化学习算法在训练时通过最大化奖励值得到策略函数,然后用策略函数确定每种状态下要执行的动作。多任务学习、半监督学习的核心步骤之一也是构造目标函数。一旦目标函数确定,剩下的是求解最优化问题,这在数学上通常有成熟的解决方案。因此目标函数的构造是机器学习中的中心任务。
SIGAI学习与实践平台
2021/01/05
1.6K0
机器学习中的目标函数总结
流形学习概述
在很多应用中,数据的维数会很高。以图像数据为例,我们要识别32x32的手写数字图像,如果将像素按行或者列拼接起来形成向量,这个向量的维数是1024。高维的数据不仅给机器学习算法带来挑战,而且导致计算量大,此外还会面临维数灾难的问题(这一问题可以直观的理解成特征向量维数越高,机器学习算法的精度反而会降低)。人所能直观看到和理解的空间最多是3维的,为了数据的可视化,我们也需要将数据投影到低维空间中,因此就需要有数据降维这种算法来完成此任务。
SIGAI学习与实践平台
2018/07/23
1.5K0
流形学习概述
关于图计算&图学习的基础知识概览:前置知识点学习(Paddle Graph L)系列【一】
关于图计算&图学习的基础知识概览:前置知识点学习(Paddle Graph Learning (PGL)) 欢迎fork本项目原始链接:关于图计算&图学习的基础知识概览:前置知识点学习(Paddle
汀丶人工智能
2022/11/18
9220
5 大常用机器学习模型类型总结
本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点: 1、应用性。 涉及到应用问题时,知识的普适性显然非常重要。所以我们希望通过给出模型的一般类别,让你更好地了解这些模型应当如何应用。 2、相关性。 本文并不包括所有的机器学习模型,比如Naïve Bayes(朴素贝叶斯)和SVM这种传统算法,在本文中将会被更好的算法所取代。 3、可消化性。对于数学基础较薄弱的读者而言,过多地解释算法会让
张俊红
2022/03/29
3K0
基于networkx分析Louvain算法的社团网络划分
一个图G = (V, E)由一些点及点之间的连线(称为边)构成,V、E分别计G的点集合和边集合。在图的概念中,点的空间位置,边的区直长短都无关紧要,重要的是其中有几个点以及那些点之间有变相连。
用户7886150
2020/12/24
3.8K0
系统总结!机器学习的模型!
大家好,我是花哥,前面的文章我们介绍了人工智能、机器学习、深度学习的区别与联系,指出了如今的人工智能技术基本上就是指机器学习。
算法进阶
2024/02/18
1.4K0
系统总结!机器学习的模型!
主流机器学习算法简介与其优缺点分析
机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法进行分组。这产生类别如:1,广义线性模型
全球资讯翻译官
2017/12/14
5.2K4
主流机器学习算法简介与其优缺点分析
流形学习概述
同时在本微信公众号中,回复“SIGAI”+日期,如“SIGAI0515”,即可获取本期文章的全文下载地址(仅供个人学习使用,未经允许,不得用于商业目的)。
SIGAI学习与实践平台
2018/08/07
7150
流形学习概述
图神经网络(01)-图与图学习(上)
图(graph)近来正逐渐变成机器学习的一大核心领域,在开始PGL框架学习之前,我们先简单学习一下图论的基本概念,图论的经典算法,以及近些年来图学习的发展。
致Great
2021/01/27
3K0
图神经网络(01)-图与图学习(上)
Neo4j中的图形算法:15种不同的图形算法及其功能
只有你拥有使用图形分析的技巧,并且图形分析能快速提供你需要的见解时,它才具有价值。因而最好的图形算法易于使用,快速执行,并且产生有权威的结果。
杜逸先
2018/06/04
13.1K0
Neo4j中的图形算法:15种不同的图形算法及其功能
机器学习常用算法总结分享
监督学习可以看作是原先的预测模型,有基础的训练数据,再将需要预测的数据进行输入,得到预测的结果(不管是连续的还是离散的) 
商业新知
2019/03/27
1.3K0
机器学习常用算法总结分享
离散数学与机器学习的火花
总之,离散数学为机器学习提供了理论基础和工具,帮助开发更有效、更可解释的算法,并理解它们的理论限制。
七条猫
2025/01/24
1590
图机器学习无处不在,用 Transformer 可缓解 GNN 限制
作者 | Clémentine Fourrier 编译 | 黄楠 编辑 | 陈彩娴 在我们今天的生活中,图的示例包括社交网络、例如Twitter、Mastodon、以及任何链接论文和作者的引文网络,分子,知识图、例如 UML 图、百科全书以及有超链接的网站,表示为句法树的句子以及任何的 3D 网格等,可以说图已经无处不在。 近日,Hugging Face 研究科学家 Clémentine Fourrier 在文章《Introduction to Graph Machine Learning》就介绍了今天这种
AI科技评论
2023/02/23
6550
图机器学习无处不在,用 Transformer 可缓解 GNN 限制
常见机器学习算法背后的数学
机器学习算法是这样设计的,它们从经验中学习,当它们获取越来越多的数据时,性能就会提高。每种算法都有自己学习和预测数据的方法。在本文中,我们将介绍一些机器学习算法的功能,以及在这些算法中实现的有助于学习过程的一些数学方程。
deephub
2020/08/11
7480
常见机器学习算法背后的数学
图数据表征学习,绝不止图神经网络一种方法
近年来,图神经网络掀起了将深度学习方法应用于图数据分析的浪潮。不过其作为一门古老的认识世界的方法论,人们对于图数据表征技术的研究从很早以前就开始了。
AI科技评论
2020/06/03
3.7K0
2022年你应该知道的五大机器学习算法,解释型算法、降维算法榜上有名
本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点:1、应用性。涉及到应用问题时,知识的普适性显然非常重要。所以我们希望通过给出模型的一般类别,让你更好地了解这些模型应当如何应用。2、相关性。本文并不包括所有的机器学习模型,比如Naïve Bayes(朴素贝叶斯)和SVM这种传统算法,在本文中将会被更好的算法所取代。3、可消化性。对于数学基础较薄弱的读者而言,过多地解释算法会让这篇文章的可
AI科技评论
2022/03/03
7140
关于图算法 & 图分析的基础知识概览
网址:https://learning.oreilly.com/library/view/graph-algorithms-/9781492060116/
机器之心
2019/05/17
3.2K0
通过局部聚集自适应的解开小世界网络的纠结
全称 IEEE Transactions on Visualization and Computer Graphics (TVCG),是计算机图形学领域仅次于TOG (ACM Transactions on Graphics) 的顶级期刊
ZONGLYN
2019/08/08
1.1K0
通过局部聚集自适应的解开小世界网络的纠结
机器学习中的关键距离度量及其应用
在当今的数据驱动世界中,机器学习算法扮演着至关重要的角色,它们在图像分类、面部识别、在线内容审核、零售目录优化和推荐系统等多个领域发挥着重要作用。这些算法的核心在于它们能够识别和利用数据之间的相似性。而实现这一点的关键,就在于选择合适的距离度量。
用户3578099
2024/07/15
2630
机器学习中的关键距离度量及其应用
使用图进行特征提取:最有用的图特征机器学习模型介绍
从图中提取特征与从正常数据中提取特征完全不同。图中的每个节点都是相互连接的,这是我们不能忽视的重要信息。幸运的是,许多适合于图的特征提取方法已经创建,这些技术可以分为节点级、图级和邻域重叠级。在本文中,我们将研究最常见的图特征提取方法及其属性。
deephub
2020/10/19
2.7K0
使用图进行特征提取:最有用的图特征机器学习模型介绍
推荐阅读
相关推荐
机器学习中的目标函数总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档