首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >扩展定律已死?通往 AGI 之路另有方向?Keras之父谈智能本质

扩展定律已死?通往 AGI 之路另有方向?Keras之父谈智能本质

作者头像
不二小段
发布2026-04-09 16:17:41
发布2026-04-09 16:17:41
800
举报
文章被收录于专栏:不二小段不二小段
  • • 为什么万倍算力增长,模型从 GPT-2 升级到 GPT-4.5,在真正衡量流体智能的 ARC 基准上得分依然接近于 0?
  • • 为什么说 2024 年是 AI 范式的转折点,从「预训练-扩展」转向了「测试时自适应」?
  • • 通往 AGI 的路上,我们真正缺失的是什么?

当整个 AI 领域都在为「扩展定律」(Scaling Law) 的魔力而痴狂,认为只要模型够大、数据够多,AGI 就会「大力出奇迹」般涌现时,有人却在坚持提出反对声音。

这个人,就是 François Chollet

François Chollet 是 Keras 库的创造者、《Deep Learning with Python》的作者,也是 ARC Prize 测评的创立者。

最近,François 在一次演讲中系统地剖析了当前 AI 模型的局限,指出了「大力出奇迹」的范式为何注定无法通往 AGI,并首次详细阐述了他和他所创立的新研究实验室 Ndea 正在构建的下一代 AI 系统——一个能够走向真正发明的系统。

01. 扩展定律的黄昏:五万倍算力增长,为何在「真智能」面前失效?

故事要从一张我们熟悉的图表说起。

「这张图是关于我们这个世界最重要的事实之一」,François 开场便展示了计算成本的惊人下降曲线——自 1940 年以来,每十年下降两个数量级,并且丝毫没有停止的迹象。

正是这股强大的算力东风,在 2010 年代点燃了深度学习的引擎。GPU 和海量数据让计算机视觉、自然语言处理等曾经棘手的难题被逐一攻克。特别是自监督文本模型的成功,让「扩展预训练 LLM」成为了 AI 领域无可争议的霸主范式。

一个令人着迷的「扩展定律」出现了:使用完全相同的架构和训练过程,只要不断增加模型尺寸和训练数据量,模型在各大基准测试上的表现就会可预测地变好。

一时间,整个领域似乎找到了通往 AGI 的康庄大道。无数人相信,通用智能将通过把更多数据塞进更大模型中而「自发涌现」。

「但这里有一个问题」,François 话锋一转,「我们混淆了这些基准测试的真正含义。」

他犀利地指出,我们必须区分两种能力:

  1. 1. 记忆化的技能:静态的、针对特定任务的、预先加载的知识。
  2. 2. 流体通用智能:在面对从未见过的新情况时,能够当场理解、推理并解决问题的能力。

为了凸显这一差异,早在 2019 年 LLM 浪潮兴起之前,François 就发布了一个名为「抽象与推理语料库」(Abstraction and Reasoning Corpus, ARC) 的 AI 基准。

ARC 的任务看起来像是给机器做的「IQ 测试」,每个任务都是独一无二的,无法通过刷题来准备。它要求系统利用「核心知识先验」——比如物体、基本几何、计数等任何一个四岁小孩都掌握的概念——去解决一个全新的视觉谜题。

结果如何?

François 揭示了一个惊人的事实:「从 2019 年 ARC-1 发布到现在,基础 LLM 的规模扩大了大约 50000 倍,比如我们现在有了像 GPT-4.5 这样的模型。但我们在这个基准上的准确率,从 0% 提升到了大约 10%。」

50000 倍的规模提升,换来的仅仅是 10% 的准确率。

考虑到现场任何一位工程师都能轻松拿到 95% 以上的分数,这个 10% 几乎可以忽略不计。

这个结果如同一盆冷水,浇在了「扩展至上」的狂热之上。它证明:真正的流体智能,无法通过简单地扩展预训练模型和进行静态推理来获得。

ARC 就像一面镜子,照出了当时 AI 范式的根本缺陷:它不是在测试一个系统理解新事物的能力,而是在测试一个「盒子」复述其记忆库中已有答案的能力。

02. 范式转移:2024,测试时自适应的黎明

然而,就在去年,2024 年,事情发生了变化。

François 观察到,AI 研究社区开始大规模地转向一个全新的、截然不同的模式:测试时自适应 (Test-Time Adaptation, TTA)

这不再是简单地查询一个预先加载好知识的静态模型。TTA 的核心思想是,模型有能力在推理时,根据遇到的新数据动态地改变自己的状态和行为。

这涵盖了一系列技术,比如测试时训练 (test-time training)、程序合成 (program synthesis)、思维链合成 (chain-of-thought synthesis) 等。本质上,模型在尝试为手头的任务「重编程」自己。

「突然之间,我们开始在 ARC 上看到显著的进展」,François 说,「我们终于有了展现出真正流体智能迹象的 AI。」

一个标志性事件是,2024 年 12 月,OpenAI 预览了其 o3 模型的一个特殊版本。这个版本专门针对 ARC 进行了微调,并首次在该基准上展现了人类水平的性能。

到了 2025 年的今天,François 断言:「我们已经从预训练扩展范式中走出来,完全进入了测试时自适应的时代。如今,每一个在 ARC 上表现出色的方法,都在使用这些技术。」

那么,新的问题来了:

  • • 为什么预训练范式没能带我们走向 AGI?
  • • 测试时自适应 (TTA) 这次能行吗?AGI 是否已经到来了?
  • • 除了 TTA,AI 的下一步又会是什么?

要回答这些问题,必须先回到一个更根本的问题:到底什么是智能?

03. 重新定义智能:是「静态路网」,还是「修路公司」?

「如果你回顾过去几十年,关于智能和 AI 的目标,一直有两条思想路线」,François 解释道。

  • 明斯基观点:AI 是关于制造能够执行通常由人类完成的任务的机器。这与当前主流企业界对 AGI 的看法——「能够执行大多数有经济价值任务的 AI」——不谋而合。
  • 麦卡锡观点:AI 是关于让机器处理它们没有被准备过的问题。核心是处理「新颖性」。

François 明确表示,他的观点更接近麦卡锡。他提出了一个极为深刻的比喻:

「技能是智能这个过程的产物,但技能本身不是智能。在一个静态的道路网上,你可以从预定义的 A 点开到 B 点。但如果你拥有一家修路公司,你就能根据不断变化的需求,动态地连接新的 A 点和 B 点。智能,就是那家修路公司,是开辟新路的能力。」

将智能归因于一个预训练好的、固化的行为程序(即技能),是一种「范畴谬误」。你混淆了过程和它的产物。

基于此,François 给出了他对智能的正式定义:

智能,是衡量一个系统转化效率的指标。它衡量的是系统利用其拥有的信息(过去的经验、开发者赋予的先验知识等),来应对充满高度新颖性和不确定性的未来潜在情况的能力范围。智能是一种效率比率。

这个定义解释了为什么用人类的考试来衡量 AI 是一个坏主意。人类考试是为了衡量知识和特定技能,并且其设计前提(比如考生无法提前背下所有答案)对机器不成立。当 AI 可以轻易「作弊」时,这种基准就失去了意义。

这种现象在工程学中被称为「捷径傻瓜」(shortcut fool):当你只专注于一个衡量指标时,你可能会成功达成这个指标,但却以牺牲所有未被衡量的重要东西为代价。「你击中了目标,却错过了重点 (You hit the target, but you miss the point)。」

AI 历史上最经典的例子莫过于下棋。当年 Deep Blue 击败卡斯帕罗夫,确实达成了「让机器下棋战胜人类」的目标,但我们在这个过程中对人类智能本身几乎一无所知。

「几十年来,AI 一直在追逐特定任务的技能,因为那就是我们对智能的定义」,François 总结道,「但这一定义最终只会导向自动化 (automation),也就是我们今天拥有的系统。但我们真正想要的,是能够进行自主发明 (autonomous invention) 的 AI。」

我们不希望 AI 止步于自动化已知任务,我们希望它能解决人类最棘手的挑战,加速科学进步。这才是 AGI 的真谛。要实现这一点,我们需要一个新的目标,一个新的反馈信号。

04. ARC 三部曲:从「识别」到「推理」再到「智能体」

François 及其团队设计的 ARC 系列基准,正是为了提供这样一个「指向正确方向的箭头」。

  • ARC-1 (2019): 流体智能的试金石ARC-1 的历史使命已经完成。它成功地抵抗了预训练扩展范式,证明了 TTA 的必要性。但它也是一个二元测试,要么你完全没有流体智能(得分接近 0),要么你拥有了基础的流体智能(得分迅速飙升)。它无法区分「优秀」和「卓越」,更无法与人类的顶尖智能进行比较。
  • ARC-2 (2025.3): 挑战组合推理的极限随着 ARC-1 被 TTA 系统攻克,更灵敏的工具——ARC-2 登场了。它旨在挑战当今最前沿的 TTA 推理系统。 ARC-2 的任务格式与 ARC-1 相同,但更加复杂,极大地侧重于探测组合推理 (compositional reasoning) 的能力。对于人类来说,这些任务仍然相当可行,但几乎每一题都需要经过一番深思熟虑,而不再是「看一眼就有答案」。 为了确保任务对人类的可行性,团队在圣地亚哥招募了各行各业的普通人(Uber 司机、学生、失业者等)进行测试。结果表明,一个由 10 个普通人组成的团队通过投票,可以在 ARC-2 上拿到 100% 的分数。 那么 AI 的表现呢?
    • 基础 LLM (如 GPT-4.5, Llama 4):得分 0%。纯粹的记忆化方法彻底失效。
    • 静态推理系统 (如单次思维链生成):得分在 1%-2% 之间,仍在 0 的误差范围内。
    • 顶尖 TTA 系统 (如 o3):虽然远超 0%,但仍然远远低于人类水平。 ARC-2 提供了一个全新的、更宽广的评估范围,清晰地显示出:即使是最先进的 TTA 系统,在组合推理能力上与普通人之间仍存在巨大鸿沟。 François 的判断标准很明确:「只要我们还能轻易地想出那种『你们任何人都能做,但 AI 无论花多少算力都搞不定』的任务,我们就没有实现 AGI。」
  • ARC-3 (2026 计划): 迈向交互式智能体 (Interactive Agency)ARC 的终点并非 ARC-2。François 透露,他们已经开始开发 ARC-3,这将是一次重大的范式转变。 ARC-3 将不再是静态的输入-输出格式,而是评估智能体 (agency):在一个全新的交互式环境中,自主探索、学习、设定目标并实现目标的能力。 想象一下,一个 AI 被「扔」进一个全新的游戏中,它不知道控制键是什么,不知道游戏目标是什么,也不知道游戏机制是什么。它必须从零开始,动态地搞清楚一切。每个游戏都独一无二,且都只基于核心知识先验构建。 更重要的是,效率将是 ARC-3 设计的核心。AI 不仅要看能否解决任务,还要看解决得有多高效,其行动步数将被严格限制在与人类相当的水平。 ARC-3 的开发者预览版将于 2025 年 7 月发布,并计划在 2026 年初正式推出。

05. 通往AGI的架构:两种抽象与「程序员」AI

要如何才能攻克 ARC-2,乃至未来的 ARC-3、ARC-4,最终到达 AGI?我们到底还缺少什么?

François 提出了他的核心理论框架。

万花筒假说:我们的世界看似充满了无尽的新颖性和复杂性,但构成这一切的「意义原子」其实数量非常少。宇宙万物,从树木到神经元,从电磁学到引力,都充满了同构性 (isomorphisms)。它们都是这些基本原子的不同重组。智能,就是挖掘经验、识别这些可在不同情境中复用的「意义原子」——即抽象 (abstractions)——的能力。

实现智能有两个关键部分:

  1. 1. 抽象获取 (Abstraction acquisition):高效地从经验中提取可复用的抽象。
  2. 2. 即时重组 (On-the-fly recombination):高效地选择和重组这些抽象,以构建适应当前新情况的模型。

这解释了为什么单纯扩大模型和数据没用。过去的模型虽然在训练时获取了大量抽象,但在测试时却是静态的,只能调用预先写好的模板。TTA 解决了「即时重组」的问题,这是迈向 AGI 的巨大一步。

但 TTA 并非全部答案。另一个关键问题是效率。梯度下降需要比人类多出三到四个数量级的数据才能提炼出简单的抽象;而顶尖的 TTA 系统解决 ARC-1 仍需数千美元的算力。

根本问题在于,深度学习模型缺失了一种能力:组合泛化。而这正是 ARC-2 试图衡量的。

为了理解这一点,François 引入了他理论中至关重要的一个概念:抽象的两种类型

  • 类型 1:以价值为中心的抽象
    • • 在连续域上操作。
    • • 通过连续的距离函数来比较事物,通过插值来泛化。
    • • 这是感知、模式识别、直觉的基础,也是现代机器学习(尤其是 Transformer)的强项。
    • • 可以类比为「右脑」思维。
  • 类型 2:以程序为中心的抽象
    • • 在离散域上操作。
    • • 通过寻找精确的**结构匹配(同构)**来比较离散的程序(即图)。
    • • 这是人类逻辑推理、规划、严谨思维的基础,也是软件工程师进行代码重构时所做的事情。
    • • 可以类比为「左脑」思维。

「Transformer 在类型 1 抽象上非常出色」,François 解释说,「但在类型 2 上却不适合。这就是为什么你很难训练一个模型去完成像『对一个数字序列进行排序』或『对两个大数进行加法』这样简单的类型 2 任务。」

如何获得类型 2 的能力?答案是:离散程序搜索

从 90 年代用遗传算法设计新天线,到 AlphaGo 的神之一手,再到 AlphaFold,所有 AI 历史上的重大「发明」都依赖于离散搜索。

机器学习和程序合成就像一枚硬币的两面:

  • 机器学习:模型是连续曲线,学习引擎是梯度下降(计算高效),但需要海量数据(数据饥渴)。
  • 程序合成:模型是离散图,学习引擎是组合搜索(计算饥渴),但只需要极少数据(数据高效)。最大的障碍是「组合爆炸」。

真正的智能,并非偏废其一,而是将两者完美融合。

「人类智能的特殊之处就在于,我们将感知和直觉与明确的、一步步的推理结合在一起。下棋时,你的直觉(类型 1)告诉你棋盘上哪几个位置值得关注,然后你用精确的计算(类型 2)去探索这几个有限的可能性。你用类型 1 的直觉,让类型 2 的计算变得可行。

06. Ndea 的蓝图:构建一个会编程的元学习器

这种融合,正是 François Chollet 和他的新研究实验室 Ndea 正在构建的系统。

Ndea 的使命非常明确:构建能够实现独立发明和发现的 AI,从而极大地加速科学进步。

François 首次详细披露了他们正在构建的系统架构,一个「程序员」式的元学习器:

  1. 1. 核心是一个元学习器:当面对新任务时,它会当场合成一个适应性程序/模型来解决它。
  2. 2. 混合式程序:这个合成出的程序将无缝融合用于处理类型 1 问题(如感知)的深度学习子模块,和用于处理类型 2 问题的算法模块
  3. 3. 直觉引导的搜索:模型的组装由一个离散程序搜索系统完成,而这个搜索过程本身,由一个基于深度学习的、关于程序空间结构的直觉模型来引导,以对抗组合爆炸。
  4. 4. 全局抽象库:搜索并非从零开始,它会利用一个全局的、可复用的抽象构建块库。这个库会随着解决新任务而不断演进和扩充。当系统合成了一个有用的新构建块,它会将其上传回库中——就像软件工程师把有用的代码库发布到 GitHub 上一样。

这个系统的最终目标是:当一个 AI 面对完全陌生的新情况时,它能利用其丰富的抽象库,迅速组装出一个有效的解决方案,就像一个经验丰富的软件工程师利用现有工具和库来快速解决新问题一样。

Ndea 的短期目标,就是用这个系统,在对 ARC-2 一无所知的前提下,从零开始解决它。而终极目标,则是将这个系统应用于科学,赋能人类研究者,加速科学发现的进程。

结语

从批判扩展定律的局限,到重新定义智能的核心;从设计 ARC 系列基准来指引方向,到提出融合两种抽象的全新 AI 架构。François Chollet 的这场分享,为我们描绘了一条迥异于「大力出奇迹」的 AGI 之路。

这条路更加艰难,也更加深刻。它不再满足于让 AI 成为一个博闻强识的「自动化工具」,而是要将其锻造成一个能够理解、推理和创造的「发明引擎」。

或许,AGI 的到来,并不取决于我们能把模型做得多大,而取决于我们是否能构建出像 Ndea 设想的那样,能够像程序员一样思考和工作的下一代 AI 系统。

你觉得 Scale law 还能走多远?AGI 的正确道路会在何方?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01. 扩展定律的黄昏:五万倍算力增长,为何在「真智能」面前失效?
  • 02. 范式转移:2024,测试时自适应的黎明
  • 03. 重新定义智能:是「静态路网」,还是「修路公司」?
  • 04. ARC 三部曲:从「识别」到「推理」再到「智能体」
  • 05. 通往AGI的架构:两种抽象与「程序员」AI
  • 06. Ndea 的蓝图:构建一个会编程的元学习器
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档