
当整个 AI 领域都在为「扩展定律」(Scaling Law) 的魔力而痴狂,认为只要模型够大、数据够多,AGI 就会「大力出奇迹」般涌现时,有人却在坚持提出反对声音。
这个人,就是 François Chollet。

François Chollet 是 Keras 库的创造者、《Deep Learning with Python》的作者,也是 ARC Prize 测评的创立者。
最近,François 在一次演讲中系统地剖析了当前 AI 模型的局限,指出了「大力出奇迹」的范式为何注定无法通往 AGI,并首次详细阐述了他和他所创立的新研究实验室 Ndea 正在构建的下一代 AI 系统——一个能够走向真正发明的系统。
故事要从一张我们熟悉的图表说起。

「这张图是关于我们这个世界最重要的事实之一」,François 开场便展示了计算成本的惊人下降曲线——自 1940 年以来,每十年下降两个数量级,并且丝毫没有停止的迹象。
正是这股强大的算力东风,在 2010 年代点燃了深度学习的引擎。GPU 和海量数据让计算机视觉、自然语言处理等曾经棘手的难题被逐一攻克。特别是自监督文本模型的成功,让「扩展预训练 LLM」成为了 AI 领域无可争议的霸主范式。
一个令人着迷的「扩展定律」出现了:使用完全相同的架构和训练过程,只要不断增加模型尺寸和训练数据量,模型在各大基准测试上的表现就会可预测地变好。
一时间,整个领域似乎找到了通往 AGI 的康庄大道。无数人相信,通用智能将通过把更多数据塞进更大模型中而「自发涌现」。
「但这里有一个问题」,François 话锋一转,「我们混淆了这些基准测试的真正含义。」
他犀利地指出,我们必须区分两种能力:
为了凸显这一差异,早在 2019 年 LLM 浪潮兴起之前,François 就发布了一个名为「抽象与推理语料库」(Abstraction and Reasoning Corpus, ARC) 的 AI 基准。
ARC 的任务看起来像是给机器做的「IQ 测试」,每个任务都是独一无二的,无法通过刷题来准备。它要求系统利用「核心知识先验」——比如物体、基本几何、计数等任何一个四岁小孩都掌握的概念——去解决一个全新的视觉谜题。
结果如何?
François 揭示了一个惊人的事实:「从 2019 年 ARC-1 发布到现在,基础 LLM 的规模扩大了大约 50000 倍,比如我们现在有了像 GPT-4.5 这样的模型。但我们在这个基准上的准确率,从 0% 提升到了大约 10%。」

50000 倍的规模提升,换来的仅仅是 10% 的准确率。
考虑到现场任何一位工程师都能轻松拿到 95% 以上的分数,这个 10% 几乎可以忽略不计。
这个结果如同一盆冷水,浇在了「扩展至上」的狂热之上。它证明:真正的流体智能,无法通过简单地扩展预训练模型和进行静态推理来获得。
ARC 就像一面镜子,照出了当时 AI 范式的根本缺陷:它不是在测试一个系统理解新事物的能力,而是在测试一个「盒子」复述其记忆库中已有答案的能力。
然而,就在去年,2024 年,事情发生了变化。
François 观察到,AI 研究社区开始大规模地转向一个全新的、截然不同的模式:测试时自适应 (Test-Time Adaptation, TTA)。
这不再是简单地查询一个预先加载好知识的静态模型。TTA 的核心思想是,模型有能力在推理时,根据遇到的新数据动态地改变自己的状态和行为。

这涵盖了一系列技术,比如测试时训练 (test-time training)、程序合成 (program synthesis)、思维链合成 (chain-of-thought synthesis) 等。本质上,模型在尝试为手头的任务「重编程」自己。
「突然之间,我们开始在 ARC 上看到显著的进展」,François 说,「我们终于有了展现出真正流体智能迹象的 AI。」
一个标志性事件是,2024 年 12 月,OpenAI 预览了其 o3 模型的一个特殊版本。这个版本专门针对 ARC 进行了微调,并首次在该基准上展现了人类水平的性能。
到了 2025 年的今天,François 断言:「我们已经从预训练扩展范式中走出来,完全进入了测试时自适应的时代。如今,每一个在 ARC 上表现出色的方法,都在使用这些技术。」
那么,新的问题来了:
要回答这些问题,必须先回到一个更根本的问题:到底什么是智能?
「如果你回顾过去几十年,关于智能和 AI 的目标,一直有两条思想路线」,François 解释道。

François 明确表示,他的观点更接近麦卡锡。他提出了一个极为深刻的比喻:
「技能是智能这个过程的产物,但技能本身不是智能。在一个静态的道路网上,你可以从预定义的 A 点开到 B 点。但如果你拥有一家修路公司,你就能根据不断变化的需求,动态地连接新的 A 点和 B 点。智能,就是那家修路公司,是开辟新路的能力。」

将智能归因于一个预训练好的、固化的行为程序(即技能),是一种「范畴谬误」。你混淆了过程和它的产物。
基于此,François 给出了他对智能的正式定义:
智能,是衡量一个系统转化效率的指标。它衡量的是系统利用其拥有的信息(过去的经验、开发者赋予的先验知识等),来应对充满高度新颖性和不确定性的未来潜在情况的能力范围。智能是一种效率比率。
这个定义解释了为什么用人类的考试来衡量 AI 是一个坏主意。人类考试是为了衡量知识和特定技能,并且其设计前提(比如考生无法提前背下所有答案)对机器不成立。当 AI 可以轻易「作弊」时,这种基准就失去了意义。

这种现象在工程学中被称为「捷径傻瓜」(shortcut fool):当你只专注于一个衡量指标时,你可能会成功达成这个指标,但却以牺牲所有未被衡量的重要东西为代价。「你击中了目标,却错过了重点 (You hit the target, but you miss the point)。」
AI 历史上最经典的例子莫过于下棋。当年 Deep Blue 击败卡斯帕罗夫,确实达成了「让机器下棋战胜人类」的目标,但我们在这个过程中对人类智能本身几乎一无所知。
「几十年来,AI 一直在追逐特定任务的技能,因为那就是我们对智能的定义」,François 总结道,「但这一定义最终只会导向自动化 (automation),也就是我们今天拥有的系统。但我们真正想要的,是能够进行自主发明 (autonomous invention) 的 AI。」

我们不希望 AI 止步于自动化已知任务,我们希望它能解决人类最棘手的挑战,加速科学进步。这才是 AGI 的真谛。要实现这一点,我们需要一个新的目标,一个新的反馈信号。
François 及其团队设计的 ARC 系列基准,正是为了提供这样一个「指向正确方向的箭头」。


要如何才能攻克 ARC-2,乃至未来的 ARC-3、ARC-4,最终到达 AGI?我们到底还缺少什么?
François 提出了他的核心理论框架。
万花筒假说:我们的世界看似充满了无尽的新颖性和复杂性,但构成这一切的「意义原子」其实数量非常少。宇宙万物,从树木到神经元,从电磁学到引力,都充满了同构性 (isomorphisms)。它们都是这些基本原子的不同重组。智能,就是挖掘经验、识别这些可在不同情境中复用的「意义原子」——即抽象 (abstractions)——的能力。

实现智能有两个关键部分:

这解释了为什么单纯扩大模型和数据没用。过去的模型虽然在训练时获取了大量抽象,但在测试时却是静态的,只能调用预先写好的模板。TTA 解决了「即时重组」的问题,这是迈向 AGI 的巨大一步。
但 TTA 并非全部答案。另一个关键问题是效率。梯度下降需要比人类多出三到四个数量级的数据才能提炼出简单的抽象;而顶尖的 TTA 系统解决 ARC-1 仍需数千美元的算力。
根本问题在于,深度学习模型缺失了一种能力:组合泛化。而这正是 ARC-2 试图衡量的。
为了理解这一点,François 引入了他理论中至关重要的一个概念:抽象的两种类型。


「Transformer 在类型 1 抽象上非常出色」,François 解释说,「但在类型 2 上却不适合。这就是为什么你很难训练一个模型去完成像『对一个数字序列进行排序』或『对两个大数进行加法』这样简单的类型 2 任务。」
如何获得类型 2 的能力?答案是:离散程序搜索。
从 90 年代用遗传算法设计新天线,到 AlphaGo 的神之一手,再到 AlphaFold,所有 AI 历史上的重大「发明」都依赖于离散搜索。
机器学习和程序合成就像一枚硬币的两面:
真正的智能,并非偏废其一,而是将两者完美融合。
「人类智能的特殊之处就在于,我们将感知和直觉与明确的、一步步的推理结合在一起。下棋时,你的直觉(类型 1)告诉你棋盘上哪几个位置值得关注,然后你用精确的计算(类型 2)去探索这几个有限的可能性。你用类型 1 的直觉,让类型 2 的计算变得可行。」
这种融合,正是 François Chollet 和他的新研究实验室 Ndea 正在构建的系统。
Ndea 的使命非常明确:构建能够实现独立发明和发现的 AI,从而极大地加速科学进步。

François 首次详细披露了他们正在构建的系统架构,一个「程序员」式的元学习器:
这个系统的最终目标是:当一个 AI 面对完全陌生的新情况时,它能利用其丰富的抽象库,迅速组装出一个有效的解决方案,就像一个经验丰富的软件工程师利用现有工具和库来快速解决新问题一样。
Ndea 的短期目标,就是用这个系统,在对 ARC-2 一无所知的前提下,从零开始解决它。而终极目标,则是将这个系统应用于科学,赋能人类研究者,加速科学发现的进程。
从批判扩展定律的局限,到重新定义智能的核心;从设计 ARC 系列基准来指引方向,到提出融合两种抽象的全新 AI 架构。François Chollet 的这场分享,为我们描绘了一条迥异于「大力出奇迹」的 AGI 之路。
这条路更加艰难,也更加深刻。它不再满足于让 AI 成为一个博闻强识的「自动化工具」,而是要将其锻造成一个能够理解、推理和创造的「发明引擎」。
或许,AGI 的到来,并不取决于我们能把模型做得多大,而取决于我们是否能构建出像 Ndea 设想的那样,能够像程序员一样思考和工作的下一代 AI 系统。
你觉得 Scale law 还能走多远?AGI 的正确道路会在何方?