智能不在于参数数量,而在于时间。
随着人工智能模型变得越来越大,它们并非变得更具洞察力,反而可能更差。为了确保它们能持续学习,我们需要减少其推理时间。
作者:Stefano Soatto, Alessandro Achille
2026年2月25日
阅读时长:11分钟
当我们提示一个大语言模型(LLM)求解一个复杂多项式方程时,它不仅会返回一个答案,还会利用其“思维链”来逐步求解。从某种意义上说,LLM的行为就像一台计算机,一台计算解决方案的机器。但这台机器与艾伦·图灵在约90年前描述的通用计算模型截然不同。
在什么意义上可以将LLM视为计算机?它能像图灵机那样具有通用性,即能够解决任何可计算的任务吗?如果是这样,它又是如何从有限数据中学习到这种能力的?当前的机器学习理论对回答这些问题帮助甚微,因此我们需要新的工具。在之前的一篇某中心科学文章中,我们认为AI智能体及其驱动的LLM本质上是转导推理引擎,尽管它们是按照经典机器学习理论的方式进行归纳训练的。归纳旨在寻求泛化,即在未来数据上表现得与过去数据上一样的能力。为了实现泛化,必须避免记忆化,即过拟合训练数据。
这在理论上是可行的,前提是过去和未来的数据都来自同一分布。然而在实践中,这种条件无法验证,并且通常不适用于商业、金融、气候科学甚至语言领域中的高价值数据。这让我们无法解释LLM如何学习可靠地解决通用的可计算任务。
相比之下,通过转导推理,人们试图通过推理过去的数据来为新的问题制定解决方案。转导不是应用过去的解决方案并希望它们能泛化;而是在推理新解决方案时,能够检索到重要的记忆片段。在转导中,记忆化不是缺点,而是价值所在。在转导推理过程中,利用测试数据和记忆来制定解决方案,并非过拟合,而是自适应的、特定于查询的计算——即推理。
归纳泛化是在时间紧迫时被迫采取的行为。这种自动的、反应性的行为在认知心理学中有时被称为“系统1”。转导则需要查看所有数据,并执行特定于查询的可变长度推理时计算——即LLM中的思维链推理,其长度取决于查询的复杂度。这种深思熟虑的行为通常被称为“系统2”,也是我们希望通过学习来培养的。从这个意义上说,转导学习是元学习的一种特殊形式,即学习如何推理。
1964年,雷·所罗门诺夫描述了一种通过转导推理解决任何问题的通用最优算法,前提是假设内存和时间是无限的:通过图灵机执行所有程序,然后对那些能重现观测数据的程序的结果进行平均。这将给出通用最优答案——但这通常需要无限长的时间。如果我们想要的不仅是通用最优,而且是通用快速的算法呢?
1973年——在他引入NP完全概念的同一篇论文中——列昂尼德·列文推导出了这样的算法。不幸的是,列文所谓的通用搜索在实践中并不可行,也无助于我们理解LLM;首先,它不涉及任何学习。尽管如此,列文指出了时间在解决计算任务时的关键重要性。后来,在1986年,所罗门诺夫暗示了学习如何帮助减少时间。
在一篇新论文中,我们扩展了这些想法,并展示了减少推理时间如何促使训练好的模型以转导方式运行——即进行推理。在努力减少推理时间的过程中,模型不仅学习了训练数据的统计结构,还学习了其算法结构。然后,它可以以无限多种方式重新组合已学到的算法方法,来处理任意新的问题。
这一见解对AI模型的设计和训练方式具有启示意义。特别是,它们应该被设计来预测推理时增加计算成本的边际价值,并且它们的训练目标应包括复杂度成本,以迫使它们在推理过程中最小化时间。
这种学习方法颠覆了经典的统计学习理论。在经典统计学习理论中,最大的危险是过拟合,因此目标是正则化解,即最小化训练好的模型从过去数据中保留的信息(除了对减少训练损失至关重要的信息之外)。另一方面,对于转导推理,目标是最大化保留的信息,因为它可能对解决未来的问题有用。
缩放定律的逆转
过去几年LLM的性能提升主要来自于缩放:增加模型参数数量提高了在基准数据集上的准确性。这导致许多人推测,进一步增加模型的参数数量可能会迎来一个“超级智能”时代,其中AI模型的认知能力将超越其人类创造者。
如果规模不能带来智能,那什么能?我们认为答案是时间。
在我们的论文中,我们提出了相反的观点:超出一定的复杂度后,AI模型会进入我们所谓的“学者症候群”状态,此时学习变得不必要,在基准测试上更好的性能反而伴随着“洞察力”的下降。其极限就是所罗门诺夫在1964年描述的算法,即任何任务都可以通过蛮力解决。
如果规模不能带来智能,那什么能?我们认为答案是时间。
这个答案具有一定的直观吸引力。智能的概念本质上是主观的且依赖于环境。虽然难以刻画智能,但刻画其缺失则相对容易。无法适应环境的速度是众多我们称之为“非智能特征”的行为之一。非智能特征是其存在即否定智能的行为,无论人们如何定义智能。
许多非智能特征都与时间相关。花费相同(非最小)的时间和精力重复解决同一任务的多个实例,却没有更好的结果,这是一种非智能特征。无法根据目标分配资源,从而在琐碎任务和复杂任务上花费相同的精力,也是一种非智能特征。开始一个已知需要比宇宙寿命更长的时间才能产生任何可用答案的任务,则是另一种非智能特征。
基于这种直觉,我们如何量化AI模型中智能与时间之间的关系?第一步是评估模型参数中包含的信息量;然后我们可以观察它如何受到时间约束的影响。
算法信息
衡量信息的标准方法是克劳德·香农在1948年一篇里程碑式的论文中提出的,该论文基本上创立了信息论。香农将随机变量的信息内容定义为其分布的熵。对其值的不确定性越大,信息内容就越高。
然而,根据这个定义,给定数据样本的信息内容并非样本本身的属性;而是其来源分布的属性。然而,对于任何给定的样本,存在无限多个它可能来自的分布。如果你只有一个样本——比如一串0和1——你如何计算它的信息内容?
在1960年代,所罗门诺夫和安德烈·柯尔莫戈罗夫独立地解决了这个问题,提出了另一种信息概念,即算法信息,可用于刻画任意二进制字符串的信息内容。对于给定的字符串,可以编写一个程序,当在某台计算机上运行时,输出该字符串。事实上,可以编写无限多个这样的程序,并在多台计算机上运行它们。
在通用图灵机上运行并输出特定数据的最短可能程序是该数据的一个属性。该程序即是算法最小充分统计量,其长度即为该数据的算法信息(柯尔莫戈罗夫-所罗门诺夫复杂度)。
在1948年的论文中,香农还定义了一个称为互信息的度量,它量化了通过观察一个相关变量可以推断出另一个变量值的多少信息。这个概念也可以扩展到算法信息论:两个数据字符串之间的算法互信息衡量了如果你能访问其中一个字符串,生成另一个字符串的程序能缩短多少。
时间就是信息
如果我们不知道模型训练数据的来源分布,也不知道模型未来的输入是否来自同一分布,我们如何量化模型未来的性能?
在我们的论文中,我们假设大多数任务可以通过以无限多种方式组合和转换一些最终有限但先验未知的方法集合来解决。在这种情况下,我们可以证明,优化性能就是最大化模型训练数据与未来任务之间的算法互信息。
然而,找到生成特定二进制字符串的最短可能算法是一个难以处理的问题(对除了最短字符串之外的所有情况都是如此)。因此,计算模型训练数据与未来任务之间的算法互信息也是难以处理的。
尽管如此,我们在论文中证明,模型找到新任务解决方案的速度与该解决方案与训练数据之间的算法互信息之间存在基本关系。具体来说,我们证明:
log(速度提升) = I(h : D)
其中 h 是新任务的解决方案,D 是训练模型所用的数据集,I(h : D) 是数据与解决方案之间的算法互信息。
这意味着,在训练过程中,最小化模型执行推理任务所花费的时间将最大化其权重中编码的算法信息。减少推理时间确保即使模型的参数数量增加,它们也不会陷入“学者症候群”状态,即仅通过蛮力解决问题,而没有任何洞察或学习。
时间的价值
你可能已经注意到,将推理时间与算法信息关联起来的公式没有指定任何度量单位。这是因为即使是“时间”的价值也是主观的。在水塘边饮水的斑马并不能先验地知道自己需要多长时间才会被捕食者发现。如果停留太久,它会成为猎物;如果惊慌失措地离开,它会脱水。
同样,对于AI模型来说,没有单一的时间成本可以用来训练,因此也没有单一的、超出后LLM就会进入“学者症候群”状态的规模尺度。对于某些任务,如科学发现,时间常数是几个世纪;而对于其他任务,如算法交易,则是几毫秒。我们希望智能体能够适应其环境,在某些情况下为特定类别的任务生成更小的专用模型,即便如此,也能为用户(用户是智能体环境的一部分)提供控制权,以便根据上下文和应用领域调整时间成本。
时间成本已经(部分且隐含地)融入了LLM的训练过程。在预训练期间,时间成本实际上被设置为最小值,因为模型是根据对训练数据的单次前向传播的输出来评分的。对模型进行思维链推理的微调需要带注释的数据,其高成本会偏向更短的“真实”推理轨迹。因此,LLM已经反映了注释者在组装训练集时主观赋予的时间成本。
然而,为了让用户能够根据环境的成本在推理时调节资源,模型应该被训练来预测相对于预期最终回报的额外计算步骤的边际价值。此外,它们需要被训练以适应目标复杂度,从而学会如何在客户指定的成本或范围内提供答案。
越来越多的工作致力于教会模型时间的价值,使它们能够适应手头的任务(无论有无人类监督)。这些工作肯定会带来更好的性价比,但理论预测,在某个点上,考虑时间成本实际上会提高在新任务上的绝对性能。对于可验证的任务,学习推理来自于寻找能产生正确(已验证)答案的最短思维链。最终,施加时间成本不应损害推理性能。
AI编程的新范式
将这些想法与现代AI联系起来,需要重新思考计算的含义。LLM是随机动态系统,其计算元素(上下文、权重、激活、思维链)与经典的最小化计算模型(如通用图灵机)中的“程序”并不相似。
然而,LLM是计算模型——是最大化模型。它们像图灵机一样具有通用性,但在许多方面又是对立的,并且通过完全不同的机制运行。可以使用两级控制策略来“编程”这种随机动态系统:高级开环全局规划和低级闭环反馈控制。
该策略可以通过AI Functions实现,这是一个本周作为某中心Strands Labs(一个用于构建AI智能体的GitHub仓库)的一部分发布的开源库。可以用该库中的函数来增强现有的编程语言。这些是普通的函数,使用语言的语法,但其函数体用自然语言而非代码编写,并由前置和后置条件进行约束。这使得在AI编写任何一行代码之前就能进行高级开环规划和验证,并且如果AI生成的代码未能满足所有条件,会自动产生一个局部反馈循环。最小化时间(转化为成本)是设计和评估最终智能体的核心。
研究领域
机器学习
标签
生成式AI, 智能体AI
关于作者
Stefano Soatto:某机构某AI组织副总裁兼杰出科学家。
Alessandro Achille:某机构AI部门首席应用科学家。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。