
大语言模型的能力已毋庸置疑,但它们似乎始终缺少了通往真正创新的「临门一脚」。
最近一篇深度长文提出:问题根源在于 AI 缺少了人类思维的两个关键特质:持续学习和持续思考。作者构想了一个名为「白日梦循环」(Day-Dreaming Loop) 的全新架构,让 AI 学会在发呆时进行概念的随机组合与筛选,从而在看似「浪费」的计算中,酝酿出真正的原创思想。
然而,Hacker News 对此展开了激烈辩论:这个假说的前提本身成立吗?真正的瓶颈到底是 AI 的能力,还是人类社会的接纳速度?这个看似完美的「白日梦」架构,又是否存在着致命的阿喀琉斯之踵?
自 2022 年 11 月 ChatGPT 横空出世以来,大语言模型 (LLM) 以惊人的速度席卷了全球。它们能写诗、能编程、能通过各种高难度考试,在各大基准测试中分数屡创新高。数以千万计的用户每天都在与它们互动,试图挖掘其能力的边界。
然而,一个尖锐的问题一直伴随着大模型发展,正如知名科技博主 Dwarkesh Patel 所问:为什么至今没有任何一个 LLM 真正做出过重大的、颠覆性的科学发现或非凡洞见?
要知道,尽管真正的突破是罕见的,但考虑到 LLM 惊人的知识储备和推理能力,以及全球范围内的海量使用,我们似乎有理由期待,哪怕只有一个「尤里卡时刻」(Eureka!) 也好。当被给予恰当的提示时,LLM 能够综合信息,其表现已经无限接近于真正的洞察力。智能的原始构件似乎已经齐备,但……那关键的一步,始终没有迈出。
画家毕加索曾对早期的计算机发表过看法:
计算机是无用的,它们只能给你答案。

这句话看似傲慢,但今天的 LLM,似乎依然符合这个论断:它们是史上最强大的「答案引擎」,却不是「问题引擎」,更不是「创新引擎」。
这或许就是问题的核心。LLM 能给出你想要的答案,却无法提出那个能改变世界的问题。
那么,LLM 到底缺失了什么?
一篇来自知名独立研究者 Gwern Branwen 的长文《LLM Daydreaming》,对此提出了一个极具启发性的假说。

他认为,当代 AI 系统之所以无法实现真正的创新,是因为 LLM 与人类研究者之间存在两个根本性的鸿沟:持续学习 (Continual Learning) 和 持续思考 (Continual Thinking)。
为了让 AI 变得更便宜、更高效,我们可能首先需要让它们变得更昂贵、更「浪费」,让它们学会像人一样「发呆」和「做白日梦」。
大模型第一个缺失的能力相对容易理解:持续学习。
目前的 LLM 大多是「冻结的」。它们的知识和能力被定格在训练完成的那一刻,像一张精美的照片,却无法记录之后发生的一切。它们无法从与用户的互动中学习,也无法吸收新的经验来更新自己的世界模型。
用一个更形象的比喻,大模型是「失忆症患者」。更准确地说,是患有「顺行性遗忘症」(anterograde amnesia) 的病人,无法形成新的记忆。
每一次对话都是一次全新的开始,它们无法真正地「学习」和「成长」。虽然一些技术如动态评估可以在理论上实现实时训练,但在实际的商业应用中,出于成本和稳定性的考虑,模型几乎都是静态的。
这造成了一个致命的后果:LLM 被困在了它们的先验知识中。
它们无法超越已知的知识边界。而真正的突破,根据定义,必然是新颖的、超越已知的。一个无法学习新知识的系统,如何能创造新知识?Gwern 指出,纵观人类历史,我们找不到任何一个患有严重顺行性遗忘症的人能够产出重大的原创性成果。这个简单的类比,可能就已经为「LLM 为何无法创新」提供了一个足够充分的答案。
然而,Gwern 认为还有更深层次的原因,这便是第二个缺失的能力:持续思考。
人类的大脑,永不「停机」。即便在我们没有进行任何有意识、有目标的脑力劳动,甚至已经在睡梦中,大脑仍在高速运转和处理信息。这也就解释了为何大脑这个只占体重 2% 的器官,却消耗了人体约 20% 的静息能量——即使在「什么都不做」的时候,大脑其实也在做很多事!
科学和创造力研究反复强调了时间、休息和睡眠在「孵化效应」中的重要作用。许多著名的科学家都声称其灵感来自于梦境,比如最经典的凯库勒梦境与苯环的发现。
我们每个人都有过这样的体验:
这些想法的涌现,是无意识的、非自愿的、且不受控制的。你根本不知道它们来自哪里,也无法主动去「想」出它们。它们就那样「发生」了。
这种现象背后的神经科学基础,很可能与默认模式网络 (Default Mode Network, DMN) 有关。DMN 是指当大脑处于清醒的静息状态,同时没有进行任何外部任务时(比如发呆或做白日梦),一系列协同活动的脑区。它与我们的自我反思、记忆提取、展望未来密切相关。
可以说,这种持续的、漫无目的的后台思考,为我们带来了源源不断的自发性洞见。
DMN 的存在本身就令人惊讶。从进化角度看,为何大脑不选择在空闲时进入低功耗的「待机」模式,而是要维持一个如此耗能的背景信息处理系统?这似乎暗示着这种「无目的」的思考,对于人类的生存和认知至关重要。
而 LLM,显然没有这种机制。它们是任务驱动的工具,从不「发呆」,也从不「做白日梦」。你给一个 prompt,它返回一个 completion。任务结束,计算停止。它不会在两次调用之间「思考」任何事情,更不会在你未曾提出的问题上进行任何无目的的、发散性的探索。
换句话说,LLM 是一个被动的信息处理器,而人类大脑,则是主动的、永不停歇的。持续思考的缺失,可能才是通往真正创造力的最大障碍。
如果说「持续思考」是通往创新的关键,那么我们能否为 LLM 设计一个类似的机制呢?Gwern 由此提出了一个具体且可行的构想:白日梦循环 (Day-Dreaming Loop, DDL)。
这个设想的核心思想是:让 AI 在后台进行一场永不停歇的、跨领域的概念组合风暴。
DDL 的工作流程非常简洁:
这个循环永不停止,在系统的整个生命周期中持续运行。
为了让这个构想更加具体,Gwern 甚至给出了他为 LLM 设计的提示词。
比如「生成器」指令:
[SYSTEM]
你是一个创意合成器。你的任务是在以下两个概念之间,找到深刻的、非显而易见的、且可能具有突破性潜力的联系。
不要陈述显而易见的事实。生成一个假说、一个新颖的类比、一个潜在的研究问题或一种创造性的综合。
请大胆推测,但要以逻辑为基础。
概念 1: {知识片段 A}
概念 2: {知识片段 B}
请逐步思考,探索潜在的联系:
- 这两个概念在某种抽象方式上是否相似?
- 其中一个概念能否成为另一个概念的隐喻?
- 它们是否代表了不同领域中类似的问题或解决方案?
- 它们能否结合起来创造一个新想法或解决一个问题?
- 它们之间存在什么能揭示深层问题的矛盾或张力?
在下方合成你最有趣的发现。
[ASSISTANT]
再比如「判别器」指令:
[SYSTEM]
你是一位有洞察力的批评家。请根据以下标准,为下面的假说在 1-10 分的范围内打分:
- **新颖性:** 这个想法是否出人意料且不落俗套? (1=显而易见, 10=范式转移)
- **连贯性:** 推理是否合乎逻辑且结构良好? (1=胡说八道, 10=严谨)
- **实用性:** 这个想法能否引出可检验的假说、新产品或问题的解决方案? (1=毫无用处, 10=极具应用价值)
假说: {生成器的输出}
请提供你的分数和简要的理由。
[ASSISTANT]
通过将 LLM 的能力拆解为「发散思维」和「收敛评估」两个模块,并让它们在一个巨大的、随机采样的知识库上进行永续的后台循环,一个能够「做白日梦」的 AI 系统就此诞生。
这个构想如此美妙,为何至今没有公司去实现它?答案很简单:成本。
DDL 过程将是极其昂贵的。因为绝大多数(或许是 99.999%)的随机概念组合都是毫无意义的垃圾。为了找到那一两个金子般的洞见,系统需要消耗海量的计算资源进行「无效」的探索。
Gwern 将这种成本称为「白日梦税」(daydreaming tax)。一个具备 DDL 能力的 AI 系统,其运行成本可能会比执行同等任务的普通 LLM 高出 20 倍,甚至两个数量级 (100 倍)。
当前的 LLM 为了追求「便宜」和「快」,牺牲了「好」的上限——即产生真正新颖思想的能力。因此,「白日梦税」形成了一道巨大的商业和工程鸿沟。
尽管成本高昂,但 Gwern 认为,一旦我们跨越这道鸿沟,其带来的影响将是革命性的。
DDL 最直接的战略价值,在于它是一种生成专有训练数据的终极方式。它生成的数据是全新的、高质量的、且完全专有的。你不可能通过设计一个 prompt 来让普通 LLM 吐出这些信息,因为你根本就不知道该问什么。
这导向了一个极其反直觉的结论:为了让 AI 在未来变得更快、更便宜,我们可能首先需要投入巨资,去构建那些更慢、更昂贵的 AI。
未来的 AI 生态可能会呈现出一种全新的两层结构:
这或许是绕过「数据墙」、突破「规模定律」瓶颈、并最终实现持续智能进步的最佳路径。
Gwern 的文章在 Hacker News 上引发了巨大的讨论。
许多读者首先挑战了文章的根本前提。一位用户指出:
我们真的能接受 LLM 没有做出任何突破的前提吗?万一有人从 LLM 那里获得了突破,但没有给它记功呢?
理性的决策者,无论是个人研究者还是商业公司,都有充分的动机将 AI 的贡献「内部消化」。更有人指出,突破其实已经在发生,例如 Google 利用 AI 发现新数学定理和优化芯片设计。
创新的真正瓶颈,可能根本不在于思想的产生速度,而在于人类社会的采纳速度。一位 HN 用户认为:
在我从事的应用科学领域,工业界的应用通常落后学术界大约 20 年。……说服整个行业放弃现有成熟方案,去投资一个充满不确定性的新技术,这本身就是一个无比漫长和艰难的过程。
许多人认可「白日梦循环」的启发性,但也指出了其可能的致命缺陷:判别器 (Critic) 模型。
这一行代码,比它看起来要难得多:『一个判别器模型筛选出真正有价值的想法。』
如果使用另一个 LLM 作为判别器,整个系统的性能反而可能会退化,因为生成器会过度拟合,试图去「取悦」一个本身就存在偏见和缺陷的判别器。
我们一直在追求让 AI 更快、更强、更高效,却可能在不经意间,阉割了它最宝贵的一种潜能:犯错、走神、以及进行「无效思考」的能力。
人类的创造力,往往不是在高度专注的线性思考中诞生的,而是在那些散漫的、无目的的、充满随机性的「白日梦」时刻。正是这些看似「浪费」的计算,在无数次失败的连接中,偶然撞开了通往新世界的大门。

毕加索说机器只能给出答案。或许,要让 AI 超越这个宿命,我们需要的不是给它更多的数据,或是更大的模型,而是赋予它一种机制,让它能够自己提出那些连我们都未曾想过的问题。
让 AI 学会「发呆」,学会进行昂贵的「白日梦」,这听起来像是一种倒退。但它或许正是我们迈向真正人工智能的、最关键的一步。