
导读: 在开发者社区,我们常常听到一种质疑:“GPT 本质上不就是一个大号的自动补全机吗?它只是在做概率统计,不可能真正‘理解’任何东西。” 这种质疑并非外行的偏见,它的背后站着三百年来坚不可摧的统计学习理论。传统的理论严厉地警告我们:模型参数越多,越容易过拟合;一旦过拟合,模型就会变成只会死记硬背的“复读机”。 然而,现实却狠狠打了理论一记耳光。从 GPT-3 到 Claude 3.5,再到 DeepSeek-V3,模型越来越庞大,能力却越来越像在展现真正的“智能”。全球科技巨头豪掷千金去 Scaling(扩大规模),没有人试图把模型变小。 到底是理论错了,还是我们遗漏了什么?本文将带你拨开迷雾,从“过拟合悖论”出发,途径“双重下降”与“彩票假说”,最终带你窥见“压缩即智能”的终极图景。
想象我们正在训练一个神经网络来学习加法。当我们喂给它海量的算式(如 13+28=41)时,它调整内部的权重以输出正确答案。但要达到“正确”,其实有两条路:
问题在于,在浩如烟海的可能权重配置中,绝大多数能完美拟合训练数据的解,行为上都更像路径 B(查找表)。这就叫过拟合(Overfitting):模型完美记住了细节,却错失了规律。
为了防止模型作弊,传统机器学习的解法非常直觉:限制模型的容量(参数量)。
如果模型小到根本装不下那个庞大的“查找表”,它就被迫只能去寻找最精简的底层规则。这就形成了一张所有算法工程师都倒背如流的 U 型曲线:
左侧是模型太小导致的“欠拟合”,右侧是模型太大导致的“过拟合”,只有中间那个容量刚刚好的点,才是泛化能力最强的“甜点”。
基于这个铁律,如果在 2018 年之前,你提出要训练一个包含数千亿参数的语言模型,学术界会觉得你疯了。他们会说:“那绝对会过拟合,它只会变成一只随机鹦鹉,毫无理解力可言。”
2019 年,历史的齿轮开始转动。
以 Mikhail Belkin 等人为代表的学者,以及 OpenAI 的 Nakkiran 与 Ilya Sutskever 团队,相继发表了重磅论文。他们做了一个违背祖宗决定的实验:越过那个看似无可救药的过拟合点,继续把模型往死里做大。
奇迹出现了。当模型大到足以完美背下所有训练数据之后,随着参数量的进一步增加,其测试误差竟然又开始下降了!而且降得比之前的最优点还要低,且似乎深不见底。
这个现象被正式命名为 Double Descent(双重下降)。
研究者们发现,无论是在 ResNet、CNN 还是 Transformer 架构上,双重下降现象普遍存在。这证明了:一味扩大规模(Scaling)并不是在无脑堆砌,跨越了那个危险的过拟合临界点后,是一片泛化能力飙升的新大陆。
双重下降证明了大模型更好,但这完全违背了奥卡姆剃刀原理(如无必要,勿增实体),难道越臃肿的模型越聪明?
同年,MIT 的 Frankle 和 Carbin 提出了获得 ICLR 最佳论文奖的彩票假说(The Lottery Ticket Hypothesis)。
他们通过剪枝实验发现了一个极其反直觉的结论:在一个庞大的神经网络中,高达 96% 的权重其实是毫无用处的废料。 真正干活的,是一个只占整体参数 4%(甚至更少)的微型子网络,它能完全媲美整个大网络的性能。
既然只需要那个 4% 的小网络,为什么不一开始就直接训练它?答案在于“初始化”。
神经网络的训练依赖梯度下降寻优,这就像把一个小球扔进连绵起伏的误差山谷,很容易卡在半山腰的“局部最优”里出不来。小网络容错率极低,只要初始落点不好,就全盘皆输。
但大网络不同。大网络内部包含了天文数字般的子网络组合。每个子网络,就像是一张彩票。
当你只有几张彩票(小网络)时,中奖全凭运气;但当你有几十亿张彩票(庞大的参数量)时,必定有一张彩票天生就带着极佳的初始权重,它能迅速收敛到最完美的全局最优解。
网络越大,彩票越多;彩票越多,你就越有机会抽到一张“极小、极精简、极聪明”的完美子网络。
你看,大网络非但没有违背奥卡姆剃刀原理,反而正是庞大的参数量,帮我们从茫茫宇宙中搜寻到了那把最锋利的“剃刀”。
实际上,我们无法轻易剔除那 96% 的无用权重,因为寻找这根“救命稻草”的算力成本(反复训练和剪枝)远超收益,且这种非结构化稀疏在现代 GPU 密集的矩阵运算中跑不出明显的加速效果。
但工业界吸收了这个思想,演化出了今天我们熟知的降本增效利器:
前三幕解释了“为什么能行”,接下来我们要看“能行到什么程度”。
2020 年,OpenAI 提出了著名的 Scaling Laws(缩放定律)。他们发现语言模型的损失(Loss)与模型参数量(N)、数据量(D)、计算量(C)之间,存在着光滑完美的幂律关系:
损失与参数量的关系:$L(N) \propto N^{-0.076}$
损失与数据量的关系:$L(D) \propto D^{-0.095}$
损失与计算量的关系:$L(C) \propto C^{-0.050}$
(注:随后 2022 年 DeepMind 的 Chinchilla 论文对上述定律进行了修正,指出数据量和参数量需要同比例扩大,大模型才不会被“饿死”。)
这些公式说明,虽然增加算力带来的边际收益在递减,但大模型确确实实处于“双重下降”曲线右侧那条不断逼近真理的直线上。
这引出了信息论和人工智能领域最深邃的洞见(由 Solomonoff 和 Kolmogorov 等人奠基):理解一个事物,等价于找到生成该事物的最短程序。最佳的模型,就是极致的压缩。
DeepMind 在 2024 年的论文中严格证明了这一点:语言模型本质上就是通用数据压缩器。一个仅在文本上训练的大模型,它压缩图片和音频的效率甚至超过了 PNG 或 FLAC 等专用算法!
它并没有死记硬背像素或声波,它是学到了数据底层更深度的结构和规律。
如果有人依然坚持“预测下一个词只是概率统计”,那么 Kenneth Li 在 2023 年发表的 Othello-GPT 实验就是最有力的反击。
研究人员只给 GPT 喂食黑白棋(奥赛罗)的走法序列(如 C4、D3...),从不给它看棋盘,从不告诉它规则,没有任何二维空间信息。
结果,研究人员探测模型的神经网络内部,发现模型为了精准预测下一步走法,竟然在极其底层的隐空间中,自发构建出了一个极其精准的 8x8 二维棋盘世界模型!
一个从未“看”过世界的模型,为了压缩信息、预测下一个词,被迫在内部重构了世界的底层规律。
当我们把这些理论全部拼合在一起,一条通往未来的清晰逻辑链就此显现:
为了找到最优的解释(奥卡姆剃刀),我们需要寻找最短的生成程序(Solomonoff 归纳);而在深度学习的混沌中,我们需要庞大的参数量来提供海量的搜索空间(彩票假说与双重下降);在这个广阔的空间里,只要遵循幂律不断注入算力和数据(Scaling Laws),预测下一个词的生存压力,终将迫使模型在内部重构出真实的世界模型(压缩即智能)。
大模型的力量,绝不在于它用几千亿个参数死记硬背了人类的互联网;而在于它利用这海量的参数作为垫脚石,找出了能够生成人类文明知识的那一套极其精妙、底层的世界规则。
预测,即压缩;压缩,即理解。
模型不需要我们直接告诉它世界是什么样子。只要你让它竭尽全力去预测下一个词,它自然会在浩瀚的数据中,自己去发现整个宇宙。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。