破局“过拟合悖论”：为什么大模型越做越大，反而越来越聪明？底层逻辑全解析

原创

今天减肥了吗

修改于 2026-05-16 07:42:33

1900

导读： 在开发者社区，我们常常听到一种质疑：“GPT 本质上不就是一个大号的自动补全机吗？它只是在做概率统计，不可能真正‘理解’任何东西。” 这种质疑并非外行的偏见，它的背后站着三百年来坚不可摧的统计学习理论。传统的理论严厉地警告我们：模型参数越多，越容易过拟合；一旦过拟合，模型就会变成只会死记硬背的“复读机”。然而，现实却狠狠打了理论一记耳光。从 GPT-3 到 Claude 3.5，再到 DeepSeek-V3，模型越来越庞大，能力却越来越像在展现真正的“智能”。全球科技巨头豪掷千金去 Scaling（扩大规模），没有人试图把模型变小。到底是理论错了，还是我们遗漏了什么？本文将带你拨开迷雾，从“过拟合悖论”出发，途径“双重下降”与“彩票假说”，最终带你窥见“压缩即智能”的终极图景。

第一幕：悖论 —— 传统理论说，大模型必死

两种学习方式：理解 vs 死记硬背

想象我们正在训练一个神经网络来学习加法。当我们喂给它海量的算式（如 13+28=41）时，它调整内部的权重以输出正确答案。但要达到“正确”，其实有两条路：

路径 A（学到算法）： 模型在内部抽象出了“逐位相加、遇十进一”的底层规则。这只需要极少的存储空间，且能完美泛化到它从未见过的新数字上。
路径 B（死记硬背）： 模型在内部构建了一个庞大的“查找表”，把所有的训练集和答案死死记在脑子里。碰到做过的题秒答，碰到没见过的题直接崩溃。

问题在于，在浩如烟海的可能权重配置中，绝大多数能完美拟合训练数据的解，行为上都更像路径 B（查找表）。这就叫过拟合（Overfitting）：模型完美记住了细节，却错失了规律。

经典的教科书解法：把模型“饿瘦”

为了防止模型作弊，传统机器学习的解法非常直觉：限制模型的容量（参数量）。

如果模型小到根本装不下那个庞大的“查找表”，它就被迫只能去寻找最精简的底层规则。这就形成了一张所有算法工程师都倒背如流的 U 型曲线：

左侧是模型太小导致的“欠拟合”，右侧是模型太大导致的“过拟合”，只有中间那个容量刚刚好的点，才是泛化能力最强的“甜点”。

基于这个铁律，如果在 2018 年之前，你提出要训练一个包含数千亿参数的语言模型，学术界会觉得你疯了。他们会说：“那绝对会过拟合，它只会变成一只随机鹦鹉，毫无理解力可言。”

第二幕：反转 —— 砸碎 U 型曲线的“双重下降”

2019 年，历史的齿轮开始转动。

以 Mikhail Belkin 等人为代表的学者，以及 OpenAI 的 Nakkiran 与 Ilya Sutskever 团队，相继发表了重磅论文。他们做了一个违背祖宗决定的实验：越过那个看似无可救药的过拟合点，继续把模型往死里做大。

奇迹出现了。当模型大到足以完美背下所有训练数据之后，随着参数量的进一步增加，其测试误差竟然又开始下降了！而且降得比之前的最优点还要低，且似乎深不见底。

这个现象被正式命名为 Double Descent（双重下降）。

研究者们发现，无论是在 ResNet、CNN 还是 Transformer 架构上，双重下降现象普遍存在。这证明了：一味扩大规模（Scaling）并不是在无脑堆砌，跨越了那个危险的过拟合临界点后，是一片泛化能力飙升的新大陆。

第三幕：解释 —— 庞然大物体内的“中奖彩票”

双重下降证明了大模型更好，但这完全违背了奥卡姆剃刀原理（如无必要，勿增实体），难道越臃肿的模型越聪明？

同年，MIT 的 Frankle 和 Carbin 提出了获得 ICLR 最佳论文奖的彩票假说（The Lottery Ticket Hypothesis）。

他们通过剪枝实验发现了一个极其反直觉的结论：在一个庞大的神经网络中，高达 96% 的权重其实是毫无用处的废料。 真正干活的，是一个只占整体参数 4%（甚至更少）的微型子网络，它能完全媲美整个大网络的性能。

为什么大网络能找到最好的解？

既然只需要那个 4% 的小网络，为什么不一开始就直接训练它？答案在于“初始化”。

神经网络的训练依赖梯度下降寻优，这就像把一个小球扔进连绵起伏的误差山谷，很容易卡在半山腰的“局部最优”里出不来。小网络容错率极低，只要初始落点不好，就全盘皆输。

但大网络不同。大网络内部包含了天文数字般的子网络组合。每个子网络，就像是一张彩票。

当你只有几张彩票（小网络）时，中奖全凭运气；但当你有几十亿张彩票（庞大的参数量）时，必定有一张彩票天生就带着极佳的初始权重，它能迅速收敛到最完美的全局最优解。

网络越大，彩票越多；彩票越多，你就越有机会抽到一张“极小、极精简、极聪明”的完美子网络。

你看，大网络非但没有违背奥卡姆剃刀原理，反而正是庞大的参数量，帮我们从茫茫宇宙中搜寻到了那把最锋利的“剃刀”。

现实应用：既然没用，能删掉吗？

实际上，我们无法轻易剔除那 96% 的无用权重，因为寻找这根“救命稻草”的算力成本（反复训练和剪枝）远超收益，且这种非结构化稀疏在现代 GPU 密集的矩阵运算中跑不出明显的加速效果。

但工业界吸收了这个思想，演化出了今天我们熟知的降本增效利器：

量化（Quantization）： 如 INT4 精度压缩。
知识蒸馏（Distillation）： 用大模型当老师教导小模型。
混合专家架构（MoE）： 如 DeepSeek-V3 或 Mixtral，这就是最接近彩票假说精神的架构——模型极其庞大，但每次推理只激活那一小撮最精准的“专家参数”。

第四幕：远景 —— Scaling Laws 与压缩即智能

前三幕解释了“为什么能行”，接下来我们要看“能行到什么程度”。

2020 年，OpenAI 提出了著名的 Scaling Laws（缩放定律）。他们发现语言模型的损失（Loss）与模型参数量（N）、数据量（D）、计算量（C）之间，存在着光滑完美的幂律关系：

损失与参数量的关系：$L(N) \propto N^{-0.076}$

损失与数据量的关系：$L(D) \propto D^{-0.095}$

损失与计算量的关系：$L(C) \propto C^{-0.050}$

（注：随后 2022 年 DeepMind 的 Chinchilla 论文对上述定律进行了修正，指出数据量和参数量需要同比例扩大，大模型才不会被“饿死”。）

这些公式说明，虽然增加算力带来的边际收益在递减，但大模型确确实实处于“双重下降”曲线右侧那条不断逼近真理的直线上。

奥卡姆剃刀的终极形态：压缩即理解

这引出了信息论和人工智能领域最深邃的洞见（由 Solomonoff 和 Kolmogorov 等人奠基）：理解一个事物，等价于找到生成该事物的最短程序。最佳的模型，就是极致的压缩。

DeepMind 在 2024 年的论文中严格证明了这一点：语言模型本质上就是通用数据压缩器。一个仅在文本上训练的大模型，它压缩图片和音频的效率甚至超过了 PNG 或 FLAC 等专用算法！

它并没有死记硬背像素或声波，它是学到了数据底层更深度的结构和规律。

Othello-GPT：黑匣子里的世界模型

如果有人依然坚持“预测下一个词只是概率统计”，那么 Kenneth Li 在 2023 年发表的 Othello-GPT 实验就是最有力的反击。

研究人员只给 GPT 喂食黑白棋（奥赛罗）的走法序列（如 C4、D3...），从不给它看棋盘，从不告诉它规则，没有任何二维空间信息。

结果，研究人员探测模型的神经网络内部，发现模型为了精准预测下一步走法，竟然在极其底层的隐空间中，自发构建出了一个极其精准的 8x8 二维棋盘世界模型！

一个从未“看”过世界的模型，为了压缩信息、预测下一个词，被迫在内部重构了世界的底层规律。

结语：拼起通向 AGI 的图景

当我们把这些理论全部拼合在一起，一条通往未来的清晰逻辑链就此显现：

为了找到最优的解释（奥卡姆剃刀），我们需要寻找最短的生成程序（Solomonoff 归纳）；而在深度学习的混沌中，我们需要庞大的参数量来提供海量的搜索空间（彩票假说与双重下降）；在这个广阔的空间里，只要遵循幂律不断注入算力和数据（Scaling Laws），预测下一个词的生存压力，终将迫使模型在内部重构出真实的世界模型（压缩即智能）。

大模型的力量，绝不在于它用几千亿个参数死记硬背了人类的互联网；而在于它利用这海量的参数作为垫脚石，找出了能够生成人类文明知识的那一套极其精妙、底层的世界规则。

预测，即压缩；压缩，即理解。

模型不需要我们直接告诉它世界是什么样子。只要你让它竭尽全力去预测下一个词，它自然会在浩瀚的数据中，自己去发现整个宇宙。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

登录后参与评论

0 条评论

热度