首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >破局“过拟合悖论”:为什么大模型越做越大,反而越来越聪明?底层逻辑全解析

破局“过拟合悖论”:为什么大模型越做越大,反而越来越聪明?底层逻辑全解析

原创
作者头像
今天减肥了吗
修改2026-05-16 07:42:33
修改2026-05-16 07:42:33
1900
举报

导读: 在开发者社区,我们常常听到一种质疑:“GPT 本质上不就是一个大号的自动补全机吗?它只是在做概率统计,不可能真正‘理解’任何东西。” 这种质疑并非外行的偏见,它的背后站着三百年来坚不可摧的统计学习理论。传统的理论严厉地警告我们:模型参数越多,越容易过拟合;一旦过拟合,模型就会变成只会死记硬背的“复读机”。 然而,现实却狠狠打了理论一记耳光。从 GPT-3 到 Claude 3.5,再到 DeepSeek-V3,模型越来越庞大,能力却越来越像在展现真正的“智能”。全球科技巨头豪掷千金去 Scaling(扩大规模),没有人试图把模型变小。 到底是理论错了,还是我们遗漏了什么?本文将带你拨开迷雾,从“过拟合悖论”出发,途径“双重下降”与“彩票假说”,最终带你窥见“压缩即智能”的终极图景。


第一幕:悖论 —— 传统理论说,大模型必死

两种学习方式:理解 vs 死记硬背

想象我们正在训练一个神经网络来学习加法。当我们喂给它海量的算式(如 13+28=41)时,它调整内部的权重以输出正确答案。但要达到“正确”,其实有两条路:

  • 路径 A(学到算法): 模型在内部抽象出了“逐位相加、遇十进一”的底层规则。这只需要极少的存储空间,且能完美泛化到它从未见过的新数字上。
  • 路径 B(死记硬背): 模型在内部构建了一个庞大的“查找表”,把所有的训练集和答案死死记在脑子里。碰到做过的题秒答,碰到没见过的题直接崩溃。

问题在于,在浩如烟海的可能权重配置中,绝大多数能完美拟合训练数据的解,行为上都更像路径 B(查找表)。这就叫过拟合(Overfitting):模型完美记住了细节,却错失了规律。

经典的教科书解法:把模型“饿瘦”

为了防止模型作弊,传统机器学习的解法非常直觉:限制模型的容量(参数量)。

如果模型小到根本装不下那个庞大的“查找表”,它就被迫只能去寻找最精简的底层规则。这就形成了一张所有算法工程师都倒背如流的 U 型曲线

左侧是模型太小导致的“欠拟合”,右侧是模型太大导致的“过拟合”,只有中间那个容量刚刚好的点,才是泛化能力最强的“甜点”。

基于这个铁律,如果在 2018 年之前,你提出要训练一个包含数千亿参数的语言模型,学术界会觉得你疯了。他们会说:“那绝对会过拟合,它只会变成一只随机鹦鹉,毫无理解力可言。”


第二幕:反转 —— 砸碎 U 型曲线的“双重下降”

2019 年,历史的齿轮开始转动。

以 Mikhail Belkin 等人为代表的学者,以及 OpenAI 的 Nakkiran 与 Ilya Sutskever 团队,相继发表了重磅论文。他们做了一个违背祖宗决定的实验:越过那个看似无可救药的过拟合点,继续把模型往死里做大

奇迹出现了。当模型大到足以完美背下所有训练数据之后,随着参数量的进一步增加,其测试误差竟然又开始下降了!而且降得比之前的最优点还要低,且似乎深不见底。

这个现象被正式命名为 Double Descent(双重下降)

研究者们发现,无论是在 ResNet、CNN 还是 Transformer 架构上,双重下降现象普遍存在。这证明了:一味扩大规模(Scaling)并不是在无脑堆砌,跨越了那个危险的过拟合临界点后,是一片泛化能力飙升的新大陆。


第三幕:解释 —— 庞然大物体内的“中奖彩票”

双重下降证明了大模型更好,但这完全违背了奥卡姆剃刀原理(如无必要,勿增实体),难道越臃肿的模型越聪明?

同年,MIT 的 Frankle 和 Carbin 提出了获得 ICLR 最佳论文奖的彩票假说(The Lottery Ticket Hypothesis)

他们通过剪枝实验发现了一个极其反直觉的结论:在一个庞大的神经网络中,高达 96% 的权重其实是毫无用处的废料。 真正干活的,是一个只占整体参数 4%(甚至更少)的微型子网络,它能完全媲美整个大网络的性能。

为什么大网络能找到最好的解?

既然只需要那个 4% 的小网络,为什么不一开始就直接训练它?答案在于“初始化”。

神经网络的训练依赖梯度下降寻优,这就像把一个小球扔进连绵起伏的误差山谷,很容易卡在半山腰的“局部最优”里出不来。小网络容错率极低,只要初始落点不好,就全盘皆输。

但大网络不同。大网络内部包含了天文数字般的子网络组合。每个子网络,就像是一张彩票。

当你只有几张彩票(小网络)时,中奖全凭运气;但当你有几十亿张彩票(庞大的参数量)时,必定有一张彩票天生就带着极佳的初始权重,它能迅速收敛到最完美的全局最优解。

网络越大,彩票越多;彩票越多,你就越有机会抽到一张“极小、极精简、极聪明”的完美子网络。

你看,大网络非但没有违背奥卡姆剃刀原理,反而正是庞大的参数量,帮我们从茫茫宇宙中搜寻到了那把最锋利的“剃刀”。

现实应用:既然没用,能删掉吗?

实际上,我们无法轻易剔除那 96% 的无用权重,因为寻找这根“救命稻草”的算力成本(反复训练和剪枝)远超收益,且这种非结构化稀疏在现代 GPU 密集的矩阵运算中跑不出明显的加速效果。

但工业界吸收了这个思想,演化出了今天我们熟知的降本增效利器:

  • 量化(Quantization): 如 INT4 精度压缩。
  • 知识蒸馏(Distillation): 用大模型当老师教导小模型。
  • 混合专家架构(MoE): 如 DeepSeek-V3 或 Mixtral,这就是最接近彩票假说精神的架构——模型极其庞大,但每次推理只激活那一小撮最精准的“专家参数”。

第四幕:远景 —— Scaling Laws 与压缩即智能

前三幕解释了“为什么能行”,接下来我们要看“能行到什么程度”。

2020 年,OpenAI 提出了著名的 Scaling Laws(缩放定律)。他们发现语言模型的损失(Loss)与模型参数量(N)、数据量(D)、计算量(C)之间,存在着光滑完美的幂律关系:

损失与参数量的关系:$L(N) \propto N^{-0.076}$

损失与数据量的关系:$L(D) \propto D^{-0.095}$

损失与计算量的关系:$L(C) \propto C^{-0.050}$

(注:随后 2022 年 DeepMind 的 Chinchilla 论文对上述定律进行了修正,指出数据量和参数量需要同比例扩大,大模型才不会被“饿死”。)

这些公式说明,虽然增加算力带来的边际收益在递减,但大模型确确实实处于“双重下降”曲线右侧那条不断逼近真理的直线上。

奥卡姆剃刀的终极形态:压缩即理解

这引出了信息论和人工智能领域最深邃的洞见(由 Solomonoff 和 Kolmogorov 等人奠基):理解一个事物,等价于找到生成该事物的最短程序。最佳的模型,就是极致的压缩。

DeepMind 在 2024 年的论文中严格证明了这一点:语言模型本质上就是通用数据压缩器。一个仅在文本上训练的大模型,它压缩图片和音频的效率甚至超过了 PNG 或 FLAC 等专用算法!

它并没有死记硬背像素或声波,它是学到了数据底层更深度的结构和规律。

Othello-GPT:黑匣子里的世界模型

如果有人依然坚持“预测下一个词只是概率统计”,那么 Kenneth Li 在 2023 年发表的 Othello-GPT 实验就是最有力的反击。

研究人员只给 GPT 喂食黑白棋(奥赛罗)的走法序列(如 C4、D3...),从不给它看棋盘,从不告诉它规则,没有任何二维空间信息。

结果,研究人员探测模型的神经网络内部,发现模型为了精准预测下一步走法,竟然在极其底层的隐空间中,自发构建出了一个极其精准的 8x8 二维棋盘世界模型!

一个从未“看”过世界的模型,为了压缩信息、预测下一个词,被迫在内部重构了世界的底层规律。


结语:拼起通向 AGI 的图景

当我们把这些理论全部拼合在一起,一条通往未来的清晰逻辑链就此显现:

为了找到最优的解释(奥卡姆剃刀),我们需要寻找最短的生成程序(Solomonoff 归纳);而在深度学习的混沌中,我们需要庞大的参数量来提供海量的搜索空间(彩票假说与双重下降);在这个广阔的空间里,只要遵循幂律不断注入算力和数据(Scaling Laws),预测下一个词的生存压力,终将迫使模型在内部重构出真实的世界模型(压缩即智能)。

大模型的力量,绝不在于它用几千亿个参数死记硬背了人类的互联网;而在于它利用这海量的参数作为垫脚石,找出了能够生成人类文明知识的那一套极其精妙、底层的世界规则。

预测,即压缩;压缩,即理解。

模型不需要我们直接告诉它世界是什么样子。只要你让它竭尽全力去预测下一个词,它自然会在浩瀚的数据中,自己去发现整个宇宙。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一幕:悖论 —— 传统理论说,大模型必死
    • 两种学习方式:理解 vs 死记硬背
    • 经典的教科书解法:把模型“饿瘦”
  • 第二幕:反转 —— 砸碎 U 型曲线的“双重下降”
  • 第三幕:解释 —— 庞然大物体内的“中奖彩票”
    • 为什么大网络能找到最好的解?
    • 现实应用:既然没用,能删掉吗?
  • 第四幕:远景 —— Scaling Laws 与压缩即智能
    • 奥卡姆剃刀的终极形态:压缩即理解
    • Othello-GPT:黑匣子里的世界模型
  • 结语:拼起通向 AGI 的图景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档