在ResNet之前,人们发现深度网络训练时遇到一个悖论:
观察现象 | 预期结果 | 实际结果 |
|---|---|---|
增加网络层数 | 效果应该更好 | 效果反而变差 |
深层网络 | 应该更容易拟合 | 训练误差反而更高 |
这不是过拟合,因为:
这种现象就是网络退化:增加深度反而让模型性能下降,而不是提升。
既然直接让网络学习一个复杂的映射H( x )很困难,那么我们不如让它学习这个映射与输入x之间的“残差”。

残差网络之所以强大,核心就在于那个“加法”。它不要求网络从零学起,而是让它学会“微调”——在已有信息的基础上做小的修正。这让网络有了“保底”:最差情况下,它至少能原封不动地传递输入(残差为零),不会比浅层网络更差。梯度也因此有了直达车,能轻松穿越成百上千层,让训练变得稳定。无论网络多深、任务多复杂,这个简单的“原始输入+调整量”的思路都管用,所以它几乎成了现代深度模型的标配设计。
def forward(self,x):
y=self.ReLu(self.bn1(self.conv1(x)))
y=self.bn2(self.conv2(y))
if self.conv3:
x=self.conv3(x)
y = self.ReLu(y + x)
return yResNet 的核心贡献在于,它用一个简洁而深刻的“捷径连接”(即残差学习)思想,一举突破了制约神经网络深度的理论枷锁和实践瓶颈。这不仅使其在2015年 ImageNet 竞赛中以超越人类水平的精度(3.57% 错误率)夺魁,更重要的是,它将深层网络的训练从“玄学”变成了“工程”,使得构建成百上千层的网络不再是空中楼阁。
这种设计范式迅速从一种解决方案演变为一种通用语言。其核心的“恒等映射”思想——允许信息无损地跨层流动——被证明是一种元结构。它迅速超越计算机视觉的范畴,成为 Transformer、DenseNet 等一系列划时代模型的基石性组件。无论是处理图像的 CNN,还是处理序列的 Transformer,都能看到 ResNet 所奠定的“让网络更容易优化”这一设计哲学的身影。
因此,ResNet 的历史地位,不仅在于赢得了一次比赛,更在于它为整个深度学习领域提供了一把可靠地“加深”网络的钥匙,从而开启了超深度模型大规模探索与应用的新时代。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。