首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ResNet的基础架构–残差块

ResNet的基础架构–残差块

原创
作者头像
一个风轻云淡
发布2026-01-13 21:59:49
发布2026-01-13 21:59:49
1740
举报
文章被收录于专栏:深度学习深度学习

在ResNet之前,人们发现深度网络训练时遇到一个悖论:

观察现象

预期结果

实际结果

增加网络层数

效果应该更好

效果反而变差

深层网络

应该更容易拟合

训练误差反而更高

这不是过拟合,因为:

  • ❌ 训练误差高,测试误差也高
  • ✅ 过拟合是训练误差低,测试误差高

这种现象就是网络退化:增加深度反而让模型性能下降,而不是提升。

既然直接让网络学习一个复杂的映射H( x )很困难,那么我们不如让它学习这个映射与输入x之间的“残差”。

残差网络之所以强大,核心就在于那个“加法”。它不要求网络从零学起,而是让它学会“微调”——在已有信息的基础上做小的修正。这让网络有了“保底”:最差情况下,它至少能原封不动地传递输入(残差为零),不会比浅层网络更差。梯度也因此有了直达车,能轻松穿越成百上千层,让训练变得稳定。无论网络多深、任务多复杂,这个简单的“原始输入+调整量”的思路都管用,所以它几乎成了现代深度模型的标配设计。

代码语言:python
复制
    def forward(self,x):
        y=self.ReLu(self.bn1(self.conv1(x)))
        y=self.bn2(self.conv2(y))
        if self.conv3:
            x=self.conv3(x)
        y = self.ReLu(y + x)

        return y

ResNet 的核心贡献在于,它用一个简洁而深刻的“捷径连接”(即残差学习)思想,一举突破了制约神经网络深度的理论枷锁和实践瓶颈。这不仅使其在2015年 ImageNet 竞赛中以超越人类水平的精度(3.57% 错误率)夺魁,更重要的是,它将深层网络的训练从“玄学”变成了“工程”,使得构建成百上千层的网络不再是空中楼阁。

这种设计范式迅速从一种解决方案演变为一种通用语言。其核心的“恒等映射”思想——允许信息无损地跨层流动——被证明是一种元结构。它迅速超越计算机视觉的范畴,成为 Transformer、DenseNet 等一系列划时代模型的基石性组件。无论是处理图像的 CNN,还是处理序列的 Transformer,都能看到 ResNet 所奠定的“让网络更容易优化”这一设计哲学的身影。

因此,ResNet 的历史地位,不仅在于赢得了一次比赛,更在于它为整个深度学习领域提供了一把可靠地“加深”网络的钥匙,从而开启了超深度模型大规模探索与应用的新时代。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档