前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >ResNeXt: 通过聚合残差变换增强深度神经网络

ResNeXt: 通过聚合残差变换增强深度神经网络

原创
作者头像
是Dream呀
发布2025-03-07 10:09:19
发布2025-03-07 10:09:19
740
举报
文章被收录于专栏:总结xyp总结xyp

在计算机视觉领域,网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络(如VGG、ResNet)通过堆叠相同拓扑结构的模块来构建深度网络,但这种单一维度的扩展方式逐渐显现出局限性。我们注意到,Inception系列网络通过split-transform-merge策略获得了显著性能提升,但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。

我们提出了一种新颖的深度神经网络架构 ResNeXt ,通过引入基数(Cardinality) 这一新维度,结合残差学习与多分支变换策略,显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性,还融合了Inception模块的split-transform-merge思想,在保持计算复杂度的同时,实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。

1. 核心思想与动机

传统的深度神经网络设计主要围绕深度宽度 两个维度展开。然而,我们发现增加基数 (即同一层内并行变换路径的数量)能更高效地提升模型性能。这一设计灵感来源于以下观察:

  1. ResNet的局限性:ResNet通过残差连接缓解了深层网络的优化难题,但其单一路径的变换限制了特征的多样性。
  2. Inception的启发:Inception模块通过多分支不同尺度的卷积操作捕获多粒度特征,但复杂的定制化设计难以扩展。
  3. Split-Transform-Merge策略:将输入特征拆分为多个低维嵌入,分别进行变换后聚合,可显著增强特征的表达能力。

基于此,我们提出了 聚合残差变换Aggregated Residual Transformations ,将多个相同拓扑结构的变换路径(基数)集成到残差块中,形成统一的模块化设计:

2. ResNeXt的核心架构

2.1 模板化设计规则

我们遵循VGG/ResNet的模块重复原则 ,所有残差块共享相同拓扑结构,并遵循两条核心规则:

空间尺寸相同的层共享超参数(如卷积核尺寸、宽度)。

下采样时宽度翻倍:每次空间尺寸减半(如从56×56到28×28),通道数增加一倍以平衡计算量。

这一规则确保了网络的计算复杂度均匀分布 ,同时极大简化了超参数调整,如下是ResNet-50与ResNeXt-50架构对比:

Stage

ResNet-50

ResNeXt-50 (32×4d)

conv2

[1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次)

[1×1, 128] → 分组卷积(32组) → [1×1, 256] (重复3次)

参数量

25.5M

25.0M

FLOPs

4.1×10⁹

4.2×10⁹

(注:分组卷积的分组数等于基数C=32,后文将详细解释。)

2.2 残差块的重新设计

原始ResNet残差块(图左)

传统的残差块由三个卷积层构成:1×1降维 → 3×3卷积 → 1×1升维。例如,输入256通道经过1×1卷积降维至64通道,再通过3×3卷积,最后升维回256通道。

ResNeXt残差块(图右)

我们引入基数C ,将单一变换路径扩展为C条并行路径,每条路径执行相同的操作:

拆分(Split):输入特征通过1×1卷积映射到低维空间(如4通道)。

变换(Transform):对每个低维嵌入执行3×3卷积。

聚合(Merge):将所有路径的输出按通道相加,再通过1×1卷积恢复维度。

2.3 基数的等效实现形式

ResNeXt的聚合变换可通过三种等效形式实现(如图所示):

独立路径相加(图a):每条路径独立计算后相加,直观但实现复杂。

早期拼接(图b):将低维变换后的特征在通道维度拼接,再通过1×1卷积融合。此形式与Inception-ResNet模块相似,但所有路径共享相同拓扑。

分组卷积(图c):利用分组卷积(Grouped Convolution)隐式实现多路径拆分。例如,输入128通道通过32组4通道的3×3卷积,等效于32条独立路径的聚合。

分组卷积的优势

  • 实现更高效,无需显式管理多分支。
  • 兼容现有深度学习框架(如PyTorch、TensorFlow)。

2.4 基数与宽度的权衡

为公平比较不同基数对模型性能的影响,我们固定模型的参数量和计算量(FLOPs),通过调整 瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系(固定复杂度):

基数C

1

2

4

8

32

瓶颈宽度d

64

40

24

14

4

分组卷积宽度

64

80

96

112

128

实验表明,当C=32、d=4时,模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%(从23.9%降至22.2%),验证了基数提升的有效性。

3. 实验结果与验证

3.1 ImageNet-1K分类任务

基数优于深度/宽度:ResNeXt-101(32×4d)在相同复杂度下,分类误差较ResNet-101降低0.8%(从22.0%至21.2%)。

扩展基数提升显著:将基数从32增至64(参数量翻倍),ResNeXt-101的Top-1误差进一步降至20.4%,优于ResNet-200(21.7%)和更宽的ResNet变体(21.3%)。

ImageNet-1K分类误差对比:

模型

Top-1误差 (%)

ResNet-50

23.9

ResNeXt-50 (32×4d)

22.2

ResNet-101

22.0

ResNeXt-101 (32×4d)

21.2

3.2 跨任务泛化能力

目标检测(COCO):ResNeXt-50在Faster R-CNN框架下,AP@0.5提升2.1%(47.6% → 49.7%)。

小数据集(CIFAR):ResNeXt-29(16×64d)在CIFAR-10上达到3.58%的测试误差,优于Wide ResNet。

4. 总结与展望

基数作为新维度:首次将基数与深度、宽度并列,为网络设计提供新方向。

模块化与可扩展性:所有残差块共享相同拓扑,避免了Inception的定制化复杂性。

高效实现:通过分组卷积实现多路径聚合,兼顾性能与效率。

在COCO目标检测任务中:

  • Faster R-CNN框架下,ResNeXt-50较ResNet-50绝对提升2.1% AP@0.5
  • 后续工作(如Mask R-CNN)验证了本架构在实例分割任务的优越性

本方法为视觉识别任务提供了新的基础架构范式,其简单的模块化设计、可扩展的基数维度、高效的实现方式,使其在保持ResNet易用性的同时,达到了超越Inception系列模型的性能。相关代码和预训练模型已开源,推动了后续研究和工业应用的快速发展。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 核心思想与动机
  • 2. ResNeXt的核心架构
    • 2.1 模板化设计规则
    • 2.2 残差块的重新设计
      • 原始ResNet残差块(图左)
      • ResNeXt残差块(图右)
    • 2.3 基数的等效实现形式
    • 2.4 基数与宽度的权衡
  • 3. 实验结果与验证
    • 3.1 ImageNet-1K分类任务
    • 3.2 跨任务泛化能力
  • 4. 总结与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档