在计算机视觉领域,网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络(如VGG、ResNet)通过堆叠相同拓扑结构的模块来构建深度网络,但这种单一维度的扩展方式逐渐显现出局限性。我们注意到,Inception系列网络通过split-transform-merge策略获得了显著性能提升,但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。
我们提出了一种新颖的深度神经网络架构 ResNeXt ,通过引入基数(Cardinality) 这一新维度,结合残差学习与多分支变换策略,显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性,还融合了Inception模块的split-transform-merge思想,在保持计算复杂度的同时,实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。
传统的深度神经网络设计主要围绕深度 和宽度 两个维度展开。然而,我们发现增加基数 (即同一层内并行变换路径的数量)能更高效地提升模型性能。这一设计灵感来源于以下观察:
基于此,我们提出了 聚合残差变换Aggregated Residual Transformations ,将多个相同拓扑结构的变换路径(基数)集成到残差块中,形成统一的模块化设计:
我们遵循VGG/ResNet的模块重复原则 ,所有残差块共享相同拓扑结构,并遵循两条核心规则:
空间尺寸相同的层共享超参数(如卷积核尺寸、宽度)。
下采样时宽度翻倍:每次空间尺寸减半(如从56×56到28×28),通道数增加一倍以平衡计算量。
这一规则确保了网络的计算复杂度均匀分布 ,同时极大简化了超参数调整,如下是ResNet-50与ResNeXt-50架构对比:
Stage | ResNet-50 | ResNeXt-50 (32×4d) |
---|---|---|
conv2 | [1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次) | [1×1, 128] → 分组卷积(32组) → [1×1, 256] (重复3次) |
参数量 | 25.5M | 25.0M |
FLOPs | 4.1×10⁹ | 4.2×10⁹ |
(注:分组卷积的分组数等于基数C=32,后文将详细解释。)
传统的残差块由三个卷积层构成:1×1降维 → 3×3卷积 → 1×1升维。例如,输入256通道经过1×1卷积降维至64通道,再通过3×3卷积,最后升维回256通道。
我们引入基数C ,将单一变换路径扩展为C条并行路径,每条路径执行相同的操作:
拆分(Split):输入特征通过1×1卷积映射到低维空间(如4通道)。
变换(Transform):对每个低维嵌入执行3×3卷积。
聚合(Merge):将所有路径的输出按通道相加,再通过1×1卷积恢复维度。
ResNeXt的聚合变换可通过三种等效形式实现(如图所示):
独立路径相加(图a):每条路径独立计算后相加,直观但实现复杂。
早期拼接(图b):将低维变换后的特征在通道维度拼接,再通过1×1卷积融合。此形式与Inception-ResNet模块相似,但所有路径共享相同拓扑。
分组卷积(图c):利用分组卷积(Grouped Convolution)隐式实现多路径拆分。例如,输入128通道通过32组4通道的3×3卷积,等效于32条独立路径的聚合。
分组卷积的优势:
为公平比较不同基数对模型性能的影响,我们固定模型的参数量和计算量(FLOPs),通过调整 瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系(固定复杂度):
基数C | 1 | 2 | 4 | 8 | 32 |
---|---|---|---|---|---|
瓶颈宽度d | 64 | 40 | 24 | 14 | 4 |
分组卷积宽度 | 64 | 80 | 96 | 112 | 128 |
实验表明,当C=32、d=4时,模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%(从23.9%降至22.2%),验证了基数提升的有效性。
基数优于深度/宽度:ResNeXt-101(32×4d)在相同复杂度下,分类误差较ResNet-101降低0.8%(从22.0%至21.2%)。
扩展基数提升显著:将基数从32增至64(参数量翻倍),ResNeXt-101的Top-1误差进一步降至20.4%,优于ResNet-200(21.7%)和更宽的ResNet变体(21.3%)。
ImageNet-1K分类误差对比:
模型 | Top-1误差 (%) |
---|---|
ResNet-50 | 23.9 |
ResNeXt-50 (32×4d) | 22.2 |
ResNet-101 | 22.0 |
ResNeXt-101 (32×4d) | 21.2 |
目标检测(COCO):ResNeXt-50在Faster R-CNN框架下,AP@0.5提升2.1%(47.6% → 49.7%)。
小数据集(CIFAR):ResNeXt-29(16×64d)在CIFAR-10上达到3.58%的测试误差,优于Wide ResNet。
基数作为新维度:首次将基数与深度、宽度并列,为网络设计提供新方向。
模块化与可扩展性:所有残差块共享相同拓扑,避免了Inception的定制化复杂性。
高效实现:通过分组卷积实现多路径聚合,兼顾性能与效率。
在COCO目标检测任务中:
本方法为视觉识别任务提供了新的基础架构范式,其简单的模块化设计、可扩展的基数维度、高效的实现方式,使其在保持ResNet易用性的同时,达到了超越Inception系列模型的性能。相关代码和预训练模型已开源,推动了后续研究和工业应用的快速发展。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。