2)由于Transformers在多种模态中占主导地位,ConvNets在视觉以外的领域是否也具有很强的通用感知能力还有待研究。
本文从两个方面进行贡献。...1)我们提出了设计大内核ConvNet的四个架构指南,其核心是利用大内核的本质特征,将它们与小内核区分开来——它们可以看得很宽而不深入。...具体地说,我们为大内核ConvNets提出了四个体
系结构指南--1)使用诸如SE块24的有效结构来增
加深度,2)使用所提出的扩展重编程块来重新参数化
大内核conv层,以在没有推理成本的情况下提高性能...,
3)由下游任务决定内核大小,通常只在中高层使用大
型内核层,以及4)添加3x3conv而不是更多的大内核,同
时放大模型的深度。...按照这样的指导原则建立的
ConvNet(图)分别实现了上述三种效果,因为它使
用少量的大内核来保证大的ERF,使用小内核来更有效
地提取更复杂的空间模式,使用多个轻量级块来进一
步增加深度以增强表示能力