近年来,从自然语言处理领域出来的transformer架构,在计算机视觉领域获得了长足的发展,一时间transformer-based方法席卷CV界。
作为捍卫卷积网络尊严大本营的Meta AI FAIR ,之前已经发布了ConvNeXt 模型,在视觉的各任务中表现出了强大的性能,最近他们又开源了ConvNeXt V2,借助大火的自监督学习模型MAE的方法,实现了不逊于最优秀的ViT模型的性能,而且一口气开源了8个由小到大的模型,方便开发者在各种场景中使用。
论文作者信息:
作者来自KAIST、Meta AI、纽约大学。
论文地址:
https://arxiv.org/pdf/2301.00808.pdf
开源代码:
https://github.com/facebookresearch/ConvNeXt-V2
以下是ConvNeXt V2与自监督、监督学习的ConvNeXt V1在ImageNet上的Top1精度对比,可见不同体量的模型均获得了显著的性能提升。
ConvNeXt V2的设计初衷,乃是作者认为自监督学习算法如MAE可以助力卷积网络学习到更好的图像表示,但作者发现如果只是简单的结合MAE与ConvNeXt,效果差强人意,其改进后的算法,即加入用于防止特征坍塌(Feature collapse)的GRN层(Global Response Normalization)的全卷积masked autoencoder(FCMAE)则获得了大幅性能提升,即ConvNeXt V2。作者并据此缩放,开发并开源了8个体量大小不同的模型,使在不同计算场景下ConvNeXt V2都有用武之地。
FCMAE框架的简单示意:
GRN 伪代码:
GRN层加入的位置:
作者在实验比较部分,主要是跟目前比较被推崇的ViT相关算法进行了比较。(硬扛ViT的火药味非常明显)
如下,在ImageNet图像分类任务上,ConvNeXt V2取得了与Swin-transformer相似的性能。
在下游任务中,比如目标检测与实例分割,使用ConvNeXt V2为骨干网的Mask-RCNN取得了与Swin相比略好的结果。
在语义分割中,ADE20K数据集上也表现不俗,相同体量的模型,与Swin相比,仍然足可比肩。
Meta AI 的这项研究表明,卷积网络仍然潜力巨大,这次开源的ConvNeXt V2值得大家一试。当然其是否能在大量视觉任务中真正具有替代甚至超越类似Swin算法的潜力,仍然需要更多研究工作来验证支撑。
快去试试吧:
https://github.com/facebookresearch/ConvNeXt-V2
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有