首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    YOLOv8改进: RevCol,大模型架构设计新范式,ImageNet 90% Top-1 Acc | ICLR 2023

    摘要:介绍最新的工作“Reversible Column Networks”,将解耦学习(disentangled feature learning)的思想引入模型设计中,提出以reversible column为单元来传递信息,既保证特征解耦,同时信息在网络中的传递不受到损失。整个网络结构包括了多个子网络(我们称为column),column间加入可逆的连接,通过将输入反复接入column,逐渐分离low-level的纹理细节和semantic语义信息。这样做的好处在于,既能够保证在预训练中保持高精度,又保证了low-level的信息不丢失以在下游任务(detection,segmentation)中能够达到更好效果。为了验证这套设计模式在大模型大数据下的表现,我们在RevCol上做了一个2B参数的纯CNN超大模型,且只使用了3x3的卷积核。在ImageNet-1K上达到了90%的Top-1 Accuracy,下游的检测和分割任务上双双达到60+的水平,COCO AP box 63.8%,ADE 20k mIoU 61.0%。此外,RevCol架构依然遵循了可逆神经网络的设计范式,也就继承了可逆网络天然的节省显存的优势,文中的大部分实验均可在2080ti上完成。而节省显存这件事,对于大模型训练无疑是重要的。

    04
    领券