Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >旷视张祥雨|迈向「大」和「统一」的视觉神经网络架构设计新思路

旷视张祥雨|迈向「大」和「统一」的视觉神经网络架构设计新思路

作者头像
AI科技评论
发布于 2023-05-12 06:10:23
发布于 2023-05-12 06:10:23
1.1K0
举报
文章被收录于专栏:AI科技评论AI科技评论

大模型正在引发人工智能研究与应用范式产生重大变革,越来越多的顶级团队和杰出人才纷纷加入这一技术浪潮。今天我们将分享旷视科技主任研究员张祥雨「视觉模型:迈向“大”和“统一”」。

张祥雨,旷视研究院主任研究员,Foundation Model组负责人,西安交通大学人工智能学院兼职教授。2017年博士毕业于西安交通大学,期间参加微软亚洲研究院联合培养博士生项目,师从孙剑博士和何恺明博士。

研究方向包括深度卷积网络设计,深度模型的裁剪与加速等。曾在CVPR/ ICCV/ ECCV/ TPAMI等顶级会议期刊上发表论文60余篇,获CVPR 2016最佳论文奖,并多次获得顶级视觉竞赛如ImageNet/ COCO 冠军。代表作包括业界广泛使用的神经网络架构ResNets/ ShuffleNets/ RepVGG系列,神经网络架构搜索算法SPOS,模型压缩裁剪算法CP/ MetaPruning等。Google Scholar引用数200,000+。

入选福布斯中国U30和AI 2000计算机视觉全球最具影响力学者榜单、ELSEVIER中国高被引学者、智源青年科学家。

近年来,随着 ChatGPT 等应用的爆火,人们对「大模型」的关注度持续提升。在整个视觉人工智能的发展历程中,基础模型的创新一直是最重要的研究课题之一。每一次基础模型的更新都会为学术界和工业界带来巨大的飞跃。以人脸识别为例,在数据驱动的机器学习时代到来后,我们利用基于统计机器学习的人脸识别方法构造了一系列特征提取器,将人脸图像表征为一系列抽象空间中的特征,取代了传统的基于几何特征的人脸识别。SVM、稀疏编码、随机森林等方法的提出进一步提升了模型在该任务的性能。2010 年后,算力的增长引发了深度神经网络的爆发,在生成、识别等任务上取得了巨大的进步。

可见,「基础模型创新是视觉发展的核心源动力」!

进入神经网络时代后,视觉基础模型取得了日新月异的进步,发展出了许多条研究路线。在卷积神经网络方面,2012 年的 AlexNet、2014 年的 VGG、GoogleNet、2015 年的 ResNet 等一系列工作奠定了现代视觉神经网络的基础。随着模型层数不断加深,参数量不断扩大,深度学习模型在视觉识别类任务上的精度不断提升。

然而,视觉模型的参数量、计算量不断增大,为其落地应用带来了一定的障碍。因此,以2016 年 SqueezeNet、2017 年 MobileNet、ShuffleNet 等为代表的工作旨在通过引入大量人工设计构造轻量化、同一化的易于部署的小模型。

为了降低对困难的人工设计的依赖,以 2016 年 Google 发布的NASNet为代表的工作开启了自动化模型架构搜索(NAS)的大门,此类方法在轻量化模型的搜索方面较为有效。模型搜索领域仍存在大量有待解决的问题,例如:平衡搜索效率和精度。搜索粒度越细,搜索空间越大,搜索所需的时间往往越大。

同时,一些研究者提出了动态模型,针对输入动态调整网络参数、架构、推理路径,以期望得到更好的推理性能。但是,随着模型架构越来越复杂,设计难度日渐增加,需要针对不同任务、模态设计不同的模型。

因此,2020 年后,业界的风向从为每种模型设计独特的结构,转换成设计尽可能通用的、能够解决大部分问题的通用模型。这种模型可以统一多种任务,其依赖的硬件架构也可以更为简单。为此,以 2020 年底 VIT 为代表的视觉 Transformer 模型迅速成为了主流的基础视觉模型。Transformer 的最大优势并不一定在于其性能,这种通用模型往往具有较大的冗余度。

由于 Transformer 结构简单,其规模易于扩展,许多大模型(如 GPT 系列)都以 Transformer 为基础构建。此外,我们可以通过 Transformer 统一描述各种任务、模态、信息,获得统一的表示。目前,许多研究者关注是否能够通过扩大视觉模型在 CV 领域中取得成功。

1

「大」、「统一」成为当今

视觉AI基础模型研究新趋势

在视觉模型设计领域中,追求大和统一,已经成为当下公认的重要研究方向。

人们对视觉模型的研究路线呈螺旋式上升的趋势。在 2016 年之前,研究社区主要探究如何将模型做「深」,人们期望越深的网络具有越多的参数、越强的非线性,可以建模更加复杂的任务。如上图所示,近年来 CV 模型的参数量也在持续增长。

如今,「大」不仅指模型更深,更加强调利用更多的数据和算力帮助人们解决通用问题,期望用统一的模型解决多个模态、多个任务。

构建大而通用的模型的好处在于:大反而简单。以往 CV 研究的碎片化现象十分严重。研究者们需要针对特定的任务、数据针对性地设计、调优出一套新的模型架构和上下游算法。因此,看似规模较小的模型其实涉及到非常大的系统的复杂性。

为此,我们期望开发出能够简单地处理多种任务的大模型,统一将检测、分割等任务转化为序列到序列的输出。然而,随着模型规模和数据量的增加,模型性能的边际效益递减,呈对数曲线的形式。此外,视觉模型还并没有出现「涌现」现象。

除了「大」,「统一」也是当下 CV 各领域研究的趋势。尽管近十年来诞生了数不胜数的 CNN 类架构,但是大多数改动和尝试的收益相对有限,大家在实际科研和工业生产环境下往往还是会使用一些久经检验的稳定模型(例如,ResNet、VIT、ConvNext),并且也能取得不错的效果。

在自监督领域,17 年之后出现了许多基于代理任务、对比学习的方法。如今,以 MAE 为代表的掩码图像建模(MIM)方法逐渐成为了统一的选择。

在目标检测领域 。Pix2Seq 的方法逐渐取代了早年的两阶段、端到端、需要 NMS 的多步骤方法,将该问题转化为序列到序列的输出。

以目标检测为例,DETR 刚出现时,大幅增加的计算开销并没有带来相较于 RCNN 系列、YOLO 系列显著的性能提升。但是追求通用框架的意义在于,我们可以大规模地从数据中学习知识,无需针对每个任务单独设计一套系统,避免引入大量人工,可扩展性强。从宏观的角度来说,想要解决通用人工智能问题,首先需要实现模型的规模化扩展。

统一大模型的最大优势在于:简单、强大、通用。统一的框架看似简单,但简单背后也蕴藏着复杂性。

实际上,2013 年谷歌提出的 MultiBox 检测框架就是基于集合预测的思想。然而,目标检测在很长一段时间内被 RCNN 系列垄断。直到 DETR 才真正将基于集合预测的目标检测性能提升到较高水平。这说明,由于框架足够简单、通用,引入的归纳偏执就很少,越不适用于具体单一任务,这对模型框架的设计提出了更高的要求。

我们所看到的统一框架展现给人非常简单的外表,其系统层面上的设计实际上十分复杂,就好比「水面下的冰山」。

尽管「大」是未来模型发展的趋势,但我们并不片面地追求更大的参数量和计算,而是希望从这一趋势中获得持续的性能收益。我们期望设计更强大的模型,以创新算法充分发挥大数据、大算力的威力,随着参数量、训练算法的提升在某个时间点上获得性能的质变,即「涌现」。

同样地,我们并不简单追求形式上的「统一」,更关注统一带来的性能收益。我们期望在纷繁的 AI 模型、算法中提炼本质的特征,统一 AI 系统的设计思路,促进通用化、规模化应用,追求原创、使用、本质的创新。

2

视觉大模型的应用

近年来,张祥雨团队在「通用图像大模型」、「计算摄影大模型」、「视频理解大模型」、「自动驾驶感知大模型」四个方向展开了一系列科学研究和应用开发。

3

通用图像大模型

尽管视觉 Transformer 相较于 CNN 具有更强的通用性,但是它仍然是一种基于自注意力的微观架构创新。从宏观上来说,我们仍然使用的是由「输入」、「中间表征」、「输出」构成的「直筒型」网络。然而,这种网络架构并不一定最优。

为了研制「大」模型,研究者们以往会尝试扩展模型的深度、宽度。然而,这往往会导致训练不稳定、模型难收敛、收益递减等问题。此外,在计算机视觉领域,我们还可以考虑在空间维度上进行设计(例如,探究 CNN 卷积核、输入图像分辨率与模型性能的关系)。

为此,张祥雨团队尝试构建通用化、统一化的新设计范式,实现对模型的统一设计、表征、训练。

4

计算摄影大模型

「图像重建」是计算摄影研究领域的重要方向。其中,张祥雨团队重点关注如何从大数据中学习,构建具有语义一致性的超画质大模型。

相机等光学传感器采集到的数据中通常包含很多噪声,我们可以利用基于人工智能的超像素方法(AISP)进行降噪、超分,将低质量图像恢复为高质量图像。传统的基于反向图像恢复的 AISP 方法会采集配对的清晰图像和带噪图像,再训练网络将有噪声的图像恢复为清晰图像。但这种方式要求我们采集到成对的图像,成本较高。

还有一些研究者对相机传感器的图像退化模式进行建模,估计出加噪降低分辨率的模式,再使用神经网络学习学习其逆向过程,从而恢复出清晰图像。然而,估计出的图像退化模型如果不够精准,就会大大影响恢复的效果。此外,针对不同传感器训练出的神经网络很难兼容,难以达到对统一性、通用性的要求。

在大模型时代,我们可以训练出能够对大量清晰图像建模的容量超大的模型,寻找流形上与待修复图像距离最近的点代表的图像,将其作为超画质大模型的输出结果。

5

视频理解大模型

目前,针对视频的强大预训练模型还有待开发。现有的视频模型大多都是基于图像模型开发而来,使用时序模型将使用图像模型提取到的每一帧的特征关联起来。这种混合式模型将空间域和时序解耦开来,对于强耦合的任务效果较差。相较于易于获得的图像,视频的标签能难以获得,因此视频的信息密度往往较低。

因此常序列视频的监督信号较为稀疏,难以训练。尽管可以通过 VideoMAE 等方式进行掩码建模,但是需要遮蔽 90% 以上的 token 才能得到较好的效果,这说明视频数据具有很高的冗余度,连续的帧之间往往十分相似。由于帧由采样率决定,因此它并非天然的刻度。为此,张祥雨团队试图研发下一代基于稀疏标注的自监督、半监督训练算法,从而解决常序列视频理解的问题。

6

自动驾驶感知大模型

自动驾驶是目前十分火热的计算机视觉应用方向。目前,训练自动驾驶模型十分依赖人工标注,难以大规模扩展。我们需要从大量无标注数据中获取信息。此外,自动驾驶场景下存在多模态、多传感器的长时序数据。近年来,张祥雨团队发布了 VidelBEV 等长时序大模型,期望构建稳健、高效、灵活的多传感器、多视图、多数据的时序建模方法。

7

如何做「大」

视觉 Transformer 之所以强大,主要存在以下几点原因:

(1)灵活的数据形式

(2)长程关系建模能力

(3)更弱的归纳偏置、更强的表示能力

(4)架构的合理性,引入多头注意力机制(MHSA)和残差链接,使用前馈神经网络避免梯度消失、过平滑等现象

(5)对遮挡、噪声具有稳健性

许多研究者认为,相较于 CNN,ViT 具有更高的性能上限。在 ICCV 2019 上,代季峰团队在论文「An Emirical study of spatial attention mechanisms in deep networks」中,系统地研究了自注意力机制,他们认为,Query-key 的交互并 MHSA 中对性能影响最大的单元。此外,微软等单位指出,MSHA 设计中最关键的三要素包括:稀疏连接、权重共享、动态权重。在不使用自注意力的条件下,将 MHSA 替换为动态卷积、MLP、Pooling 等结构依然可以得到很强的性能。

上述结论启发我们:ViT 的设计要素、潜在优势并非自注意力机制独有。一些研究者尝试将 ViT 中成功的设计思想引入到新型 CNN 架构的设计中。

近年来,新型 ViT 架构设计层出不穷,从感受野的角度来看,这些架构可以被分为两大类:(1)「全局注意力」,例如:PVT。(2)「局部注意力」,例如:Swin Transformer。

这些 ViT 架构往往具有较大的空间连接,但层数并不太深。即使使用局部注意力机制,注意力窗口也较大。早期的 CNN 架构(例如,AlexNet)采用的卷积核较大,而目前流行的 CNN 架构则大多采用深度堆叠小卷积核的方式来扩大感受野。

在CVPR 2022 上发表的论文「Scaling Up Your Kernels to 31*31:Revisiting Large Kernel Design in CNNs」中,张祥雨团队将卷积神经网络的卷积核尺度扩展至 31*31 ,获得了与视觉 Transformer 相当的性能效果。

8

大卷积核的优势

根据有效感受野理论,我们知道相较于加深网络,直接加大卷积核也可以扩大感受野,并且更加高效。随着卷积层数的堆叠,在满足参数独立性假设的条件下,特征图感受野会扩大,并遵循高斯分布(中间亮两边暗)。理论上,感受野与层数成正比,但是方差与层数的平方根成正比。因此,相比加深神经网络,采用大卷积核可以更高效地提升有效感受野。

采用「大而浅」的架构相较于「小而深」的架构可以在某种程度上回避模型深度增加带来的优化难题。2016 年之前,许多研究者尝试加深卷积神经网络,VGG 类的模型到达 16 层之后就难以收敛。尽管 ResNet 的提出可以使网络做到很深,但是有一些研究表明,其有效深度并不深,信号可能会直接从残差连接处通过,加深网络并不能带来更大的有效感受野。此外,批归一化也使得模型能更好地被训练。如上图所示,从 ResNet-101 到 ResNet-152 增加了 51 层网络,但是有效感受野并不大。而在网络深度不变的情况下,将卷积核大小从 13*13 增加到 31*31 则可以增大有效感受野。

值得一提的是,大卷积核对于基于 FCN 的下游任务(例如,物体检测、分割)的性能提升十分明显。随着卷积核增大,网络在上游任务 ImageNet 图像分类上的性能趋于饱和,甚至有所下降,但是在下游任务上的性能持续增长。

9

解决大卷积核存在的问题

尽管大卷积核有诸多优秀的性质,可以增大有效感受野,但是以下弊端限制了大卷积核的使用:

(1)不够高效。为此,我们可以设计更浅的结构、采用卷积核分解技术、使用快速傅立叶(FFT)卷积加速、采用稀疏算子。增大卷积核主要增加的是算存比,并不会显著增加 I/O,可以通过针对性的优化保证计算速度。

(2)大卷积核难以兼顾局部特征,容易出现过平滑现象。为此,我们可以引入 Identity ShortCut 强调局部特征,还可以通过重参数化方法在使用大卷积核时,同时插入并行的小卷积核,在推理时将几个不同的线性卷积核合并为一个卷积核。

(3)相比于自注意力模块,卷积的归纳偏置过强,限制了在大数据集上的表示能力。为此,我们可以在小特征图上使用更大的卷积核(例如,将16*16 特征图进行零填充后采用 31*31 的卷积核),从而部分破坏平移等变性,从而在兼顾表达能力和泛化能力。这样做类似于 ViT 的位置编码,有利于编码绝对位置信息。

在上游任务 ImageNet 分类中,图像之间存在许多细粒度的差异,ImageNet 分类可能更加注重纹理特征,对感受野的要求并不高。采用大卷积核可以带来大的有效感受野,有利于提取上下文信息,提高神经网络的形状偏置,有效提升模型在下游任务上的性能。

在通向 CV 大模型的道路上,在模型设计层面,我们并不一定要拘泥于必须使用 Transformer,Transformer 在处理很多 CV 任务时并不方便。我们要打破一些思维惯性,也可以用基于 CNN 的架构构建大模型。但是,我们需要想办法克服掉 CNN 的一些缺陷(例如,使用大卷积)。

10

如何实现「统一」

除了基础视觉架构设计,我们还需要充分利用数据,训练好大模型。为了降低对大量数据标注的需求,通过自监督学习训练网络的方法受到了越来越多的关注。

Moco、SimCLR 是近年来著名的基于对比学习的图像自监督训练方法;MAE 则是掩码图像建模(MIM)类自监督学习方法的代表。在 CVPR 2023 上,张祥雨博士团队发表了论文「understanding masked image modeling via learning occlusion invariant feature」,讨论了上述两种自监督学习之间的关系。

11

表征学习——信息瓶颈(IB)视角

我们希望通过自监督任务对模型进行预训练,从而在下游任务上得到好的表征。在这里,我们从信息瓶颈(IB)的视角出发来衡量表征的质量。

如上图所示,x 为输入的图像样本,y 为样本类标签,z 为学习到的 x 的表征。其中,y 中有些特征可能是无法从 x 中得到的。而 z 是由 x 生成而来,因此包含在 x 中。我们期望输入图像 x 与 z 的互信息尽量小,标签 y 与 z 的互信息尽量大。

如上图所示,蓝色的式子被称为信息的「压缩性」,即表征拥有的信息量尽可能小,压缩掉无用的特征,保留下与任务相关的信息(即上图中的「关联性」)。

我们可以将该式写作两个熵的差值,绿色的部分为「不变性」,即表征只需要保留最相关的信息,实现特征在空间内的高内聚。为了防止所有的特征都映射到一个点,我们还需要加入最大熵约束,在汇聚信息的同时,尽可能保留完整的信息。

实际上,神经网络隐式地完成了信息瓶颈的要求。如上图所示,神经网络不同层在训练过程中轨迹如图中的曲线由紫到黄变化。随着训练的进行,特征 T 与 Y 的互信息单调上升,与 X 的互信息的变化趋势则分为两个阶段:在训练早期,T 与 Y 的互信息增长非常快,同时 T 与 X 互信息也在增长,网络在快速拟合数据;在第二阶段,尽管 T 与 Y 的互信息仍在增长,但是 T 与 X 的关联性则有所下降。这说明神经网络一方面在拟合数据,另一方面在压缩信息,「忘掉」一些知识。

可见,有监督学习过程中已经内嵌了 IB 的性质。然而,在无监督场景下,我们并不知道模型将面临怎样的下游任务。研究表明,并不存在对所有任务都适用的解耦表征。

近期,OpenAI 研究院 Jack Rae 指出,根据最小表示长度(MDL)准则,模型需要挖掘数据的本质规律(不变性),才能达到 MDL 的目标。如果我们可以用模型对信息进行无损压缩,切编码长度尽可能小,那么模型就拥有了「智能」。

在衡量无监督、自监督关系时,基于有监督学习的 IB 准则会失效。为此,我们引入「不变性」的概念。在物理学中,诺特定理指出,存在各种时空不变性(例如,平移不变性、旋转不变性),它们对应着各种守恒定律。

在训练视觉模型时,尽管不知道具体的下游任务,但是我们可以预期表征需要满足某些不变性假设。因此,构造自监督任务就是为了实现对不变性的挖掘。如上图所示,假设 Y=g(Z'),我们用 Z' 替代不变性中的条件 Y,得到了最优表征的下界。如果我们找到的不变性越精准,则描述的任务就越精确,学到的表征也就更好。

例如,对于图像识别任务而言,表征需要满足对平移、遮挡、视角、光照的不变/协变性;对于超画质任务,表征需要满足对噪声、模糊、图像压缩的不变性。

基于对比学习(孪生架构)的自监督框架会对信号进行两次变换,得到两种不同的增强结果(正样本),分别将这两种结果输入给网络得到两个特征,并期望最小化两种特征的距离,这实际上是学习到了对变换 T 的不变性。在对比学习中,负样本的存在是为了起到最大熵的效果,防止模型坍缩。MIM 则希望采用「编码器-解码器」架构将与 Mask 相乘后的图像还原为原图像。

如上图所示,我们可以将 MAE 通过一系列近似放缩为对比学习的孪生网络形式。结果表明,MAE 本质是学习在特定的距离度两下,对遮挡变换不变的特征。因此,通过 MAE 得到的特征在许多识别类任务上都取得了非常好的性能。在明确了 MAE 学习到对遮挡不变的特征后,可以帮助我们预判该模型能在哪些下游任务上起作用。

在 Siamese MIM 视角下,我们认为 MIM 与基于对比学习的自监督学习方法有两大区别:

(1)学习的不变性种类不同。MIM 学习遮挡不变性,传统的对比学习则学习数据变换 T 的不变性,例如:色彩都懂、随机裁剪

(2)距离度量不同

通过将 Siamese MIM 的距离度量函数替换为对比学习常用的 InfoNCE 损失函数。张祥雨博士团队发现,MIM 方法的主要优势在于使用了 patch 遮蔽方法,使表征具有了更加精准的遮挡不变性。

由于分类、目标检测、分割等目前评测视觉模型的对比测试基准都对遮挡不变性有很强的需求,MIM 相较于对比学习方法在此类任务上的性能更好。相较于随机裁剪变换,Patch 遮蔽则更加通用。此外,相较于 CNN 网络,视觉 Transformer 的自由度更大,模型性能与初始化质量息息相关。Patch 遮蔽引入了额外的归纳偏置,使得视觉 Transformer 模型的性能得到了显著提升。张祥雨博士团队通过实验发现,即使使用很少的图片(例如仅仅 1 张)做 MIM 预训练,也可以为模型提供不错的初始化。

12

模型规模化的新思路

我们不妨回顾一下已有的将模型做「大」的方法。实际上,从 EfficientNet 开始,大家就开始研究如何将模型做大。直观的方式有调整模型的宽度、深度、输入分辨率、卷积核大小等。谷歌提出的混合专家模型(MoE)目前效果还不太理想。目前,这些扩大模型规模的方法或多或少都遇到了性能瓶颈,收益比较有限。

Hinton 在论文「How to represnet part-whole hierarchies in a neural network」中受人脑启发提出了 GLOM 架构,提出使用列(column)作为规模化扩展的维度。实际上,人的大脑皮层并没有神经网络上百层那么深,但是是一种带反馈的链路,人对食物的认知过程时循序渐进、由粗到精产生的。

张祥雨指出,可以借鉴多列神经网络(multi-column)的思想,将网络通过时序以类似于 RNN 的方式组织起来,不断将图像输入给不同阶段的网络,随着网络处理时间的增长,得到的精度就越高。然而,这种基于 RNN 的信息传递容易出现信息遗忘的现象,也无法保证每个「列」都能够学习得很好。出现特征坍塌现象。尽管可以扩展模型的规模,但是并不会带来本质的性能提升。

如前文所述,根据 IB 理论,神经网络会在信息压缩的过程中逐渐遗忘一些信息,只保留与监督信号有关的信息。如上图所示,网络在浅层是具有的信息量最高,越往后传播特征的语义性越强,但是信息量越少。由于存在信息瓶颈,通过多列网络扩展模型规模并得到性能较好的通用模型也比较困难。为此,张祥雨博士认为可以通过解耦学习将与任务相关的信息与和任务无关的信息解耦开来。然而,尽管解耦学习可以不丢失信息,适合做通用模型,但是效率相对较低。

为了基于多列神经网络实现特征解耦学习,张祥雨博士团队想到利用可逆神经网络,保留相邻两层之间输入信息,并且在训练时只需要 O(1) 复杂度的的内存开销。然而,由于可逆神经网络与 IB 准则冲突,网络并不好训练,特征解耦不够彻底。

13

RevCol:一种基于

可逆连接的多列网络

在论文「Reversible Column Networks」中,张祥雨博士团队提出了多级的可逆单元,将二阶递推过程扩展为了 n 阶递推过程,使得每 m 组信息都是可逆的,既可以前推也可以后推,不丢失信息。

通过简化,我们可以得到如上图所示的结构。该结构要求连接智能从下往上,并且水平连接必须是可逆算子。由此,我们得到了一个二维网格状的结构,而非传统的直筒状结构。并且引入了新的规模化扩展维度——「列」。通过增加列的维度,我们可以扩展模型的参数量。由于该网络可逆,每当计算完一个特征图,就可以将其扔掉,在反向传播时再计算一次特征图即可,从而在激活层面上实现了 O(1) 的显存占用。

14

未来展望:视觉大模型的关键问题

目前,视觉大模型开发充满机遇,也面临严峻挑战。

首先,NLP 领域通过思维链等技术实现的涌现能力似乎让人们找到了一条通往「AGI」的道路。真正实现 AGI 少不了视觉模态的智能,通过规模化扩展涌现出视觉智能是有希望的。然而,张祥雨认为,基于目前 MIM+ViT 大模型的框架实现视觉智能的涌现十分困难,这套方法的上限可能不够高。此外,我们还需要更好地实现对于长视频、长时序数据理解的网络训练。现阶段,我们可以通过多模态融合的方式,借助于 NLP 领域形成的逻辑推理能力,帮助视觉模型达到更高的智能。就多模态与训练而言,不仅仅需要将语言、视觉特征「对齐」,更需要形成各模态的互补,形成更紧密的逻辑联系。

此外,目前视觉模型相较于 NLP 模型的参数量低了一个数量级,且增加模型参数量获得的收益越来越有限。为了进一步有效地拓展视觉模型的参数量,张祥雨认为我们需要做到以下 3 点:(1)生成式与判别式的统一(2)不变性的挖掘(3)视频数据的高效建模。

更多内容,点击下方关注:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
旷视张祥雨:神经网络架构设计新思路
深度学习模型在很多任务上都取得了不错的效果,但调参却是一项非常痛苦的事情,大量的超参数和网络结构参数会产生爆炸性的组合。因此最近几年神经网络的架构搜索和超参数优化成为一个研究热点。此外,对于架构设计新方法、新机制的探索,也是当下深度学习研究与落地的重点课题之一。
AI科技评论
2021/01/07
1.3K0
卷积神经网络(CNN)基础介绍
本文是对卷积神经网络的基础进行介绍,主要内容包括卷积神经网络概念、卷积神经网络结构、卷积神经网络求解、卷积神经网络LeNet-5结构分析、卷积神经网络注意事项。
全栈程序员站长
2022/07/22
2.5K0
卷积神经网络(CNN)基础介绍
旷视张祥雨:从基础科研的「大」和「统一」,看视觉AI研究新趋势
机器之心报道 机器之心编辑部 在 MegTech 2022 上,旷视研究院基础科研负责人张祥雨表示:“大”和 “统一” 是视觉 AI 基础研究的新趋势。 基础模型科研是 AI 创新突破的基石,每一代基础模型的突破都极大程度地促进了视觉 AI 的发展。7 月 15 日,2022 旷视技术开放日(MegTech 2022)在京举行,旷视研究院基础科研负责人张祥雨在会上分享了他对基础模型科研的深入思考及基础模型组的最新科研成果。 张祥雨表示,「“大”和 “统一” 是当今视觉 AI 基础研究的新趋势。同时,“在致力
机器之心
2022/07/18
6870
旷视张祥雨:从基础科研的「大」和「统一」,看视觉AI研究新趋势
CVPR'21 | involution:超越convolution和self-attention的神经网络新算子
本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的解读,同时也分享一些我们对网络结构设计(CNN和Transformer)的理解。
CV君
2021/03/26
1.2K0
卷积神经网络超详细介绍
上世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究,提出了感受野这个概念,到80年代,Fukushima在感受野概念的基础之上提出了神经认知机的概念,可以看作是卷积神经网络的第一个实现网络,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。
全栈程序员站长
2022/06/29
1.4K0
卷积神经网络超详细介绍
Transformer在CV领域有可能替代CNN吗?还有哪些应用前景?
Transformer有可能替换CNN吗?本文总结了来自于知乎问题:“如何看待Transformer在CV上的应用前景,未来有可能替代CNN吗?”下的3个精华回答,对Transformer在CV领域的未来发展提出了有价值的观点。
AI算法与图像处理
2021/01/20
1K0
Transformer在CV领域有可能替代CNN吗?还有哪些应用前景?
McGill&微软将卷积操作加入到ViT中,捕获更详细的局部信息!准确率达87.7%!代码已开源!
在本文中,作者提出了一种新的结构,称为卷积视觉Transformer(CvT) ,它通过在ViT中引入卷积来提高视觉Transformer(ViT)的性能和效率。这是通过两个主要修改来实现的:包含卷积token嵌入的Transformer层次结构 ,以及利用卷积投影的卷积Transformer 。
CV君
2021/11/19
1.4K0
视觉变换器与混合模型的图像识别
​ 计算机视觉,作为人工智能领域的关键分支,其发展历程可划分为两个主要阶段:早期基于规则的方法和现代基于深度学习的技术。在早期阶段,研究者依赖于手工设计的特征提取方法,例如SIFT和SURF算法,这些方法虽然在特定应用上取得了成功,但它们的普适性和可扩展性受限,通常需要专业知识来定制特征提取器。随着深度学习技术的兴起,计算机视觉领域迎来了革命性的变化。卷积神经网络(CNNs)的出现,使得计算机能够自动从图像中学习特征表示,极大地推动了图像分类、目标检测和图像分割等任务的发展。CNNs之所以有效,是因为它们模仿了人类视觉系统的工作方式,通过卷积层捕捉局部特征,并通过池化层减少特征的空间维度,同时增强对图像位移的不变性。
Srlua
2024/12/20
2370
视觉变换器与混合模型的图像识别
2025最新卷积神经网络(CNN)详细介绍及其原理详解
本文详细介绍了卷积神经网络(CNN)的基础概念和工作原理,包括输入层、卷积层、池化层、全连接层和输出层的作用。通过举例和图解,阐述了CNN如何处理图像,提取特征,以及如何进行手写数字识别。此外,讨论了池化层的平移不变性和防止过拟合的重要性。 本文是关于卷积神经网络(CNN)技术教程,整体内容从基础概念到实际示例,逐层剖析 CNN 的各个组成部分与作用,并通过手写数字识别案例帮助大家更直观地理解其工作原理。
猫头虎
2025/06/08
1.2K0
2025最新卷积神经网络(CNN)详细介绍及其原理详解
深度概览卷积神经网络全景图,没有比这更全的了
【AI科技大本营导读】深度卷积神经网络是这一波 AI 浪潮背后的大功臣。虽然很多人可能都已经听说过这个名词,但是对于这个领域的相关从业者或者科研学者来说,浅显的了解并不足够。近日,约克大学电气工程与计算机科学系的 Isma Hadji 和 Richard P. Wildes 发表了一篇《我们该如何理解卷积神经网络?》的论文:
AI科技大本营
2018/07/23
4010
谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !
计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。
AI科技大本营
2021/06/08
7410
谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !
从AlexNet到残差网络,理解卷积神经网络的不同架构
该文介绍了神经网络模型压缩、加速和量化三个方面的研究进展。其中,压缩技术包括模型剪枝、知识蒸馏等方法,加速技术包括硬件加速、优化算法等方法,量化技术包括量化训练、量化推理等方法。这些技术在不同程度上减小了模型的大小、提高了推理的速度、降低了训练的能耗。
企鹅号小编
2018/01/04
1K0
从AlexNet到残差网络,理解卷积神经网络的不同架构
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)
在本文中介绍了一种称为卷积视觉Transformer(CvT)的新体系结构,该体系结构通过将卷积引入ViT中来产生两种设计结合的最佳效果,从而提高了视觉Transformer(ViT)的性能和效率。
集智书童公众号
2021/05/28
2K0
CNN结构设计技巧-兼顾速度精度与工程实现
宽度(通道数)决定了网络在某一层学到的信息量,另外因为卷积层能重组通道间的信息,这一操作能让有效信息量增大(这也是1x1卷积的作用,它能学习出重组信息,使得对于任务更友好,所以这里不能和分离卷积一起比较,传统卷积的有效卷积数更多,正比于输入通道乘以输出通道,分离卷积的有效卷积正比于输入通道数,传统卷积相当于分离卷积前升维再做分离卷积)。
BBuf
2020/04/15
8930
CNN结构设计技巧-兼顾速度精度与工程实现
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经网络 (ConvNet),成为最先进的图像分类模型。另一方面, ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此,有研究者提出分层 Transformer(如 Swin Transformer),他们重新引入 ConvNet 先验,这样使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。
机器之心
2022/02/23
5200
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
深度学习、神经网络与卷积神经网络:研究及应用
在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线,通过深度学习解决若干问题的案例越来越多。一些传统的图像处理技术也可以通过深度学习来获得更优异的效果,比如去噪、超分辨率和跟踪算法等。为了跟上时代的步伐,必须对深度学习与神经网络技术有所学习和研究。
算法进阶
2024/04/12
5860
深度学习、神经网络与卷积神经网络:研究及应用
深度学习基础之卷积神经网络
卷积神经网络(Convolutional Neural Networks, CNN)是深度学习领域的重要分支,其历史发展和关键里程碑可以追溯到20世纪50年代,并经历了多个重要的阶段。
用户11315985
2024/10/16
2890
深度学习基础之卷积神经网络
必须了解的8种神经网络架构
机器学习已经在各个行业得到了大规模的广泛应用,并为提升业务流程的效率、提高生产率做出了极大的贡献。目前机器学习主要在以下方面应用: 模式识别:实际场景中的目标、包括人脸、表情、语音识别等等; 异常检测:例如信用卡交易的异常检测、传感器异常数据模式检测和异常行为检测等; 预测问题:预测股票或者汇率、或者预测消费者喜欢的电影、音乐等。 神经网络是一类机器学习算法和模型的统称,也是目前机器学习发展最快的一个领域。神经网络的架构主要分为三大类——前馈、循环和对称链接网络。神经网络具有如下三个特征使它成为了机器学习
昱良
2018/04/24
2K0
必须了解的8种神经网络架构
【模型解读】“不正经”的卷积神经网络
但是同样的目标,在不同的图片中,会存在位置的偏移,角度的旋转,尺度的大小。卷积神经网络要能够应对这些情况,比如分类任务,对于同样的目标在不同图像中的偏移,旋转,尺度,要输出同样的结果。
用户1508658
2019/07/25
4710
【模型解读】“不正经”的卷积神经网络
卷积神经网络学习路线(三)| 盘点不同类型的池化层、1*1卷积的作用和卷积核是否一定越大越好?
这是卷积神经网络学习路线的第三篇,这一篇开始盘点一下池化层的不同类型和1*1卷积的作用。
BBuf
2019/12/12
1.5K0
卷积神经网络学习路线(三)| 盘点不同类型的池化层、1*1卷积的作用和卷积核是否一定越大越好?
推荐阅读
相关推荐
旷视张祥雨:神经网络架构设计新思路
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档