Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!

Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!

作者头像
集智书童公众号
发布于 2024-01-17 08:27:13
发布于 2024-01-17 08:27:13
1.1K0
举报
文章被收录于专栏:集智书童集智书童

CLIP模型得益于其与任意文本提示的流畅交互,显示出惊人的零样本能力。然而,其缺乏空间意识,使其在不需要额外的微调步骤(通常使用标注,可能会潜在地抑制其原始的开放词汇属性)的情况下,不适合处理密集的计算机视觉任务,例如语义分割。同时,自监督表示方法已经展示了在没有人为标注和明确监督的情况下,具有良好的局部化属性。 在本工作中,作者取两者之长,提出了一种零样本开放词汇语义分割方法,该方法不需要任何标注。作者提出通过将来自自监督特征提取的局部化先验知识,简单地修改CLIP的最后池化层,在局部改进密集MaskCLIP特征。通过这样做,作者大大提高了MaskCLIP的性能,并生成了平滑的输出。此外,证明了使用的自监督特征属性可以直接从CLIP特征中学习,因此可以通过一次通过CLIP模型获得最佳结果。 CLIP-DINOiser只需要CLIP的一次前向传播和推理时两次轻量级卷积层,不需要额外的监督、额外的内存,并达到了最先进的性能,例如在COCO、Pascal Context、Cityscapes和ADE20k等具有挑战性和细粒度的基准测试中。 代码:https://github.com/wysoczanska/clip_dinoiser

1 Introduction

语义分割是许多实际系统中进行关键视觉感知任务的一个关键步骤,例如自动驾驶汽车和工业机器人。通常以数据集为导向进行处理,最佳方法需要一个经过人工标注的训练数据集,该数据集针对特定且有限的一组类别进行处理。强大的视觉语言模型的出现正在推动从封闭词汇范式向开放世界范式的转变。

这些模型使用简单但可扩展的目标进行训练:将可以获得大量图像和粗糙文本标注的图像与文本对齐。视觉语言模型在将全局图像内容与任意文本输入关联方面表现出色,具有显著的泛化能力,但很难提供密集的开放词汇特征。在像素和语言之间获得这种对齐可能导致多个其他模态(如点云,3D场景,3D形状,辐射场,跨模态对齐,以及多个潜在应用的训练数据集构建更加困难,在这些应用中,CLIP派生的模型显示出有前途的结果。

近年来,为了提高CLIP的patch级特征提取能力,提出了一些策略,主要是通过修改原始CLIP架构进行密集池化和再训练或在一个带有预定义类别的标注分割数据集上进行finetuning。前者需要长时间的训练和/或大量的标注数据,而后者会导致CLIP特征的视觉语言关联发生变化。

另一种方法是冻结CLIP编码器并直接使用不同的启发式方法进行密集化,通常需要多次前向传播,但由于计算开销较大,因此实用性较差。MaskCLIP作为一种计算高效的密集CLIP提取器,将CLIP的全局自注意力层转换为卷积层,以生成具有原始视觉语言质量的patch特征。如果这些特征是局部的话,它们似乎对于高质量分割 Mask 提取过于噪声(见图4)。

与此同时,最近的自监督学习(SSL)方法产生了强大的视觉表示,展示了目标定位属性,而这些无需任何手动标注。DINO在这方面脱颖而出,其具有视觉概念感知特征,这些特征已被用于无监督目标发现。DINO特征对于零样本语义分割也是有用的,但需要昂贵的滑动窗口采样或构建概念特定的原型和集成策略。

在本工作中旨在在不改变patch级CLIP特征的最小运行时开销的情况下实现无更改。为此,作者重新检查了MaskCLIP特征的位置属性,并观察到可以通过SSL模型的指导轻松地改进它们。具体来说,作者训练一个简单的卷积层来产生池化权重,以从CLIP执行_概念感知密集特征池化_,而不会扭曲CLIP的特征与语言关联。该层被优化为模仿DINO中图像中视觉概念的可能的布局。

此外,作者还证明可以从CLIP特征中直接学习FOUND从DINO特征中提供的无监督目标性信息,以帮助改进对“背景”提示的分割。

通过CLIP-DINOiser可以在CLIP的一次前向传播中得到高质量的 Mask 。CLIP-DINOiser可用于产生密集语义图或目标聚焦的图。

总之,贡献如下:

  • (1) 提出了一种轻量级池化机制,利用SSL特征的指导来改进MaskCLIP特征,而不会降低其原始的开放词汇属性。CLIP-DINOiser不需要任何标注,也不需要从头训练CLIP,只需要CLIP的一次前向传播。
  • (2) 证明CLIP已经包含良好的位置属性,可以被利用。作者利用简单的卷积层来强调从CLIP的密集特征中提取的视觉概念布局。作者认为这一发现可以在不同的上下文中进一步探索。
  • (3) CLIP-DINOiser在复杂的语义分割数据集上达到了最先进的结果,例如COCO,Pascal Context,Cityscapes和ADE20K。

2 Related Work

在这个部分,作者将讨论与作者方法相关的方法。

零样本语义分割(Zero-shot semantic segmentation)这一任务通常采用的方法是试图从已见类别泛化到未见类别。这些策略在完全监督下训练模型,并针对未见类别提出不同的解决方案,而无需新的图像(标记或 未标注 的图像),例如,通过利用流行词嵌入中的包含类信息和关系的分类信息。尽管它们在计算开销方面可以产生精细的分割,但这些方法需要像素级标注的已见类别。

从CLIP到开放词汇分割(From CLIP to open-vocabulary segmentation)。随着具有对齐图像语言表示的VLMs的兴起,零样本分类任务再次受到关注。然而,将零样本分割扩展到零样本是不明显的,因为CLIP架构无法产生密集的视觉语言特征。

为了产生密集的CLIP特征,几种方法对像素对齐的CLIP类似模型进行微调或从头训练,并在具有不同粒度和质量的标注数据集上添加额外的模块、机制或监督目标:密集标注,无类别目标 Mask ,粗糙描述或伪标签。

最近的工作利用图像级描述符来将文本对齐到区域(无需监督获得):PACL训练一个嵌入模块来学习patch到text的亲和力,TCL提出一个局部对比目标来将良好选择的patch对齐到文本,并ViewCO利用多视图一致性。然而,这些模型需要对数百万张图像或特定类型的标注进行长时间的训练,这些标注非常昂贵。此外,使用定义好的词汇微调CLIP更具计算吸引力,但会改变特征的开放词汇属性。

与作者最相关的工作是调查如何直接将CLIP特征进行密集化,以获得每个patch的特征。这种密集化可以通过聚合多个视点的特征或滑动窗口的特征来实现,但是需要额外的计算开销。MaskCLIP删除了CLIP的全局池化层,并直接通过一个

卷积层将投影的特征与文本进行匹配。通过这种方式,他们实现了密集预测,但结果相当嘈杂。

从概念驱动的角度来看,一些方法构建每个概念的视觉原型代码书,包括负原型,然后进行共同分割。这种方法可以获得很好的结果,但代价是构建昂贵的_特定类别_原型,从而偏离了开放词汇场景。相反,作者旨在保持开放,避免在考虑新的概念时重新训练模型或构建新的昂贵原型。为此,作者设计了一种CLIP密集特征提取方法,保持了开放词汇质量。

利用自监督模型和CLIP。最近的自监督ViTs允许作者生成具有良好位置属性的特征。这些特征也被用于开放词汇分割方法的上下文中:视觉 Backbone 预训练,共同分割,将 Patch 聚类为 Mask ,表示目标原型。

与作者的工作相关的是最近提出的CLIP-DIY,该方法从不同图像裁剪的CLIP特征中计算patch级表示,并利用无监督显著性分割器的指导。作者也利用FOUND分割器,但需要CLIP的一次前向传播,并通过集成不确定性约束来缓解FOUND在杂乱场景中的限制。最后,作者利用DINO的有用 Patch 相关属性,并表明通过轻量级卷积层可以教CLIP生成DINO类似的特征。

3 Method

在本节中提出了一种名为CLIP-DINOiser的简单而高效的方法,该方法利用从CLIP中提取的定位信息来改进MaskCLIP。首先在3.1节中设置目标。在3.2节中介绍了如何使用MaskCLIP后,CLIP可以生成密集文本对齐2D特征图。然后,引入了利用自监督特征定位信息来巩固MaskCLIP特征的策略,并在3.3节中介绍了一种改进“背景”的方法。

最后,在3.5节中证明了这种信息可以从CLIP中成功学习,使作者的方法可以在一次CLIP前向传播中运行,无需外部 Backbone 。

Problem statement

在这项工作中,作者的目标是生成图像的开放词汇零样本语义分割。作者考虑一个图像

,将其分成一个序列的

个 Patch ,每个 Patch 的尺寸为

,其中

是 Patch 大小,

。在输入序列中添加一个类别标记,记作 CLS,并将

个 Patch 输入到ViT模型中。

作者的目标是生成一个

的密集视觉特征

,其中

是特征维度,可以后来匹配到同一空间中的任何一组文本输入。

具体来说,目标是生成一个与图像中的文本 Query 可能或可能不存在的语义分割图。下面作者将详细说明如何生成这样的视觉特征并得到语义分割图。

Preliminaries on MaskCLIP

提取密集开放词汇特征。流行的CLIP模型预先在图像/描述符对上进行训练,可以产生良好的全局图像特征,但并未被训练以生成高质量的2D特征图。为了提取与语义分割相关的密集特征图,CLIP提出重新访问模型中最后注意力层的全局注意池化层。

实际上,放弃了该层的 Query 和键嵌入,并将值投影和最后线性层都转换为卷积

层。使用这个新模型,名为MaskCLIP并标记为

,作者从保留CLIP大部分开放词汇特性的最后层L中提取

维特征

给定文本 Query 的语义分割。作者为每个文本 Query 提取 CLIP 文本特征 ,其中 。然后,通过计算每个视觉 Patch 特征与文本提示的余弦相似度进行 L2 归一化,生成分割图。将最相似的提示分配给每个 Patch 。

请注意,可以添加一个 Query “背景”以获得负 Patch 。使用 MaskCLIP 可以在 CLIP 模型的单次前向传播中产生密集分割图,但输出(如图4所示)是嘈杂的。

Leveraging self-supervised features to improve MaskCLIP features

在这项工作中,作者旨在改进MaskCLIP的开放词汇特征,即上面描述的特征。为此,提出利用已知的自监督特征的良好定位属性,这些属性已经用于无监督类别无关的物体定位任务。

提取自监督相关信息。最近的研究表明,自监督模型DINO的最后注意力层嵌入的 Patch 相关信息可以帮助突出图像中的目标。作者在这里使用Value嵌入,观察到它们的关联性比Key和 Query 嵌入(更多详情见补充材料A.2节)更细。作者提取这样的自监督特征

,并丢弃CLS标记。然后,计算每个 Patch 的余弦相似度,并生成亲和图

使用

表示外积。在图2中比较了使用MaskCLIP和DINO特征获得的不同 Patch 种子之间的 Patch 相似性(左和中间列),并观察到自监督特征比CLIP的更密集和准确相关。

利用有向池化增强特征。为了局部整合MaskCLIP特征

,作者提出利用 Patch 亲和度

对每个 Patch 的特征进行线性组合,以实现类似 Patch 具有相似CLIP特征(和预测)的目的,同时抑制噪声特征。

具体来说,计算新的特征

作为MaskCLIP特征

的平均值,并通过

进行加权。在阈值

下零除

相关性,并为 Patch

计算新的特征:

然后,将新的特征

中的每个文本 Query 进行比较,生成分割图

。当使用这些集成特征时,得到了更稳定和准确的结果,如图4所示,并且MaskCLIP中观察到的高频预测被平滑,因此显示了池化的好处。

Producing a strong background detection.

此外,如前所述,可以在文本 Query 集合

中添加一个“背景” Query ,以帮助过滤掉落在“背景”中且不对应任何目标的 Patch 。作者认为仅依靠文本提示“背景”来捕获所有非显著 Patch 的性能是欠佳的,类似于Clip-diy,作者提出使用非常轻量级的无监督前景/背景分割方法FOUND,该方法也依赖于DINO自监督特征。

与Clip-diy不同,作者对整个图像应用FOUND一次,并提取一个预测 Mask

,其中 Patch 被分配值为1,如果落在前景中,否则为0。作者还观察到由FOUND产生的显著性可能过于严格,并且会丢弃部分可见的物体或杂乱场景中的物体。为了减轻这种行为,作者提出通过集成额外的不确定性约束来放松背景选择。

为此,利用两者的优点,将“背景”类分配给既不确定(例如,具有低置信分数

,其中

是softmax操作,且在

中落在背景中的 Patch

)。作者观察到结果得到了改善,并且确实背景被更好地分割,如图5所示(见图11的更多示例)。

Teaching CLIP a few DINO tricks

在前面的部分中证明了自监督相关信息可以成功用于改进开放词汇特征的密集质量。如果将CLIP的困难程度广为人知,在这里证明,CLIP特征本身已经包含了良好的定位信息,可以通过轻量级的模型提取出来。事实上,作者使用专门的卷积层预测了DINO相关性

和FOUND预测

(见3.3节描述)。

为了从CLIP特征中预测DINO相关性图,作者训练了一个_单个_ 卷积层,将来自层的提取的中间特征映射到维度为中。作者强制生成的特征的="" patch="" 相关性:<="" p="">

为了使预测的相关性图

接近二进制相关性

,使用二进制交叉熵损失

在图2中可视化了

的示例,并观察到它们与基于DINO的相关性之间的相似性。

使用CLIP生成的

来替换

在公式2中,以加权池化,并观察到与MaskCLIP类似的提升,因此表明确实可以从CLIP中提取良好的 Patch 相关性。现在作者可以丢弃DINO,作者称CLIP-DINOiser为引导池化策略,该策略使用CLIP相关性。CLIP-DINOiser在CLIP模型的一次前向传播中运行(并增加一个小卷积层)。

此外,还可以直接从CLIP特征中学习FOUND目标的预测。为此,训练了一个单个

卷积层

,它从

提取的特征

中预测一个目标性图

在图6中展示了预测的基于CLIP的目标性,并观察到它们与使用DINO产生的结果具有非常高的相似性。此外,作可以将的

替换为基于CLIP的二进制得分

,其中

是sigmoid操作,并观察到性能出现的最小下降。

4 Experiments

在这个部分呈现了用于评估CLIP-DINOiser的实验。详细地描述了在评估中使用的实验设置,在4.1节中。在4.2节中进行了消融研究,并在4.3节中列出了零样本语义分割任务上的最新结果。

Experimental setup

技术细节。 在所有实验中使用了一个由OpenCLIP预训练的冷冻CLIP ViT-B/16。作者的方法CLIP-DINOiser使用了两个卷积层来从CLIP层

(作者在讨论中使用的最后一个之前)提取DINO类似的特征:

有一个核

和输出维度

有一个核

第一个是用来匹配DINO中使用的一个ViT-B/16模型训练后提取的值嵌入相关性信息的特征。第二个层是用来复制FOUND中的无监督物体定位预测,它也使用了DINO模型。使用二进制交叉熵损失训练两个层,并在PASCAL VOC训练集中训练模型,该训练集包括1464张图像。在1 Nvidia A5000 GPU卡上训练20个Epoch,每个Epoch包含32张图像,总共需要约40分钟。

在FOUND Head 训练后15个Epoch时,将学习率降低到0.1倍。对于相关性 Head ,在5个Epoch后停止训练,因为观察到模型在之后停止改进。在训练期间应用数据增强(随机缩放、裁剪、翻转和光度失真)。总的来说,将相关性二进制化为

并使用

的置信度分数。在A.1节中分析了参数,并显示作者的方法相当稳定。

数据集和指标。 在八个通常用于零样本语义分割的基准测试上评估作者的方法。作者将它们分为两组。第一组包括具有'背景' Query 的数据集:PASCAL VOC,PASCAL Context和COCO Object以及没有的:PASCAL VOC20,PASCAL Context59,COCO-Stuff,Cityscapes和ADE20K。

使用标准mIoU指标评估结果。作者使用MMSegmentation提供的实现,采用滑动窗口策略,将输入图像调整为较短的448边长。作者也不对类名进行文本扩展,并仅使用标准ImageNet提示(更多关于提示的讨论见补充材料A.3节)。

Baseline 。 将作者的方法与最先进的开放词汇零样本语义分割方法进行比较。为了在方法之间进行公平的比较,作者报告了没有任何后处理步骤的结果。作者将比较分为三个类别:MaskCLIP+是词汇特定的_,然后是ReCO,OVDifr,NamedMask构建原型,以及最后其他,例如学习 Patch Level 的表示,例如GroupViT,ZeroSeg,SegCLIP,TCL,CLIPpy,OVSementor或改进冷冻CLIP特征:CLIP-DIY和MaskCLIP。

Ablation study

在这个部分,作者通过先研究作者提出的特征池化机制以及背景检测的影响,对CLIP-DINOiser的不同组件进行了消融研究。

池化机制的影响。 作者在CLIP-DINOiser中提出了结合MaskCLIP特征和预定义线性组合的方法,并在Tab. 1a中比较了不同的解决方案。

在[64]中,作者提出了使用CLIPKey(preds.)的加权组合来改进预测,并在VOC和VOC20上分别将MaskCLIP结果提高了+8 mIoU,而在其他数据集上提高了+1.8、+1.0和+0.6 mIoU。然而,作者表明直接处理特征可以获得更好的结果;当使用基于DINO的权重

时,作者在所有数据集上获得了从+5到+19 mIoU的一致性改进,并且当使用训练好的CLIP权重

时,进一步改进。

背景检测的影响。 现在作者讨论当作者需要检测类似于'stuff'的背景 Patch 时,作者的背景精炼策略带来的改进。作者在Tab. 1b中报告了使用作者的池化策略(无论是使用DINO特征,称为'使用DINO

或从CLIP提取的特征,称为'使用训练好的

')时的结果。当仅使用'FOUND'进行背景检测,就像在Clip-diy中一样,作者在VOC上提高了+6.4 mIoU(达到60.1 mIoU),但当放松FOUND(见第3.4节)并引入不确定性条件时,作者在VOC上提高了分数至+62.1,显示出使用FOUND alone的局限性。

作者还可以使用基于CLIP的预测

,无论是使用基于DINO的

还是训练好的CLIP的

相关性,都能达到类似的结果,尽管作者观察到使用训练好的

可以获得最佳结果。作者在图6中可视化了基于CLIP的 Mask

,并看到它与基于DINO的预测具有很高的相似性,因此展示了CLIP的定位质量。

Zero-shot semantic segmentation

作者现在讨论零样本语义分割任务上的最先进结果。

无'背景'类别的评估。 作者首先在Tab. 2中比较了在旨在分割图像中大多数像素的数据集上的结果,并且不考虑'背景'类别的结果。

作者观察到作者的方法CLIP-DINOiser在四个数据集上获得了+2.2,+5.0,+6.7和+5.1 mIoU,超过了第二好的方法。有趣的是,作者在细粒度数据集上超过了构建每个视觉概念的昂贵原型的方法,展示了作者轻量级和泛化性方法的优势。唯一的下降(-1.5 mIoU)出现在VOC20上,这是一个以物体为中心的数据集,描绘了少数大物体。作者认为,考虑特征相关性的自适应粒度可能有助于减轻这种下降,并将其留为未来的工作。

包含'背景'类的评估。 作者现在在Tab. 3中比较了在包括'背景' Query 的数据集上的作者的方法。在这个设置中,作者在VOC和Object上应用了作者的背景检测机制(详细说明在第3.4节),以改进类似'stuff'的背景检测。作者观察到CLIP-DINOiser显著优于所有不构建原型的方法。

此外,作者在Context和Object数据集上分别比OVDiff提高了+2.3和+0.2 mIoU。作者还在VOC上达到了与OVDiff相当的结果,特别是在考虑没有集成版本的情况下。还要强调的是,OVDiff需要在每个概念上构建一个'背景'原型,否则在VOC上会失去-10 mIoU,如论文所述。最后,作者的方法在CLIP推理中以单次传递完成计算,并添加了两个卷积层,同时保持完全的开放词汇,因为它不需要任何特定类的构建。

定性结果。作者在图7中定性比较了CLIP-DINOiser与高性能的TCL和CLIP-DIY(两个最近的方法,它们提供了代码)在来自被评估数据集的图像上的预测。作者观察到在定位和分配方面都生成了准确的预测。实际上,作者在CITYSCAPES和ADE20K数据集上获得了细粒度的结果,当CLIP-DIY和TCL产生更粗糙的结果时,'car'和'fountain'的 Query 准确地定位。

5 Conclusions

在这项工作中提出了一种利用CLIP特征的最大化的方法,并表明CLIP特征本身已经包含了有用的_定位信息_。实际上,通过使用轻量级卷积层,可以通过使用DINO自监督模型作为指导,同时学习良好的 Patch 相关性和目标性信息。有了这样的信息CLIP-DINOiser可以在CLIP模型的单次前向传播中执行零样本开放词汇语义分割,并使用两个轻量级卷积层。CLIP-DINOiser在复杂的语义分割数据集上达到了最先进的结果。

局限性。 尽管在开放词汇语义分割方面获得了强大的结果,但CLIP-DINOiser仍然受到CLIP模型分离类别的能力的限制,因为它继承了其粒度。作者认为,结合更好的提示工程和更好的图像文本模型,可以进一步推动CLIP-DINOiser。

Appendix A More ablations

在这个部分,作者呈现了作者对提出的方法的额外消融研究。特别是,作者在A.1节中讨论了对不同参数值的敏感性,并表明结果相当稳定。作者还将在A.2节中展示对用于'教' CLIP技巧的特征的影响的研究。

Parameter study

在本节中,作者研究了CLIP-DINOiser的不同参数对方法性能的影响。

随机种子。为了首先评估作者训练的稳定性,进行了三次使用不同随机种子的实验。主论文中所有CLIP-DINOiser数据集上的结果对应着l=10,并在Tab. 5中突出显示。作者观察到在所有情况下,标准差等于0.2或更低,因此显示出训练的稳定性。

相关性阈值

在这里,作者研究了应用在DINO亲和图

上的相关性阈值的影响,该阈值可以调整以控制在加权池化(Eq. 2)中使用多少 Patch 。当

时,对应包括所有与种子正相关的 Patch 。随着

增加至1,池化更具选择性,因为被考虑的 Patch 更少,但与种子相关性更好。

作者在Tab. 4中报告了结果,并观察到在Context59,COCO Stuff和ADE20k上得分相当稳定。作者还注意到,在

时,在VOC20上获得最佳结果,而更严格的阈值在城市scapes上受益。这可以解释为VOC主要描绘大型物体,而每个Cityscapes图像包含多个来自不同类别的较小物体。在作者的所有实验中,作者使用

,该值与[55]中使用的一致。

输入层

用于训练。作者在Tab. 5中报告了将作者的卷积层

应用在不同的CLIP层

上的结果。作者注意到

是最后一个与文本对齐的CLIP层,作者报告了平均3次运行得分以及它们的标准差。作者观察到,与最后的对齐任务更接近的L和

层获得了更差的结果,而

层的结果相近,变化范围低于0.6点mIoU。此外,作者可以观察到,在所有情况下,绝对标准偏差都低于0.3 mIoU,显示出作者训练的稳定性。

背景中置信度阈值

作者在图11中报告了在不同置信度分数阈值

下的背景精炼(见Sec. 3.4节详细说明)结果。这个阈值控制了一个 Patch 必须在什么情况下才能被考虑为FOUND的'背景'分割。使用

相当于应用标准的FOUND。作者观察到,使用一个约等于

的阈值在VOC和Object上都取得了良好的结果,而且集成不确定性考虑总是比仅使用FOUND(

)更有帮助。作者在所有实验中使用

Self-supervised features discussion

作者在这里研究了用于'教' CLIP 自我监督技巧的不同类型的特征的影响。作者呈现了从最后注意力层提取的不同DINO嵌入的关联性可视化,即'query','key'和'value'。大多数无监督定位方法使用'key'嵌入,允许轻松地将'前景'从'背景'分离。然而,在这项工作中,作者观察到,使用'value'特征而不是'key'特征,可以使作者更好地分离背景中的元素,如图9所示。确实,背景中的 Patch 与更少的背景 Patch 相关,因此区域可以更好地分离。

当作者使用每种类型的特征时,作者描绘了最终的分割结果,并观察到使用'value'特征时获得最佳结果。作者使用

,这与[55]中使用的一致。作者观察到,使用'value'嵌入的背景中的更多物体得到了很好的分割和标记,例如'tree'和'sky'。

此外,还尝试使用DINOv2及其无缺陷版本,但作者观察到关联图更容易利用,从而导致在作者的任务上性能更差。

Text template discussion

作者在这里讨论了使用原始CLIP仓库中提出的文本 Query 模板的影响,与相关工作的实现中的单模板"a photo of a {}"进行比较。

作者在Tab. 6中报告了在使用单模板"single"和80个ImageNet模板"IN"时,CLIP-DINOiser和MaskCLIP的结果。作者观察到,在MaskCLIP的情况下,使用多个模板要么不会显着提高(在+0和+0.5 mIoU之间),甚至可能损害(在VOC20上),而使用ImageNet模板总是对CLIP-DINOiser有所帮助(在+0.5和+2.2 mIoU之间)。

Appendix B More qualitative results

在这个部分,作者通过更多的比较性定性结果来阐明作者方法的优势。

Visual ablations

作者的池化。作者在图10中展示了更多使用作者方法CLIP-DINOiser的应用示例,并将其与MaskCLIP的结果进行了比较。作者观察到在所有情况下,作者的池化都减少了预测中的噪声,并有助于产生高质量的分割。

作者的背景。通过在图11中可视化带有和不带有背景精炼步骤的结果,作者观察到背景精炼步骤有助于消除像左图像中的雪区域(该区域被分类为'snowboard')或右图像中的未标注柜子等不确定的分割。

Failure cases

作者在这里讨论了CLIP-DINOiser方法的一些已知失败模式,这些模式在图12中进行了可视化。

首先观察到一些CLIP偏见,例如'train'和'train tracks'(左图)会产生相似的特征,这可能是因为它们在图像中频繁共现。作者已经观察到其他这种偏见的例子,例如'boat'和'sea' Query 。其次,尽管CLIP-DINOiser可以产生相当细粒度的分割(从目标大小和类别来看),但它可能会错过像Cityscapes(中间图像)这样的小或远离物体的目标。最后,与其他开放词汇语义分割方法一样,CLIP-DINOiser对文本 Query 的歧义不具有鲁棒性。

例如ADE20K(右图)中的例子,其中'house'被误认为是'building'。在作者进行的实验中,作者观察到多个分割歧义,并认为重新定义评估指标可以帮助解决这个问题。作者强调,当前的评估设置,直接从完全监督设置中复制,可能在开放词汇范式中具有限制。

More state-of-the-art results

作者在图14和图15中呈现了与最先进结果的更多视觉比较。观察到CLIP-DINOiser产生了细粒度的分割结果并超过了 Baseline 。

In the wild examples

作者在图13中呈现了更多的野外示例,其中作者比较了CLIP-DINOiser和MaskCLIP。MaskCLIP生成的分割图非常嘈杂,尤其是在考虑多个假阳性 Query 时(定义这样的假阳性 Query 为在图像中没有表示的提示 Query )。相反,CLIP-DINOiser对这样的假阳性具有鲁棒性,并生成高质量的分割图。

参考

[1]. CLIP-DINOiser: Teaching CLIP a few DINO tricks

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
在大规模基础模型的时代,经过大规模预训练后,对各种下游任务进行最小调整已成为迁移学习的新范式。然而,与自然语言处理领域基础模型的巨大成功不同,大多数视觉模型在各种下游任务中的零样本迁移学习能力尚无法达到可比水平。通过引入语言监督并在网络规模的数据集上进行学习,对比语言图像预训练(CLIP)模型能够将视觉表示泛化到开放词汇推理,并展现出惊人的零样本分类结果,然而,在更复杂的任务,如语义分割方面,这种能力仍然非常有限。
集智书童公众号
2023/12/19
1.3K0
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
无需训练,kNN-CLIP 在图像分割中的应用 !
在图像分割领域,圣杯是能够基于文本 Query 准确分割任意概念图像。随着视觉-语言模型(VLMs)如CLIP的迅速发展,这一任务变得更加可行。当这些模型应用于语义和全景分割时,显示出在处理广泛的视觉数据词汇方面的潜力。然而,尽管它们在分割基准测试的常见类别上表现出色,但在实现广泛词汇分割方面仍有不足(Shao等人,2023;Udandarao等人,2024)。作者的分析首先确认这些模型在标准数据集上的成功源于它们在特定数据集上的细致调优,例如带有详细标签的COCO Stuff(Caesar等人,2018),这通常与许多其他带有细粒度标注的基准测试类别重叠。例如,COCO-Stuff和ADE-20K有150个类别中有73个类别重叠。以前的工作(Sun等人,2023)已经显示,移除这种重叠的词汇会导致分割性能下降。作者进一步发现,这种细致调优显著降低了来自预训练CLIP模型的开放词汇分割能力,这是由灾难性遗忘引起的。这引发了一个问题:作者能否在不发生灾难性遗忘的情况下,增强这些模型以适应不断增长的数据词汇?
未来先知
2024/08/08
2680
无需训练,kNN-CLIP 在图像分割中的应用 !
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
值得注意的是,所提出的该方法在Cityscapes测试数据集上实现了51.8%的“mIoU”,展示了其在驾驶场景数据集上的强大WSSS Baseline 的潜力。在CamVid和WildDash2上的实验结果表明,作者的方法在各种数据集上具有有效性,即使数据集较小或具有视觉挑战性条件。 代码:https://github.com/k0u-id/CARB
集智书童公众号
2024/04/12
9180
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
超越传统自监督学习,NeCo在语义分割任务中的性能提升 !
密集自我监督学习训练特征提取器,以在没有监督的情况下为图像中的每个像素或块产生表示。近年来,该领域取得了显著的进展,主要改善了无监督语义分割 ,以图像为中心的代表学习 ,以及其他密集的下游任务,如物体追踪和目标检测。
AIGC 先锋科技
2024/09/10
1850
超越传统自监督学习,NeCo在语义分割任务中的性能提升 !
ICCV 2023 | LERF:语言嵌入的辐射场
神经辐射场(NeRFs)已成为一种强大用于捕捉复杂现实世界 3D 场景的真实数字表征的技术。然而,NeRF 的即时输出只是一个有颜色的密度场,没有实际意义或上下文信息,这阻碍了构建与所生成的 3D 场景进行交互的接口。自然语言是用于与 3D 场景交互的直观接口。以图 1 中的厨房为例,想象一下,通过询问“餐具”在哪里,或者更具体地说,询问你可以用来“搅拌”的工具,甚至询问你最喜欢的带有特定标志的马克杯,你就可以对这个厨房了如指掌。这不仅需要处理自然语言输入查询的能力,还需要具有在多个尺度上整合语义,并与长尾和抽象概念相关的能力。
用户1324186
2023/11/24
4700
ICCV 2023 | LERF:语言嵌入的辐射场
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.5K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
OOOPS:零样本实现360度开放全景分割,已开源 | ECCV'24
全景成像系统在最近几年显著发展,这促进了多种全景视觉应用的产生。由于全面的360°视场,全天候全景图在感知周围环境时提供了更丰富的视觉线索,在广泛的场景理解任务中,使环境数据的捕获更加完整和沉浸,这对深入的场景理解至关重要。这种广角视角超越了针孔图像的有限范围,显著增强了计算机视觉系统在各种应用中感知和解析环境的能力。尽管与针孔图像相比,利用全景图像在计算机视觉应用中的好处显而易见,但必须不断考虑一些值得注意的挑战,具体如下:
VincentLee
2024/10/10
1730
OOOPS:零样本实现360度开放全景分割,已开源 | ECCV'24
ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24
论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference
VincentLee
2024/10/29
1370
ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24
打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !
近年来,自动视频理解的研究经历了多次范式转变。随着神经网络的兴起,最初的问题是如何设计一种架构来输入时空信号[49, 68]。鉴于有限的视频训练数据,焦点随后转向了从图像分类预训练借用参数初始化[7]。为了提供视频预训练,一项工作已经在标注视频分类数据集上做出了昂贵的努力[27]。
公众号-arXiv每日学术速递
2024/05/11
6590
打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !
嵌入基础模型的高斯溅射
3D场景理解是计算机视觉和机器人应用中的重要任务。然而,大多数现有方法主要集中在3D几何和外观估计或基于封闭类别数据集的3D对象检测和场景分割上。然而,为了使智能代理能够与物理世界平稳互动,仅仅理解由预先识别的标签特征化的空间子集是不足够的。受最新的基础模型在语言和视觉语义方面取得的进展所启发,本方法旨在开发更自然的3D场景表示。它整合了几何和开放词汇语义信息,便于后续任务中用语言查询。
用户1324186
2024/01/24
3980
嵌入基础模型的高斯溅射
中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描  !
近年来,一些研究将Gaussian Splatting与语言嵌入结合,用于开放词汇的3D场景理解。虽然这些方法表现良好,但本质上需要非常密集的多视角输入,这限制了它们在实际应用场景中的适用性。在这项工作中,作者提出了一种名为SparseLGS的方法,以应对无姿态和稀疏视图输入图像下的3D场景理解挑战。
AIGC 先锋科技
2025/02/20
1190
中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描  !
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中,CLIP(对比语言图像预训练)[38] 脱颖而出,作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色,无需直接监督就能理解并关联到视觉内容到文本描述。
AIGC 先锋科技
2024/10/22
2170
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
密集与稀疏特性提取, 利用自然语言Query ,2D-3D联合训练方案匹配和重复场景检测 !
3D计算机视觉的迅速发展在理解与解释三维世界方面取得了重要突破。然而,当作者尝试匹配自然语言和2D视觉领域中大规模预训练模型的成就时,要在一系列3D感知任务上实现鲁棒性能是非常具有挑战性的。通往3D基础模型的道路受到3D数据相对稀缺的阻碍,尤其是在获取质量标注方面。与此同时,3D模型需要与语言或语言-视觉模型共同存在并进行通信,以便最优地使用先验知识来感知、推理和作用于物理世界。
AIGC 先锋科技
2024/09/25
1760
密集与稀疏特性提取, 利用自然语言Query ,2D-3D联合训练方案匹配和重复场景检测 !
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。 在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度上都超过了许多最先进的方法。此外,经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。
集智书童公众号
2024/02/01
4.3K0
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。
CV君
2021/11/18
2.6K0
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
其中语言监督方法,如对比语言-图像预训练(CLIP),利用成对的图像-文本数据来学习富含语言语义的表示。
新智元
2025/04/09
750
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
Transformer在自然语言处理的几乎所有任务中占据主导地位。近年来,基于Transformer的架构如Vision Transformer(ViT)被引入到计算机视觉领域,并在图像分类、目标检测和图像分割等任务中显示出巨大的前景。
集智书童公众号
2021/11/23
3.5K0
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
清华&MBZUAI&CMU&牛津提出DenseCLIP,用上下文感知的提示进行语言引导密集预测!代码已开源!
最近的研究表明,使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源,这一新范式在下游分类任务和可迁移性方面展现出了不错的结果。
CV君
2021/12/15
1.3K0
清华&MBZUAI&CMU&牛津提出DenseCLIP,用上下文感知的提示进行语言引导密集预测!代码已开源!
AnyDoor笔记 - plus studio
在这项工作中,香港大学,阿里联合提出了提出了 AnyDoor,这是一种基于扩散的生成器,可以进行对象隐形传态。这项研究的核心贡献是使用判别 ID 提取器和频率感知细节提取器来表征目标对象。在视频和图像数据的不同组合上进行训练,我们在场景图像的特定位置合成对象。AnyDoor 为一般区域到区域的映射任务提供了通用解决方案,并且可以为各种应用有利可图。
plus sign
2024/02/29
2120
AnyDoor笔记 - plus studio
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
DAFormer代表了UDA的一个重大进步。它在GTA→Cityscapes改善了10.8 mIoU、Synthia→Cityscapes提升了5.4 mIoU。
集智书童公众号
2022/05/26
2.9K0
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
推荐阅读
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
1.3K0
无需训练,kNN-CLIP 在图像分割中的应用 !
2680
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
9180
超越传统自监督学习,NeCo在语义分割任务中的性能提升 !
1850
ICCV 2023 | LERF:语言嵌入的辐射场
4700
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.5K0
OOOPS:零样本实现360度开放全景分割,已开源 | ECCV'24
1730
ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24
1370
打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !
6590
嵌入基础模型的高斯溅射
3980
中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描  !
1190
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
2170
密集与稀疏特性提取, 利用自然语言Query ,2D-3D联合训练方案匹配和重复场景检测 !
1760
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
4.3K0
《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
2.6K0
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
750
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
3.5K0
清华&MBZUAI&CMU&牛津提出DenseCLIP,用上下文感知的提示进行语言引导密集预测!代码已开源!
1.3K0
AnyDoor笔记 - plus studio
2120
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
2.9K0
相关推荐
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档