文章/答案/技术大牛

发布

社区首页 >专栏 >Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP？这里就是答案！

Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP？这里就是答案！

集智书童公众号

发布于 2024-01-17 08:27:13

1.1K0

文章被收录于专栏：集智书童集智书童

CLIP模型得益于其与任意文本提示的流畅交互，显示出惊人的零样本能力。然而，其缺乏空间意识，使其在不需要额外的微调步骤（通常使用标注，可能会潜在地抑制其原始的开放词汇属性）的情况下，不适合处理密集的计算机视觉任务，例如语义分割。同时，自监督表示方法已经展示了在没有人为标注和明确监督的情况下，具有良好的局部化属性。在本工作中，作者取两者之长，提出了一种零样本开放词汇语义分割方法，该方法不需要任何标注。作者提出通过将来自自监督特征提取的局部化先验知识，简单地修改CLIP的最后池化层，在局部改进密集MaskCLIP特征。通过这样做，作者大大提高了MaskCLIP的性能，并生成了平滑的输出。此外，证明了使用的自监督特征属性可以直接从CLIP特征中学习，因此可以通过一次通过CLIP模型获得最佳结果。 CLIP-DINOiser只需要CLIP的一次前向传播和推理时两次轻量级卷积层，不需要额外的监督、额外的内存，并达到了最先进的性能，例如在COCO、Pascal Context、Cityscapes和ADE20k等具有挑战性和细粒度的基准测试中。代码：https://github.com/wysoczanska/clip_dinoiser

1 Introduction

语义分割是许多实际系统中进行关键视觉感知任务的一个关键步骤，例如自动驾驶汽车和工业机器人。通常以数据集为导向进行处理，最佳方法需要一个经过人工标注的训练数据集，该数据集针对特定且有限的一组类别进行处理。强大的视觉语言模型的出现正在推动从封闭词汇范式向开放世界范式的转变。

这些模型使用简单但可扩展的目标进行训练：将可以获得大量图像和粗糙文本标注的图像与文本对齐。视觉语言模型在将全局图像内容与任意文本输入关联方面表现出色，具有显著的泛化能力，但很难提供密集的开放词汇特征。在像素和语言之间获得这种对齐可能导致多个其他模态（如点云，3D场景，3D形状，辐射场，跨模态对齐，以及多个潜在应用的训练数据集构建更加困难，在这些应用中，CLIP派生的模型显示出有前途的结果。

近年来，为了提高CLIP的patch级特征提取能力，提出了一些策略，主要是通过修改原始CLIP架构进行密集池化和再训练或在一个带有预定义类别的标注分割数据集上进行finetuning。前者需要长时间的训练和/或大量的标注数据，而后者会导致CLIP特征的视觉语言关联发生变化。

另一种方法是冻结CLIP编码器并直接使用不同的启发式方法进行密集化，通常需要多次前向传播，但由于计算开销较大，因此实用性较差。MaskCLIP作为一种计算高效的密集CLIP提取器，将CLIP的全局自注意力层转换为卷积层，以生成具有原始视觉语言质量的patch特征。如果这些特征是局部的话，它们似乎对于高质量分割 Mask 提取过于噪声（见图4）。

与此同时，最近的自监督学习（SSL）方法产生了强大的视觉表示，展示了目标定位属性，而这些无需任何手动标注。DINO在这方面脱颖而出，其具有视觉概念感知特征，这些特征已被用于无监督目标发现。DINO特征对于零样本语义分割也是有用的，但需要昂贵的滑动窗口采样或构建概念特定的原型和集成策略。

在本工作中旨在在不改变patch级CLIP特征的最小运行时开销的情况下实现无更改。为此，作者重新检查了MaskCLIP特征的位置属性，并观察到可以通过SSL模型的指导轻松地改进它们。具体来说，作者训练一个简单的卷积层来产生池化权重，以从CLIP执行_概念感知密集特征池化_，而不会扭曲CLIP的特征与语言关联。该层被优化为模仿DINO中图像中视觉概念的可能的布局。

此外，作者还证明可以从CLIP特征中直接学习FOUND从DINO特征中提供的无监督目标性信息，以帮助改进对“背景”提示的分割。

通过CLIP-DINOiser可以在CLIP的一次前向传播中得到高质量的 Mask 。CLIP-DINOiser可用于产生密集语义图或目标聚焦的图。

总之，贡献如下：

(1) 提出了一种轻量级池化机制，利用SSL特征的指导来改进MaskCLIP特征，而不会降低其原始的开放词汇属性。CLIP-DINOiser不需要任何标注，也不需要从头训练CLIP，只需要CLIP的一次前向传播。
(2) 证明CLIP已经包含良好的位置属性，可以被利用。作者利用简单的卷积层来强调从CLIP的密集特征中提取的视觉概念布局。作者认为这一发现可以在不同的上下文中进一步探索。
(3) CLIP-DINOiser在复杂的语义分割数据集上达到了最先进的结果，例如COCO，Pascal Context，Cityscapes和ADE20K。

2 Related Work

在这个部分，作者将讨论与作者方法相关的方法。

零样本语义分割（Zero-shot semantic segmentation）这一任务通常采用的方法是试图从已见类别泛化到未见类别。这些策略在完全监督下训练模型，并针对未见类别提出不同的解决方案，而无需新的图像（标记或未标注的图像），例如，通过利用流行词嵌入中的包含类信息和关系的分类信息。尽管它们在计算开销方面可以产生精细的分割，但这些方法需要像素级标注的已见类别。

从CLIP到开放词汇分割（From CLIP to open-vocabulary segmentation）。随着具有对齐图像语言表示的VLMs的兴起，零样本分类任务再次受到关注。然而，将零样本分割扩展到零样本是不明显的，因为CLIP架构无法产生密集的视觉语言特征。

为了产生密集的CLIP特征，几种方法对像素对齐的CLIP类似模型进行微调或从头训练，并在具有不同粒度和质量的标注数据集上添加额外的模块、机制或监督目标：密集标注，无类别目标 Mask ，粗糙描述或伪标签。

最近的工作利用图像级描述符来将文本对齐到区域（无需监督获得）：PACL训练一个嵌入模块来学习patch到text的亲和力，TCL提出一个局部对比目标来将良好选择的patch对齐到文本，并ViewCO利用多视图一致性。然而，这些模型需要对数百万张图像或特定类型的标注进行长时间的训练，这些标注非常昂贵。此外，使用定义好的词汇微调CLIP更具计算吸引力，但会改变特征的开放词汇属性。

与作者最相关的工作是调查如何直接将CLIP特征进行密集化，以获得每个patch的特征。这种密集化可以通过聚合多个视点的特征或滑动窗口的特征来实现，但是需要额外的计算开销。MaskCLIP删除了CLIP的全局池化层，并直接通过一个

$1\times 1$

卷积层将投影的特征与文本进行匹配。通过这种方式，他们实现了密集预测，但结果相当嘈杂。

从概念驱动的角度来看，一些方法构建每个概念的视觉原型代码书，包括负原型，然后进行共同分割。这种方法可以获得很好的结果，但代价是构建昂贵的_特定类别_原型，从而偏离了开放词汇场景。相反，作者旨在保持开放，避免在考虑新的概念时重新训练模型或构建新的昂贵原型。为此，作者设计了一种CLIP密集特征提取方法，保持了开放词汇质量。

利用自监督模型和CLIP。最近的自监督ViTs允许作者生成具有良好位置属性的特征。这些特征也被用于开放词汇分割方法的上下文中：视觉 Backbone 预训练，共同分割，将 Patch 聚类为 Mask ，表示目标原型。

与作者的工作相关的是最近提出的CLIP-DIY，该方法从不同图像裁剪的CLIP特征中计算patch级表示，并利用无监督显著性分割器的指导。作者也利用FOUND分割器，但需要CLIP的一次前向传播，并通过集成不确定性约束来缓解FOUND在杂乱场景中的限制。最后，作者利用DINO的有用 Patch 相关属性，并表明通过轻量级卷积层可以教CLIP生成DINO类似的特征。

3 Method

在本节中提出了一种名为CLIP-DINOiser的简单而高效的方法，该方法利用从CLIP中提取的定位信息来改进MaskCLIP。首先在3.1节中设置目标。在3.2节中介绍了如何使用MaskCLIP后，CLIP可以生成密集文本对齐2D特征图。然后，引入了利用自监督特征定位信息来巩固MaskCLIP特征的策略，并在3.3节中介绍了一种改进“背景”的方法。

最后，在3.5节中证明了这种信息可以从CLIP中成功学习，使作者的方法可以在一次CLIP前向传播中运行，无需外部 Backbone 。

Problem statement

在这项工作中，作者的目标是生成图像的开放词汇零样本语义分割。作者考虑一个图像

$X\in\mathbb{R}^{H\times W\times 3}$

，将其分成一个序列的

$N$

个 Patch ，每个 Patch 的尺寸为

$P\times P\times 3$

，其中

$P\times P$

是 Patch 大小，

$N=\lceil\frac{H}{P}\rceil\cdot\lceil\frac{W}{P}\rceil$

。在输入序列中添加一个类别标记，记作 CLS，并将

$N+1$

个 Patch 输入到ViT模型中。

作者的目标是生成一个

$N\times d$

的密集视觉特征

$F\in\mathbb{R}$

，其中

$d$

是特征维度，可以后来匹配到同一空间中的任何一组文本输入。

具体来说，目标是生成一个与图像中的文本 Query 可能或可能不存在的语义分割图。下面作者将详细说明如何生成这样的视觉特征并得到语义分割图。

Preliminaries on MaskCLIP

提取密集开放词汇特征。流行的CLIP模型预先在图像/描述符对上进行训练，可以产生良好的全局图像特征，但并未被训练以生成高质量的2D特征图。为了提取与语义分割相关的密集特征图，CLIP提出重新访问模型中最后注意力层的全局注意池化层。

实际上，放弃了该层的 Query 和键嵌入，并将值投影和最后线性层都转换为卷积

$1\times 1$

层。使用这个新模型，名为MaskCLIP并标记为

$\phi(\cdot)$

，作者从保留CLIP大部分开放词汇特性的最后层L中提取

$d$

维特征

$\phi^{L}(X)\in\mathbb{R}^{N\times d}$

。

给定文本 Query 的语义分割。作者为每个文本 Query 提取 CLIP 文本特征，其中。然后，通过计算每个视觉 Patch 特征与文本提示的余弦相似度进行 L2 归一化，生成分割图。将最相似的提示分配给每个 Patch 。

请注意，可以添加一个 Query “背景”以获得负 Patch 。使用 MaskCLIP 可以在 CLIP 模型的单次前向传播中产生密集分割图，但输出（如图4所示）是嘈杂的。

Leveraging self-supervised features to improve MaskCLIP features

在这项工作中，作者旨在改进MaskCLIP的开放词汇特征，即上面描述的特征。为此，提出利用已知的自监督特征的良好定位属性，这些属性已经用于无监督类别无关的物体定位任务。

提取自监督相关信息。最近的研究表明，自监督模型DINO的最后注意力层嵌入的 Patch 相关信息可以帮助突出图像中的目标。作者在这里使用Value嵌入，观察到它们的关联性比Key和 Query 嵌入（更多详情见补充材料A.2节）更细。作者提取这样的自监督特征

$\xi(X)\in\mathbb{R}^{N\times d_{\xi}}$

，并丢弃CLS标记。然后，计算每个 Patch 的余弦相似度，并生成亲和图

$A^{\xi}\in[-1,1]^{N\times N}$

。

$A^{\xi}=\frac{\xi(X)}{||\xi(X)||}\otimes\left(\frac{\xi(X)}{||\xi(X)||}\right) ^{\top}, \tag{1}$

使用

$\otimes$

表示外积。在图2中比较了使用MaskCLIP和DINO特征获得的不同 Patch 种子之间的 Patch 相似性（左和中间列），并观察到自监督特征比CLIP的更密集和准确相关。

利用有向池化增强特征。为了局部整合MaskCLIP特征

$\phi^{L}(X)$

，作者提出利用 Patch 亲和度

$A^{\xi}$

对每个 Patch 的特征进行线性组合，以实现类似 Patch 具有相似CLIP特征（和预测）的目的，同时抑制噪声特征。

具体来说，计算新的特征

$F^{+}\in\mathbb{R}^{N\times d}$

作为MaskCLIP特征

$\phi^{L}(X)$

的平均值，并通过

$A^{\xi}$

进行加权。在阈值

$\gamma$

下零除

$A^{\xi}$

Producing a strong background detection.

此外，如前所述，可以在文本 Query 集合

$\mathcal{T}$

中添加一个“背景” Query ，以帮助过滤掉落在“背景”中且不对应任何目标的 Patch 。作者认为仅依靠文本提示“背景”来捕获所有非显著 Patch 的性能是欠佳的，类似于Clip-diy，作者提出使用非常轻量级的无监督前景/背景分割方法FOUND，该方法也依赖于DINO自监督特征。

与Clip-diy不同，作者对整个图像应用FOUND一次，并提取一个预测 Mask

$M\in\{0,1\}^{N}$

，其中 Patch 被分配值为1，如果落在前景中，否则为0。作者还观察到由FOUND产生的显著性可能过于严格，并且会丢弃部分可见的物体或杂乱场景中的物体。为了减轻这种行为，作者提出通过集成额外的不确定性约束来放松背景选择。

为此，利用两者的优点，将“背景”类分配给既不确定（例如，具有低置信分数

$\sigma(S)_{p}<\delta$

，其中

$\sigma(\cdot)$

是softmax操作，且在

$M$

中落在背景中的 Patch

$p$

）。作者观察到结果得到了改善，并且确实背景被更好地分割，如图5所示（见图11的更多示例）。

Teaching CLIP a few DINO tricks

在前面的部分中证明了自监督相关信息可以成功用于改进开放词汇特征的密集质量。如果将CLIP的困难程度广为人知，在这里证明，CLIP特征本身已经包含了良好的定位信息，可以通过轻量级的模型提取出来。事实上，作者使用专门的卷积层预测了DINO相关性

$A^{\xi}$

和FOUND预测

$M$

（见3.3节描述）。

为了从CLIP特征中预测DINO相关性图，作者训练了一个_单个_ 卷积层，将来自层的提取的中间特征映射到维度为 $d_{g}<d$ $d_{g}$ 中。作者强制生成的特征 $a^{\phi}\in[-1,1]^{n\times n}$ 的="" patch="" 相关性：<="" p="">

$A^{\phi}=\frac{g(\phi^{l}(X))}{||g(\phi^{l}(X))||}\otimes\left(\frac{g(\phi^{l }(X))}{||g(\phi^{l}(X))||}\right)^{\top}, \tag{3}$

为了使预测的相关性图

$A^{\xi}$

接近二进制相关性

$D=A^{\xi}>\gamma$

，使用二进制交叉熵损失

$\mathcal{L}^{c}$

：

$\mathcal{L}^{c}=\sum_{p=1}^{N}\left[D_{p}\log A^{\phi}_{p}+(1-D_{p})\log(1-A^ {\phi}_{p})\right]. \tag{4}$

在图2中可视化了

$A^{\phi}$

的示例，并观察到它们与基于DINO的相关性之间的相似性。

使用CLIP生成的

$A^{\phi}$

来替换

$A^{\xi}$

在公式2中，以加权池化，并观察到与MaskCLIP类似的提升，因此表明确实可以从CLIP中提取良好的 Patch 相关性。现在作者可以丢弃DINO，作者称CLIP-DINOiser为引导池化策略，该策略使用CLIP相关性。CLIP-DINOiser在CLIP模型的一次前向传播中运行（并增加一个小卷积层）。

此外，还可以直接从CLIP特征中学习FOUND目标的预测。为此，训练了一个单个

$1\times 1$

卷积层

$h(\cdot)$

，它从

$X$

提取的特征

$\phi^{l}(X)$

中预测一个目标性图

$M^{\phi}=h(\phi^{l}(X))\in\mathbb{R}^{N}$

：

$\mathcal{L}^{m}=\sum_{p=1}^{N}\left[M_{p}\log(M^{\phi}_{p})+(1-M_{p})\log(1-M^ {\phi}_{p})\right]. \tag{5}$

在图6中展示了预测的基于CLIP的目标性，并观察到它们与使用DINO产生的结果具有非常高的相似性。此外，作可以将的

$M$

替换为基于CLIP的二进制得分

$\zeta(M^{\phi})>0.5$

，其中

$\zeta(\cdot)$

是sigmoid操作，并观察到性能出现的最小下降。

4 Experiments

在这个部分呈现了用于评估CLIP-DINOiser的实验。详细地描述了在评估中使用的实验设置，在4.1节中。在4.2节中进行了消融研究，并在4.3节中列出了零样本语义分割任务上的最新结果。

Experimental setup

技术细节。 在所有实验中使用了一个由OpenCLIP预训练的冷冻CLIP ViT-B/16。作者的方法CLIP-DINOiser使用了两个卷积层来从CLIP层

$l=10$

（作者在讨论中使用的最后一个之前）提取DINO类似的特征：

$g(\cdot)$

有一个核

$3\times 3$

和输出维度

$d_{g}=256$

，

$h(\cdot)$

有一个核

$1\times 1$

和

$d_{h}=1$

。

第一个是用来匹配DINO中使用的一个ViT-B/16模型训练后提取的值嵌入相关性信息的特征。第二个层是用来复制FOUND中的无监督物体定位预测，它也使用了DINO模型。使用二进制交叉熵损失训练两个层，并在PASCAL VOC训练集中训练模型，该训练集包括1464张图像。在1 Nvidia A5000 GPU卡上训练20个Epoch，每个Epoch包含32张图像，总共需要约40分钟。

在FOUND Head 训练后15个Epoch时，将学习率降低到0.1倍。对于相关性 Head ，在5个Epoch后停止训练，因为观察到模型在之后停止改进。在训练期间应用数据增强（随机缩放、裁剪、翻转和光度失真）。总的来说，将相关性二进制化为

$\gamma=0.2$

并使用

$\delta=0.98$

的置信度分数。在A.1节中分析了参数，并显示作者的方法相当稳定。

数据集和指标。 在八个通常用于零样本语义分割的基准测试上评估作者的方法。作者将它们分为两组。第一组包括具有'背景' Query 的数据集：PASCAL VOC，PASCAL Context和COCO Object以及没有的：PASCAL VOC20，PASCAL Context59，COCO-Stuff，Cityscapes和ADE20K。

使用标准mIoU指标评估结果。作者使用MMSegmentation提供的实现，采用滑动窗口策略，将输入图像调整为较短的448边长。作者也不对类名进行文本扩展，并仅使用标准ImageNet提示（更多关于提示的讨论见补充材料A.3节）。

Baseline 。 将作者的方法与最先进的开放词汇零样本语义分割方法进行比较。为了在方法之间进行公平的比较，作者报告了没有任何后处理步骤的结果。作者将比较分为三个类别：MaskCLIP+是词汇特定的_，然后是ReCO，OVDifr，NamedMask构建原型，以及最后其他，例如学习 Patch Level 的表示，例如GroupViT，ZeroSeg，SegCLIP，TCL，CLIPpy，OVSementor或改进冷冻CLIP特征：CLIP-DIY和MaskCLIP。

Ablation study

在这个部分，作者通过先研究作者提出的特征池化机制以及背景检测的影响，对CLIP-DINOiser的不同组件进行了消融研究。

池化机制的影响。 作者在CLIP-DINOiser中提出了结合MaskCLIP特征和预定义线性组合的方法，并在Tab. 1a中比较了不同的解决方案。

在[64]中，作者提出了使用CLIPKey（preds.）的加权组合来改进预测，并在VOC和VOC20上分别将MaskCLIP结果提高了+8 mIoU，而在其他数据集上提高了+1.8、+1.0和+0.6 mIoU。然而，作者表明直接处理特征可以获得更好的结果；当使用基于DINO的权重

$A^{\xi}$

时，作者在所有数据集上获得了从+5到+19 mIoU的一致性改进，并且当使用训练好的CLIP权重

$A^{\phi}$

时，进一步改进。

背景检测的影响。 现在作者讨论当作者需要检测类似于'stuff'的背景 Patch 时，作者的背景精炼策略带来的改进。作者在Tab. 1b中报告了使用作者的池化策略（无论是使用DINO特征，称为'使用DINO

$A^{\xi^{*}}$

或从CLIP提取的特征，称为'使用训练好的

$A^{\phi^{*}}$

'）时的结果。当仅使用'FOUND'进行背景检测，就像在Clip-diy中一样，作者在VOC上提高了+6.4 mIoU（达到60.1 mIoU），但当放松FOUND（见第3.4节）并引入不确定性条件时，作者在VOC上提高了分数至+62.1，显示出使用FOUND alone的局限性。

作者还可以使用基于CLIP的预测

$M^{\phi}$

，无论是使用基于DINO的

$A^{\xi}$

还是训练好的CLIP的

$A^{\phi}$

相关性，都能达到类似的结果，尽管作者观察到使用训练好的

$A^{\phi}$

可以获得最佳结果。作者在图6中可视化了基于CLIP的 Mask

$M^{\phi}$

，并看到它与基于DINO的预测具有很高的相似性，因此展示了CLIP的定位质量。

Zero-shot semantic segmentation

作者现在讨论零样本语义分割任务上的最先进结果。

无'背景'类别的评估。 作者首先在Tab. 2中比较了在旨在分割图像中大多数像素的数据集上的结果，并且不考虑'背景'类别的结果。

作者观察到作者的方法CLIP-DINOiser在四个数据集上获得了+2.2，+5.0，+6.7和+5.1 mIoU，超过了第二好的方法。有趣的是，作者在细粒度数据集上超过了构建每个视觉概念的昂贵原型的方法，展示了作者轻量级和泛化性方法的优势。唯一的下降（-1.5 mIoU）出现在VOC20上，这是一个以物体为中心的数据集，描绘了少数大物体。作者认为，考虑特征相关性的自适应粒度可能有助于减轻这种下降，并将其留为未来的工作。

包含'背景'类的评估。 作者现在在Tab. 3中比较了在包括'背景' Query 的数据集上的作者的方法。在这个设置中，作者在VOC和Object上应用了作者的背景检测机制（详细说明在第3.4节），以改进类似'stuff'的背景检测。作者观察到CLIP-DINOiser显著优于所有不构建原型的方法。

此外，作者在Context和Object数据集上分别比OVDiff提高了+2.3和+0.2 mIoU。作者还在VOC上达到了与OVDiff相当的结果，特别是在考虑没有集成版本的情况下。还要强调的是，OVDiff需要在每个概念上构建一个'背景'原型，否则在VOC上会失去-10 mIoU，如论文所述。最后，作者的方法在CLIP推理中以单次传递完成计算，并添加了两个卷积层，同时保持完全的开放词汇，因为它不需要任何特定类的构建。

定性结果。作者在图7中定性比较了CLIP-DINOiser与高性能的TCL和CLIP-DIY（两个最近的方法，它们提供了代码）在来自被评估数据集的图像上的预测。作者观察到在定位和分配方面都生成了准确的预测。实际上，作者在CITYSCAPES和ADE20K数据集上获得了细粒度的结果，当CLIP-DIY和TCL产生更粗糙的结果时，'car'和'fountain'的 Query 准确地定位。

5 Conclusions

在这项工作中提出了一种利用CLIP特征的最大化的方法，并表明CLIP特征本身已经包含了有用的_定位信息_。实际上，通过使用轻量级卷积层，可以通过使用DINO自监督模型作为指导，同时学习良好的 Patch 相关性和目标性信息。有了这样的信息CLIP-DINOiser可以在CLIP模型的单次前向传播中执行零样本开放词汇语义分割，并使用两个轻量级卷积层。CLIP-DINOiser在复杂的语义分割数据集上达到了最先进的结果。

局限性。 尽管在开放词汇语义分割方面获得了强大的结果，但CLIP-DINOiser仍然受到CLIP模型分离类别的能力的限制，因为它继承了其粒度。作者认为，结合更好的提示工程和更好的图像文本模型，可以进一步推动CLIP-DINOiser。

Appendix A More ablations

在这个部分，作者呈现了作者对提出的方法的额外消融研究。特别是，作者在A.1节中讨论了对不同参数值的敏感性，并表明结果相当稳定。作者还将在A.2节中展示对用于'教' CLIP技巧的特征的影响的研究。

Parameter study

在本节中，作者研究了CLIP-DINOiser的不同参数对方法性能的影响。

随机种子。为了首先评估作者训练的稳定性，进行了三次使用不同随机种子的实验。主论文中所有CLIP-DINOiser数据集上的结果对应着l=10，并在Tab. 5中突出显示。作者观察到在所有情况下，标准差等于0.2或更低，因此显示出训练的稳定性。

相关性阈值

$\gamma$

。在这里，作者研究了应用在DINO亲和图

$A^{\xi}$

上的相关性阈值的影响，该阈值可以调整以控制在加权池化（Eq. 2）中使用多少 Patch 。当

$\gamma=0$

时，对应包括所有与种子正相关的 Patch 。随着

$\gamma$

增加至1，池化更具选择性，因为被考虑的 Patch 更少，但与种子相关性更好。

作者在Tab. 4中报告了结果，并观察到在Context59，COCO Stuff和ADE20k上得分相当稳定。作者还注意到，在

$\gamma=0$

时，在VOC20上获得最佳结果，而更严格的阈值在城市scapes上受益。这可以解释为VOC主要描绘大型物体，而每个Cityscapes图像包含多个来自不同类别的较小物体。在作者的所有实验中，作者使用

$\gamma=0.2$

，该值与[55]中使用的一致。

输入层

$l$

用于训练。作者在Tab. 5中报告了将作者的卷积层

$g(\cdot)$

和

$h(\cdot)$

应用在不同的CLIP层

$l$

上的结果。作者注意到

$L=13$

是最后一个与文本对齐的CLIP层，作者报告了平均3次运行得分以及它们的标准差。作者观察到，与最后的对齐任务更接近的L和

$l=L-1=12$

层获得了更差的结果，而

$l\in\{9,10,11\}$

层的结果相近，变化范围低于0.6点mIoU。此外，作者可以观察到，在所有情况下，绝对标准偏差都低于0.3 mIoU，显示出作者训练的稳定性。

背景中置信度阈值

$\delta$

。作者在图11中报告了在不同置信度分数阈值

$\delta$

下的背景精炼（见Sec. 3.4节详细说明）结果。这个阈值控制了一个 Patch 必须在什么情况下才能被考虑为FOUND的'背景'分割。使用

$\delta=1.0$

相当于应用标准的FOUND。作者观察到，使用一个约等于

$\delta=0.98$

的阈值在VOC和Object上都取得了良好的结果，而且集成不确定性考虑总是比仅使用FOUND（

$\delta=1$

）更有帮助。作者在所有实验中使用

$\delta=0.98$

。

Self-supervised features discussion

作者在这里研究了用于'教' CLIP 自我监督技巧的不同类型的特征的影响。作者呈现了从最后注意力层提取的不同DINO嵌入的关联性可视化，即'query'，'key'和'value'。大多数无监督定位方法使用'key'嵌入，允许轻松地将'前景'从'背景'分离。然而，在这项工作中，作者观察到，使用'value'特征而不是'key'特征，可以使作者更好地分离背景中的元素，如图9所示。确实，背景中的 Patch 与更少的背景 Patch 相关，因此区域可以更好地分离。

当作者使用每种类型的特征时，作者描绘了最终的分割结果，并观察到使用'value'特征时获得最佳结果。作者使用

$\gamma=0.2$

，这与[55]中使用的一致。作者观察到，使用'value'嵌入的背景中的更多物体得到了很好的分割和标记，例如'tree'和'sky'。

此外，还尝试使用DINOv2及其无缺陷版本，但作者观察到关联图更容易利用，从而导致在作者的任务上性能更差。

Text template discussion

作者在这里讨论了使用原始CLIP仓库中提出的文本 Query 模板的影响，与相关工作的实现中的单模板"a photo of a {}"进行比较。

作者在Tab. 6中报告了在使用单模板"single"和80个ImageNet模板"IN"时，CLIP-DINOiser和MaskCLIP的结果。作者观察到，在MaskCLIP的情况下，使用多个模板要么不会显着提高（在+0和+0.5 mIoU之间），甚至可能损害（在VOC20上），而使用ImageNet模板总是对CLIP-DINOiser有所帮助（在+0.5和+2.2 mIoU之间）。

Appendix B More qualitative results

在这个部分，作者通过更多的比较性定性结果来阐明作者方法的优势。

Visual ablations

作者的池化。作者在图10中展示了更多使用作者方法CLIP-DINOiser的应用示例，并将其与MaskCLIP的结果进行了比较。作者观察到在所有情况下，作者的池化都减少了预测中的噪声，并有助于产生高质量的分割。

作者的背景。通过在图11中可视化带有和不带有背景精炼步骤的结果，作者观察到背景精炼步骤有助于消除像左图像中的雪区域（该区域被分类为'snowboard'）或右图像中的未标注柜子等不确定的分割。

Failure cases

作者在这里讨论了CLIP-DINOiser方法的一些已知失败模式，这些模式在图12中进行了可视化。

首先观察到一些CLIP偏见，例如'train'和'train tracks'（左图）会产生相似的特征，这可能是因为它们在图像中频繁共现。作者已经观察到其他这种偏见的例子，例如'boat'和'sea' Query 。其次，尽管CLIP-DINOiser可以产生相当细粒度的分割（从目标大小和类别来看），但它可能会错过像Cityscapes（中间图像）这样的小或远离物体的目标。最后，与其他开放词汇语义分割方法一样，CLIP-DINOiser对文本 Query 的歧义不具有鲁棒性。

例如ADE20K（右图）中的例子，其中'house'被误认为是'building'。在作者进行的实验中，作者观察到多个分割歧义，并认为重新定义评估指标可以帮助解决这个问题。作者强调，当前的评估设置，直接从完全监督设置中复制，可能在开放词汇范式中具有限制。

More state-of-the-art results

作者在图14和图15中呈现了与最先进结果的更多视觉比较。观察到CLIP-DINOiser产生了细粒度的分割结果并超过了 Baseline 。

In the wild examples

作者在图13中呈现了更多的野外示例，其中作者比较了CLIP-DINOiser和MaskCLIP。MaskCLIP生成的分割图非常嘈杂，尤其是在考虑多个假阳性 Query 时（定义这样的假阳性 Query 为在图像中没有表示的提示 Query ）。相反，CLIP-DINOiser对这样的假阳性具有鲁棒性，并生成高质量的分割图。