

DINO 算法生成具有可解释注意力图的模型:最后一个注意力层自然地关注图像语义一致的部分(图 2)。这允许对象发现算法,例如 LOST。但是,由于特征图中存在伪影,这些方法不再适用于 DINOv2 和其他 ViT(DeiT-III 和 OpenCLIP)。

在本文中,他们试图更好地理解这一现象并找到解决这个问题的方法。
问题

在大模型训练过程中出现异常值,高规范令牌出现在第 15/40 层,训练的三分之一处,并且仅适用于大尺寸 ViT(ViT-H、ViT-L 和 ViT-g)
在补丁信息冗余的地方出现高规范令牌

高规范令牌包含的本地信息很少,他们训练两个线性模型:一个用于预测图像中补丁的位置,一个用于预测图像的像素值。对于这两个任务,异常值的性能都低于普通标记
工件保存全局信息
他们直接从补丁嵌入训练逻辑回归分类器,并测量其准确性以预测图像类。高规范令牌的准确性比普通令牌高得多。

假设和补救措施
他们提出了以下假设:经过充分训练的大型模型学会识别冗余标记,并将它们用作存储、处理和检索全局信息的地方。
他们提出了一个简单的修复方法:他们明确地将新标记添加到序列中,模型可以学习将其用作寄存器。他们在补丁嵌入层之后添加这些令牌,具有可学习的值,类似于 [CLS] 令牌。

实验
他们训练三种不同的最先进的 ViT 模型:
DeiT-III:ImageNet-22k 上的监督训练配方。
OpenCLIP:基于 Shutterstock 许可图片的语料库上的图像文本监督。
DINOv2:ImageNet-22k 上的无监督学习。
使用寄存器标记可以有效地删除以前存在的规范异常值。

为了检查寄存器的使用是否不会影响表示的质量,他们通过线性探测评估了三个任务的模型:ImageNet 分类、ADE20k 分割、NYUd 单眼深度估计。

使用一个寄存器就足以消除伪影。在密集任务中,寄存器数量是最佳的,但一个 ImageNet 会随着寄存器的增加而不断增加。他们决定在所有实验中使用 4 个寄存器。

他们使用 LOST 进行无监督对象发现,并观察到显着的改进。


特征图输出的第一个主成分

令牌归一化映射
系统化学习多模态与视觉语言模型