首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【ViTNeedRegister】VLM特征提取改进与异常去除

【ViTNeedRegister】VLM特征提取改进与异常去除

作者头像
OpenCV学堂
发布2026-04-02 21:45:17
发布2026-04-02 21:45:17
220
举报
介绍
图片
图片

DINO 算法生成具有可解释注意力图的模型:最后一个注意力层自然地关注图像语义一致的部分(图 2)。这允许对象发现算法,例如 LOST。但是,由于特征图中存在伪影,这些方法不再适用于 DINOv2 和其他 ViT(DeiT-III 和 OpenCLIP)。

图片
图片

在本文中,他们试图更好地理解这一现象并找到解决这个问题的方法。

问题

图片
图片

在大模型训练过程中出现异常值,高规范令牌出现在第 15/40 层,训练的三分之一处,并且仅适用于大尺寸 ViT(ViT-H、ViT-L 和 ViT-g)

在补丁信息冗余的地方出现高规范令牌

图片
图片

高规范令牌包含的本地信息很少,他们训练两个线性模型:一个用于预测图像中补丁的位置,一个用于预测图像的像素值。对于这两个任务,异常值的性能都低于普通标记

工件保存全局信息

他们直接从补丁嵌入训练逻辑回归分类器,并测量其准确性以预测图像类。高规范令牌的准确性比普通令牌高得多。

图片
图片

假设和补救措施

他们提出了以下假设:经过充分训练的大型模型学会识别冗余标记,并将它们用作存储、处理和检索全局信息的地方。

他们提出了一个简单的修复方法:他们明确地将新标记添加到序列中,模型可以学习将其用作寄存器。他们在补丁嵌入层之后添加这些令牌,具有可学习的值,类似于 [CLS] 令牌。

图片
图片

实验

他们训练三种不同的最先进的 ViT 模型:

代码语言:javascript
复制
DeiT-III:ImageNet-22k 上的监督训练配方。
OpenCLIP:基于 Shutterstock 许可图片的语料库上的图像文本监督。
DINOv2:ImageNet-22k 上的无监督学习。
图片
图片

使用寄存器标记可以有效地删除以前存在的规范异常值。

图片
图片

为了检查寄存器的使用是否不会影响表示的质量,他们通过线性探测评估了三个任务的模型:ImageNet 分类、ADE20k 分割、NYUd 单眼深度估计。

图片
图片

使用一个寄存器就足以消除伪影。在密集任务中,寄存器数量是最佳的,但一个 ImageNet 会随着寄存器的增加而不断增加。他们决定在所有实验中使用 4 个寄存器。

图片
图片

他们使用 LOST 进行无监督对象发现,并观察到显着的改进。

图片
图片
图片
图片

特征图输出的第一个主成分

图片
图片

令牌归一化映射

系统化学习多模态与视觉语言模型

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档