概述
VisualAD 是一种用于零样本异常检测(Zero-Shot Anomaly Detection, ZSAD)的新型纯视觉框架。与主流依赖视觉-语言模型(如CLIP)的方法不同,VisualAD 完全移除了文本分支,仅使用视觉变换器(Vision Transformer, ViT)来学习“正常”与“异常”的判别性特征。
该方法的核心思想是:在冻结的ViT中直接引入两个可学习的全局令牌(分别代表正常与异常),通过它们与图像块令牌的交互,直接在高维视觉空间中编码正常与异常概念,避免了跨模态对齐带来的训练不稳定和参数冗余问题
模型架构与说明
VisualAD 的整体流程如下图所示,主要包括四个关键部分:可学习全局令牌、空间感知交叉注意力模块、自对齐函数以及多层级融合的异常评分。
2.1 可学习全局令牌
- 在ViT的输入序列中,除原有的类别令牌([CLS])和图像块令牌外,额外插入两个可学习的全局令牌:异常令牌 (t_a) 和 正常令牌 (t_n)。
- 这些令牌通过ViT的多层自注意力机制与所有图像块令牌交互,逐步吸收高层次的正常/异常语义信息。
2.2 空间感知交叉注意力 (Spatial-Aware Cross-Attention, SCA)
- 目的: 为全局令牌注入明确的空间局部信息,弥补纯全局令牌对空间结构不敏感的缺陷。
- 机制:
- 选取ViT的中间层特征(如第6、12、18、24层)。
- 使用少量(如4个)可学习的锚点查询,对带位置编码的块特征进行交叉注意力计算,聚合关键局部证据。
- 通过一个令牌引导的门控机制,将锚点聚合的特征动态地、选择性地添加到全局令牌上,得到增强后的令牌 t_a 和 t_n。
2.3 自对齐函数 (Self-Alignment Function, SAF)
- 目的: 对每个选定层的块特征进行非线性校准,使其更好地与增强后的全局令牌对齐。
- 实现: 一个简单的单隐藏层MLP。对每个选定层独立使用一个SAF。
2.4 异常评分与训练目标
- 异常图生成: 对于每个像素(块),计算其与增强后的异常令牌的余弦相似度,减去其与正常令牌的余弦相似度,得到该像素的异常分数。
优势与实验对比
- 性能领先: 在涵盖工业检测和医学影像的13个公开基准数据集上,VisualAD在图像级和像素级指标上均达到最先进水平。
- 参数高效: 相比依赖文本编码器的方法(如AnomalyCLIP),可训练参数减少超过99%,且训练过程更稳定。
- 架构灵活: 可以无缝适配不同的预训练视觉骨干网络(如CLIP的图像编码器、DINOv2),表现出很好的通用性。
- 定性结果优异: 生成的异常区域边界更清晰、定位更完整,尤其在医学图像上表现突出
结论
VisualAD 成功挑战了零样本异常检测领域“必须依赖文本”的固有观念。通过巧妙地在冻结的视觉变换器内部设计可学习的正常/异常令牌,并结合空间信息增强与特征校准模块,实现了一个更简洁、高效、强大的纯视觉解决方案。该工作为未来的异常检测研究提供了一个极具潜力的新方向。