前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DCAM 多类异常检测的分布式卷积注意力模块和特征蒸馏策略,效率更高、可扩展 !

DCAM 多类异常检测的分布式卷积注意力模块和特征蒸馏策略,效率更高、可扩展 !

作者头像
集智书童公众号
发布2024-06-11 18:38:14
1710
发布2024-06-11 18:38:14
举报
文章被收录于专栏:集智书童

无监督异常检测在工业环境中涵盖了多样化的应用,这些应用对高吞吐量和精确性有严格要求。早期工作集中在“一类一模型”的范式上,这在大型生产环境中带来了重大挑战。基于知识蒸馏的多类异常检测虽然在延迟较低时性能尚可,但与一类版本相比,性能有显著下降。 作者提出了一个DCAM(分布式卷积注意力模块),当多个类别或目标之间存在高方差时,它改进了教师网络和学生网络之间的蒸馏过程。集成了多尺度特征匹配策略,利用来自两个网络特征金字塔的混合多级知识,直观地帮助检测不同大小的异常,这也是多类情况下的一个固有问题。 简而言之,作者的_DCAM_模块包括分布在学生网络特征图上的卷积注意力块,这本质上在学习过程中学会掩盖不相关信息,减轻了“跨类干扰”问题。此过程伴随着在空间维度上使用KL散度最小化相对熵,并在教师网络和学生网络的相同特征图之间进行通道余弦相似度计算。 这些损失使模型能够实现尺度不变性并捕捉非线性关系。作者还强调,DCAM模块只会在训练期间使用,而在推理期间不使用,因为作者只需要学习的特征图和损失来进行异常评分,从而在保持延迟的同时,比多类 Baseline 获得了3.92%的性能提升。

1 Introduction

异常检测是计算机视觉和深度学习领域中高度研究的领域,其应用包括缺陷检测[1, 2],视觉检查,产品质量控制,医学成像等。这需要在低资源环境下的精确度和延迟约束之间取得平衡。异常或离群值本质上是从建模数据中偏离模式的开放集实例。早期的工作集中在缺陷检测上,包括传统的方法和现代的深度网络,随后是一类方法,其中为特定类别的目标或纹理训练了单独的模型。

所有这些方法都是在相应类别的正常(或非异常)样本上进行训练,并在同一类别中检测异常。这本质上是限制了可扩展性和适应性,模型数量与类别数量成比例增加。

这种每类一个模型的范式在类内差异较大时(即当一个类别/类别中的目标变化较大时)也不太可能表现良好。因此,最近出现了多类异常检测方法,其中统一模型[11, 12]能够服务于所有类别,但这些模型的延迟方面并未讨论。

除了跨类别的泛化能力,作者还打算强调这些算法在工业系统中部署时的实时延迟,因此作者特别探索了基于知识蒸馏(KD)的异常检测方法。

如中引入的知识蒸馏,是一种将教师模型在相同训练集或不同数据集上的泛化能力传递给学生模型的方法,使用教师学习到的参数值,逻辑值或类别概率。

尽管KD最初用于模型压缩以减少模型的延迟或复杂性,但它也用于将训练在大规模数据集(例如ImageNet[17])上的网络的知识转移到特定应用模型(对于MVTec AD[18])。

沿着类似的思路,在异常检测的情况下,KD的一个重要考虑是使教师和学生的嵌入在特征或嵌入空间中对于正常或良好的图像更接近,以便在推理时,当异常图像传递给教师和学生时,它们的嵌入会有足够大的差异,因为仅在训练过程中使用了正常图像。然后,这种框架更适合于无监督的场景,一致地利用蒸馏在性能上的优势。

作者提出的方法是将空间和通道注意力块组合在一起,分布在不同尺度的特征图上,用于提炼教师和学生之间解决多类别时出现的跨类别干扰的中间特征信息。

作者在学生-教师框架中使用余弦距离和KL散度作为注意力感知特征匹配的损失函数。余弦距离通过针对教师和学生特征之间的角度距离来拉近特征向量,从而增强了模型的泛化能力和特征向量相似性;

而KL散度则捕捉了学生和教师特征图分布之间的相对熵和非线性关系,提高了学生和教师网络之间的特征复制。

作者的主要贡献包括:

  1. DCAM(分布式卷积注意力模块),它包括空间和通道注意力,可以无缝地集成到知识蒸馏框架中,在训练期间进行注意力感知的提炼,同时不影响推理延迟。
  2. 分析KL散度损失沿着通道和空间维度进行多尺度特征蒸馏及其延迟。
  3. 分析余弦距离损失沿着通道和空间维度进行多尺度特征蒸馏及其延迟。
  4. 将均方误差和余弦距离作为异常评分的度量进行比较,以及它们的延迟。
  5. 注意力模块与适当的损失函数的最佳组合,使得性能提升了3.92%,同时保持了延迟。

2 Related Work

多类异常检测因其 在各个领域中的实际应用而成为关键研究领域。传统的单类异常检测方法需要为每个类别分别建立模型。对于类别众多的场景,这种方法由于可扩展性问题以及模型数量的迅速增加而变得不切实际[8]。

在两个网络之间传授知识时,实验采用了各种扰动。Bergmann等人[13]使用教师的输出logits(最后一层的嵌入)作为学生的目标,但遵循基于 Patch 的方法,这在推理时是一个耗时的策略。

Wang等人[15]利用教师与学生之间中间特征的匹配策略,在合理低延迟的情况下取得了显著的增益。Deng等人[14]引入了反向蒸馏策略,其中有一个教师编码器和学生解码器以及重构它们的中期特征图,其性能优于前者,但延迟又更高。在讨论的方法中,考虑到特征匹配策略[14]在延迟较低和性能相当的情况,作者尝试为多类情况对此进行改进。

尽管最近在多类异常检测方面取得了很好的工作,但它们的延迟和内存密集型架构并没有与单类对应进行比较,而是仅使用分割结果进行对比。

最近的研究集中在多类异常检测上,其中单一模型可以处理多个类别。You等人[11]引入了“UniAD”,一个基于 Transformer 的特征重建模型,有效地解决了这一挑战。

然而,与 Transformer 相关的固有计算复杂性和大量参数限制了它们在资源受限环境中的实用性[11]。此外,Zhao等人[12]提出了“Omnial”,一个统一的CNN框架,在多类异常检测中展示了有希望的结果,但它涉及异常综合,而作者的重点是完全无监督地解决问题,MVTec AD大多数是为此设计的。

最近,Deng和Li[19]的工作表明,使用现有的特征匹配策略方法[14]作为基础,取得了非常好的改进,但它包含了四种不同的损失和训练过程中的CRAM(中心残差聚合模块),并利用教师和学生特征的内亲和性误差,然后是成对相似性差异图进行异常评分,其中亲和矩阵是层的特征图与自身的向外点积。

这涉及到高维特征图的昂贵的逐元素乘法,这会在低资源设置中增加延迟,并增加了实现的难度。

作者提出的方法通过潜在地融入以下改进来克服现有方法的局限性:

在网络架构和损失函数上改进以获得更好的性能,空间和通道注意力块以在多类蒸馏过程中解决跨类干扰,尽管有所改进,但在推理过程中保持低延迟。

通过利用这些进步,作者的工作旨在为使用知识蒸馏的多类异常检测领域做出贡献,为现实世界应用提供性能与效率之间的平衡。

3 Methodology

作者提高多类异常检测的整体方法旨在改进知识蒸馏过程中特征重建或匹配的即兴性。作者设计了一个分布式卷积注意力模块(DCAM)。DCAM将注意力分布在学生网络特征金字塔的多个尺度的空间和通道维度上,这样学生网络不是学习所有特征,而是仅学习关键信息,因为多类情况下物体或类别具有高变异性。

在典型的学生-教师框架中,预训练的教师网络指导学生网络的训练过程。学生网络使用预定义的损失度量来瞄准教师网络的输出,STFPM [15]中的例子是均方误差(MSE)。直接计算学生和教师特征嵌入之间的均方误差(MSE),未能突出空间和通道特征的不同重要性,导致对底层数据分布的理解模糊。

作者的方法结合了空间和通道注意力机制,以及不同的损失函数来衡量教师和学生网络之间空间和通道特征的相似性。通过利用通道和空间注意力机制,学生网络学习每个通道信息的重要性以及每个像素位置的空间细节,提高其识别中间特征图中关键区域的能力。

DCAM模块有助于减轻数据集15个类别之间的跨类别干扰,允许在特征匹配之前专注于学生特征图的有关部分。作者使用这些细化的特征图进行知识蒸馏。

虽然MSE通常用于知识蒸馏,但由于KL散度能够捕捉到学生和教师特征图分布之间的相对熵和非线性关系,因此它的性能可能优于MSE。

作者采用先前研究的结果,即KL散度在匹配学生和教师特征图之间的概率得分方面相当直观且有效[16]。此外,作者使用余弦距离来衡量特征向量之间的相似性,因为它通过角信息在特征空间中识别方向相似性,捕捉相关结构,并促进从教师网络向学生网络转移丰富的知识[20]。

在推理阶段,作者通过组合使用余弦距离计算教师和学生特征图的各个块的上采样损失图来创建异常图。每个方法的详细解释将在后续章节给出。

Distributed Convolutional Attention Module (DCAM)

分布式卷积注意力模块(DCAM)提出了两个组件:通道注意力模块和空间注意力模块。这些注意力模块本质上旨在计算互补的注意力得分,以学习学生网络应学习的特征图中的“是什么”和“在哪里”的方面。作者的DCAM受到CBAM方法[21]的启发。卷积神经网络的层包含不同的通道,这些通道在颜色变化、纹理细节、边缘等方面表现出独特或相似的特征表示。

通过利用通道注意力机制,学生网络学习表示每个通道信息重要性的通道 Mask 。类似地,在空间注意力机制中,学生网络学习表示每个像素位置空间信息重要性的空间 Mask 。这增加了学生网络在中间特征图中识别必须从教师网络中提炼的重要区域的能力。

由于跨越15个类别的数据众多,导致了跨类干扰,作者的DCAM模块在特征匹配步骤之前,能够更好地只关注学生特征图的有关部分。作者使用这些精炼的特征图进行知识蒸馏。需要注意的是,作者只在训练过程中引入DCAM进行特征细化,在测试阶段不使用,这对模型的延迟影响最小。

通道注意力模块使学生网络能够通过为每个通道分配不同的重要性,优先处理信息丰富的通道,通过这种方式,学生网络了解到并非所有通道对知识蒸馏过程贡献相同。

给定一个输入特征图(),通道注意力模块在空间维度上进行最大池化和平均池化。然后通过一个共享的MLP传递这些池化特征,输出分别为最大池化和平均池化的两个独立向量。之后,它合并得到的向量,并通过sigmoid非线性函数生成最终的1-D通道注意力图。这个注意力图指示哪些通道对学生网络更为重要。

空间注意力模块通过在空间维度内优先处理信息丰富的区域,并关注更重要的像素位置,增强了学生网络的学习过程。与通道注意力识别重要通道类似,空间注意力识别每个通道中关键信息所在的位置,捕获特征图之间的非局部依赖。这种信息过滤在蒸馏过程中增强了学习。给定一个输入特征图(),空间注意力模块在通道维度上进行最大池化和平均池化,并将它们一起拼接。然后用一个的核进行卷积,然后通过sigmoid非线性函数生成最终的2D空间注意力图。

Cosine Distance (CD)

作者利用余弦相似性距离来匹配学生在空间和通道维度上的细化特征图与教师的特征图。在先前的研究中,余弦距离在知识蒸馏中已证明是有效的,从而在各种应用中提高了性能。余弦相似性距离具有尺度不变性,捕捉到两个特征向量的方向,在作者的学生-教师框架下,它是特征匹配的有效损失度量。

在通道维度上,余弦距离捕捉了每个像素位置教师和学生特征之间的角度距离。同样,在空间维度上,学生网络在角度特征空间中对齐通道方向的空间信息。当数据维度很高时,余弦相似性已被证明是一个有效的度量[22],因为它对特征向量的幅度进行归一化,并尝试最小化它们之间的角度距离。在作者的案例中,中间特征图的维度非常高,分别在考虑用于学生和教师之间特征匹配的3层中包含64、128和256个通道。这确保了消除冗余和不相关的特征。

令和分别表示教师和学生模型的第个特征图。特征图表示为尺寸为的张量,其中表示通道数,和分别代表特征图的高度和宽度。

对于每个空间位置,余弦距离计算如下:

其中:和是跨通道的1D特征向量,。

对于每个通道,余弦距离计算如下:

其中:和表示通道方向的2D特征向量,。

KL Divergence (KLD)

作者使用Kullback-Leibler(KL)散度进行特征匹配,以识别学生和教师特征图之间的分布差异。通过最小化KL散度,学生网络学会将其特征分布与教师的特征分布对齐。KLD捕捉了分布之间的非线性关系,从而在不同类别间更好地复制特征。为了解决由于各种类别间分布引起的多类知识蒸馏复杂性,作者通过沿着通道维度取一维向量来实现通道KL散度。此外,学生网络必须学习局部和全局上下文,以有效地捕捉特征图的空间分布。通过沿空间维度利用KLD,作者旨在测量学生和教师空间特征分布之间的相对熵。

令和分别代表通道上的一维特征图,对于教师和学生来说,。这里,表示将输入向量转换为概率分布的softmax函数。

对于每个空间位置(h,k),的计算如下:

其中,

令和分别代表通道方向的2D特征向量,。

对于每个通道d,的计算如下:

其中,

Inference Phase

在仅使用无异常(或正常)样本的训练过程中,学生在特征空间中的特征图与教师特征图逐渐接近。在推理过程中,作者计算学生和教师学习到的注意力特征图之间的余弦距离。当呈现异常图像时,由于训练中只使用了正常样本,作者会得到教师与学生之间更高的余弦距离。由于学生在训练过程中已经经历了基于注意力的特征图学习,因此在推理阶段不再使用空间和通道注意力机制。因此,作者方法的总延迟与基准方法[15]相比保持不变。这是作者方法的一个独特特点,它能够在相同的推理时间内显著提高定位性能。关于所提方法的延迟详细分析将在消融研究部分进行描述。

4 Experiments and Results

Dataset

作者使用了MVTec AD数据集[18]进行实验。MVTec AD[18]是一个基准数据集,包含超过5000张各种物体和纹理的图像,如地毯、皮革等,这些图像用于图像 Level 和像素 Level 的异常检测。在训练作者的模型时,作者使用了每个15个类别中的无异常图像,而在测试阶段则使用了无异常和有异常的图像。作者使用以下指标评估作者的方法:AUC-ROC(接收者操作特征曲线下的面积)和PRO(每个区域的重叠)。对于延迟,作者计算了测试函数处理生成单个类别图像的损失图的时间,并计算了所有类别的加权平均值。

橙色和黄色块分别代表教师网络和学生网络的第二个、第三个和第四个卷积块。在推理阶段,通过使用教师和学生特征图之间的余弦距离计算每个块的损失图的上采样聚合来创建异常图。展示了对于一个样本测试图像(类别:瓶子)的异常图的逐步形成以及相应的真实情况。

对于 Baseline ,作者在STFPM(学生-教师特征金字塔匹配)中使用了15类的MVTec AD[18]数据。训练集包含3629张无异常的图像,测试集由1725张混合类型的图像组成。

实现

对于所有实验,作者使用教师-学生架构,其中教师网络和学生网络都基于ResNet-18。教师网络在ImageNet[17]上进行预训练,而学生网络使用随机权重初始化。作者选择ResNet-18架构的前三个卷积块,即conv2_x、conv3_x和conv4_x,用于知识蒸馏过程。

作者实验中的所有图像都被调整为,并通过ImageNet[17]的平均值和方差进行归一化。作者使用随机梯度下降(SGD)训练网络,学习率为0.1,持续400个周期,批处理大小为32。

对于超参数,作者简单地为KLD设置。

实验使用PyTorch在一个配备Tesla V100-SXM2 16GB GPU卡的GPU节点上实施,在推理阶段延迟在系统Macbook Air 2017(1.8 GHz 双核Intel Core i5)上测量。

Training and Testing

在训练过程中,作者首先对数据集中的每个训练图像进行 Reshape 和转换,然后将优质图像以80-20的比例分为训练集和验证集。分割数据集后,作者将数据输入到教师模型和学生模型中。

教师模型在ImageNet [17]上进行了预训练,而作者在学生模型的第二个、第三个和第四个卷积块后添加了分布式卷积注意力模块(DCAM)。在每次迭代中,作者计算学生模型与教师特征图在通道和空间上的损失。每个纪元结束后,作者保存具有最小验证损失的权重。

在测试过程中,作者构建了一个异常图。作者输入测试图像,。令和分别表示教师模型和学生模型生成的第个特征图。作者通过计算学生模型和教师特征图之间的余弦距离来计算一个损失图,然后使用双线性插值将其上采样到的大小。最终的异常图是每个上采样损失图的逐元素相加。

Results

在比较基于知识蒸馏的方法时,SNL再次显示出比作者更高的性能,但伴随着延迟的权衡,因为它涉及计算密集型操作(第2节)并以WideResNet-50作为基础,而作者的方法是在STFPM Baseline 基础上构建的,未改变的后端是ResNet-18。RD也具有与作者的方法相近的性能,同样存在劣势,因为它采用了WideResNet-50架构,并存在瓶颈,将教师模型的高维表示投影到低维空间,进一步增加了延迟。

作者的研究比较了不同的注意力机制和特征匹配指标在多类别异常检测中的性能。将性能最佳的注意力模块和特征匹配指标相结合,如表6所示,达到了最高的性能,AUC-ROC为95.20%,PRO为89.81%,每张图像的推理时间为0.3169秒。

与原始STFPM [15]方法相比,

如表1所示,作者的方法在AUC-ROC上超过了 Baseline 3.92%,在PRO上超过了6.8%,同时保持了可比较的延迟。

消融研究

在本节中,作者介绍了为评估作者方法中不同组件影响而进行的消融研究结果。作者通过有选择地移除和改变特定组件,系统地分析作者模型的性能,包括分布式卷积注意力模块(DCAM)和损失指标。通过这些实验,作者旨在了解每个组件的个别贡献。

4.5.1 DCAM Evaluation

作者首先通过进行三组实验来评估DCAM模块:(1)仅使用通道注意力;(2)仅使用空间注意力;(3)结合通道和空间注意力。以上所有实验仅涉及MSE作为损失。

如表3所示,与空间注意力和组合注意力模块相比,融合通道注意力模块取得了更好的结果,达到了94.12%的AUC-ROC和88.35%的PRO。

4.5.2 Feature Matching Analysis

接下来,作者比较了余弦距离(CD)和库尔巴克-莱布勒散度(KLD)在通道和空间特征匹配中的应用。每种方法的AUC-ROC、PRO和延迟(以秒为单位)的结果分别呈现在表4和表5中。

4.5.3 结合组合方法

最后,基于之前实验的结果,作者挑选了表现最佳的方法,并设计了一套新的实验,结合使用CD和KLD进行特征匹配,并探讨了是否包含DCAM。表6中呈现的AUC-ROC、PRO和延迟结果表明,无论是否包含通道注意力模块,作者的方法都是有效的。

在这里,作者得出结论,将通道方向的DCAM与通道方向的CD和空间方向的KLD结合的方法显示出最高的性能,达到了95.20%的AUROC,延迟为0.317秒。

5 结论

作者提出了一种基于注意力的特征匹配技术,并将其融入到学生-教师异常检测架构中。给定一个在图像分类上预训练的强大网络作为教师,作者使用其不同 Level 的特征来指导学生网络,向网络引入重要特征的概念,并使学生网络优先学习关键特征。这确保了学生网络有效地学习无异常图像的分布。

在多类别场景中,跨多个类别的正常分布比单类别场景中的更为复杂。因此,蒸馏需要更多的约束来更好地学习学生特征,这是通过对特征表示上的卷积注意力 Mask 的学习来实现的。

作者提出的方法不仅效率更高、可扩展,因为作者对所有类别只使用一个模型,而不是其他方法,而且还展示了相当的延迟。通过分层特征匹配,作者的方法能够通过一次前向传递检测不同大小的异常。在MVTec AD数据集上进行的实验评估验证了作者的方法优于现有技术水平。

参考

[1].Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection.

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Methodology
    • Distributed Convolutional Attention Module (DCAM)
    • Cosine Distance (CD)
    • KL Divergence (KLD)
    • Inference Phase
    • 4 Experiments and Results
      • Dataset
        • 实现
          • Training and Testing
          • Results
            • 消融研究
              • 4.5.1 DCAM Evaluation
              • 4.5.2 Feature Matching Analysis
              • 4.5.3 结合组合方法
          • 5 结论
          • 参考
          相关产品与服务
          GPU 云服务器
          GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档