计算机视觉中目标检测的传统方法是识别图像中的物体。通过结合文本描述,作者提高了这个过程,提供了更好的上下文和准确性。MDETR模型通过将图像和文本数据结合,实现了更灵活的目标检测和分类。然而,MDETR的复杂性和高计算需求阻碍了其实际应用。 在本文中,作者引入了轻量级MDETR(轻MDETR),这是一个针对改进计算效率而设计的优化MDETR变体,同时保持了强大的多模态能力。 作者的方法涉及冻结MDETR Backbone 并训练一个单独的组件,即深度融合编码器(DFE),以表示图像和文本模态。一个可学习的上下文向量使DFE可以切换到这些模态。 在如RefCOCO、RefCOCO+和RefCOCOg等数据集上的评估表明,LightMDETR在精确度和准确性方面取得了优越的结果。
目标检测是计算机视觉领域的关键任务,涉及在图像中识别和定位目标。传统上,闭式词汇模型得到应用,其中模型被训练去识别一个固定的目标类别集。Faster R-CNN [1]、YOLO [2] 和 SSD [3] 等方法已经证明了它们的高效性,但在扩展到预定义类别之外的一般化方面受到限制。
开放式词汇模型通过使用大规模多样化的数据集和无监督学习来检测原始训练类别之外的目标,这提供了新的可能性。CLIP [4]、 ALIGN [5] 和 Florence [6] 等模型使用 transformer 架构来学习联合的文本和图像表示,允许更加灵活和上下文敏感的目标识别。
在这种背景下,开放式词汇模型像 Multimodal Detr (MDETR) 集成图像和文本序列,使用 transformer 来对齐视觉和文本数据,从而实现更通用和准确的检测和分类。同样, Grounded Language-Image Pre-training (GLIP) [7] 通过利用大规模的视觉语言数据提高了检测性能。模型像 RegionCLIP [8] 和 OWL-ViT [9] 通过改进视觉文本对齐进一步增强多模态学习。这些进步表明开放式词汇模型的潜力,可以彻底改变目标检测,使其更适应多样化和动态的环境。
然而,开放式词汇模型面临显著的挑战,因为它们的复杂性和高计算要求,这限制了它们在实时应用或资源受限设备上的实际部署。
为了解决这些问题,作者提出了 Lightweight MDETR (LightMDETR),这是 MDETR 架构的优化版本。 LightMDETR 增强计算效率,同时保持对目标检测的强健多模态融合。关键的优化包括冻结预训练模型的 Backbone 部分并引入一个 "Deep Fusion Encoder" (DFE),用共享参数表示文本和图像模态。通过将可学习的“上下文”参数集成到每个嵌入中,DFE 可以有效地编码两种模态。这种方法显著减少了调优参数的数量,同时保留了基础 MDETR 模型的性能。
作者的主要贡献如下:
目标检测,计算机视觉的一个核心任务,可以广泛地分为封闭词汇和开放词汇方法。
封闭词汇目标检测 主要关注在预定义、固定的一组类别中检测和分类物体。这个类别里一些显著的模型包括 Faster R-CNN[1],它引入了区域 Proposal 网络(RPN)以直接生成物体 Proposal ,使过程更加高效。YOLO[2]通过将检测视为一个单一回归问题,使实时目标检测成为可能,通过预测边界框和类别概率在一遍中。SSD[3]通过引入多尺度特征图预测,改进了检测精度,尤其是对于小物体。
RetinaNet[10]通过其创新的Focal Loss解决了目标检测中的类别不平衡问题,降低了正确分类的损失,提高了在难以检测的物体上的性能。Mask R-CNN[11]通过添加预测物体面具的并行分支,扩展了Faster R-CNN框架,使实例分割成为可能,除了目标检测。虽然这些模型在它们定义的范围内非常有效,但它们的局限性在于它们无法超越固定类别的范围,使它们在动态环境中更具适应性。
为了解决用于开放词汇目标检测的大量训练的需求,作者提出了一种新的方法,可以显著减少训练需求,同时保持性能。作者的方法可以无缝集成到任何现有的开放词汇目标检测模型中,以确保更有效的训练,而不会牺牲模型的有效性。_为了证明作者的方法的有效性,作者使用MDETR架构进行验证。
MDETR 通过将视觉和文本信息整合到统一的框架中,进一步提高了目标检测水平。不同于传统目标检测方法将物体分类到固定类别,MDETR 关注于将检测到的物体与文本中的字符串跨度关联起来。模型使用 ResNet 进行视觉特征提取,使用 RoBERTa 进行文本特征提取(见图1)。在训练过程中,MDETR 采用两个关键的损失函数来对齐图像和文本数据。软文本标预测损失()引导模型预测与每个检测到的物体对应的文本文本中的字符串的统一分布,而不是预测离散的类别标签。给定最大字符串长度 和一组预测的边界框,每个物体的损失通过预测可能的字符串位置的概率分布计算。具体来说,如果 代表第 个物体的嵌入, 代表第 个字符串,软文本标预测损失旨在最小化预测的字符串范围与文本中真实字符串范围之间的差异。对比对齐损失 强制视觉物体及其对应文本标在特征空间中高度对齐。该损失使用如下公式计算:
其中 τ 是一个温度参数,设置为 0.07, 代表与第 个物体相应的字符串, 代表与第 个字符串相应的物体。总损失是这两个组成部分的平均值:
MDETR 的总训练损失结合边框损失(L1 和 GloU)、软文本标预测损失和对比对齐损失:
并且
其中 是作为如下方式的 L1 损失计算:
以及 是通用交集和 union 损失:
其中 和 是预测和实际边界框,分别为 A 和 B 最小包含盒的最大包围盒。
训练 ResNet 和 RoBERTa 预训练特征提取器,如图1所示,既多余又昂贵。为了降低训练开支并保持 MDETR 性能,作者提出了一种简洁的方法,该方法冻结预训练的 ResNet 和 RoBERTa 模型,并专注于训练一个负责表示图像和文本模式单一组件。
现有的开源词汇目标检测方法通常依赖于专门的大型预训练模型分别对图像和文本进行编码,例如使用ResNet进行图像编码和RoBERTa进行文本编码,如图1所示。训练这些大型模型可以让人望而却步,这限制了与闭式词汇相比,开源词汇方法的实用性。为了解决这个问题,同时降低训练成本并保持性能,作者提出了一种轻量级的训练方法。这种方法允许在保持性能的同时,对任何的开源词汇模型进行经济高效的训练。作者通过将该方法应用到MDETR,得到了一个新的变体,叫做轻量级MDETR(简称 LightMDETR)。
lightweight MDETR 解决了高训练成本的问题,通过冻结如ResNet和RoBERTa等预训练特征提取模型,并引入了作者开发的单一、轻量级组件"深度融合编码器"(DFE)。DFE将图像和文本编码器中的嵌入集成在一起,从而在保持性能的同时简化过程,如图2所示。为了允许DFE使用与ResNet和RoBERTa相同的参数对来自不同模型的输入,例如图像和文本,引入了可学习的上下文向量(其中图像,文本),并与嵌入进行融合。这种方法使得DFE可以在保持参数一致的同时在图像和文本模式之间切换。
设图像为给定图像的冻结ResNet的输出,文本描述为给定图像的文本描述RoBERTa的输出。DFE表示如下:
图像文本
其中表示融合操作(例如加法、乘法、连接或自注意力机制),图像和文本是随机初始化的向量参数,分别与和的维数匹配。这些向量在反向传播过程中被学习为权重。
经过DFE处理后,得到的结果特征和被连接起来并输入到DFTR(如图2所示)的"Transformer"中。这使得根据伴随文本对图像中的相关目标进行检测成为可能。
为了保持轻量级架构,DFE由两个关键组件组成:
损失函数与MDETR相同(参见式4),允许可学习的上下文向量有效地适应目标任务。这种实现方式是通过直接参与损失函数的优化而实现的。
在MDETR中,图像和文本特征是分别编码的,仅在DFE编码结束时进行融合。然而,正如[18]中所指出的,有效的视觉语言模型定位需要早期的视觉和文本特征融合。为此,作者将LightMDETR通过在DFE编码之前将图像和文本特征深度融合引入,如图3所示。这种修改的方法称为"Cross-Fusion LightMDETR" (LightMDETR-CF)。
LightMDETR-CF 将三个关键组件集成到LightMDETR中:一个采用多头自注意力(MHA)[19]的交叉融合层,以及两个额外的Transformer层,在将它们喂入DFE之前,对MHA输出进行细化。MHA机制以ResNet和RoBERTa编码器的输出和为输入。变换可以表示如下:
其中是可训练参数,与MHA[19]中 Query 、值和输出线性层的参数相似。对应输出维度。
在应用交叉融合机制和多头自注意力方法后,对和使用两个不同的Transformer层进行投影:
所得到的和然后被喂入DFE,遵循与LightMDETR相似的过程,如图3所示。
这两种方法,LightMDETR和其变体LightMDETR-CF,提供了一种有效的方法来训练开放式词汇目标检测模型。它们在降低训练成本的同时,保持了高性能。
Pre-training
预训练任务中,作者采用MDETR方法,利用调制检测来识别和检测对应自由形式文本中引用的所有目标。
为了进行公平的比较,作者使用与[13]中相同的组合训练数据集,该数据集集成多个图像集合,包括Flickr30k[20]、MS COCO[21]和Visual Genome(VG)[22]。Flickr30k包含31,783张图像,有详细标注的158,915个区域描述,主要针对场景中的目标和动作。MS COCO贡献了约118,000张图像,有超过886,000个分割覆盖了各种常见物体的多样场景。Visual Genome添加了108,077张图像,有5,400万区域描述和密集物体的标注。对于标注,作者利用参考表达式数据集进行细粒度目标引用,VG区域进行详细的目标-位置关系,Flickr实体用于将文本描述与图像区域链接,以及提供与目标和场景图相关的1.7万张问题,增强了数据集支持复杂推理任务的能力。这个组合数据集确保了训练的稳健性和全面性,涵盖了多种目标、场景和语言引用。
对于LightMDETR和LightMDETR-CF模型,作者使用一个冻结的预训练RoBERTa-base[16]作为文本编码器,它有12个变换层,每个隐藏维度为768和12个注意力头,总共1.25亿参数。视觉后端是一个冻结的预训练ResNet-101[15],它有4400万参数。通过冻结两个编码器,作者将原始MDETR的背端的可训练参数从1.69亿减少到LightMDETR和LightMDETR-CF中的零。相反,这些模型中的可训练部分只有DFE(见图2和3),它由一个具有4个注意力头的单变换层组成,总计787968个参数来训练。
在DFE中的融合操作,如方程11所示,作者使用加法。更新的方程如下:
图像文本
在这些方程中,图像和文本使用正态分布初始化,与和具有相同维度,即256。
所有模型在40个epoch中进行预训练,大规模有效批量为64。
本文中,作者使用了两种模型(LightMDETR和LightMDETR-CF)在RefCOCO [23],RefCOCO+ [24] 和 RefCOCOg [25](见表1)上评估 referred expression comprehension 能力。Referred expression comprehension 是指根据详细的自然语言描述在图像中准确识别和定位目标的能力。这项任务需要将 referring expressions(如 "the blue umbrella next to the park bench")转化为具有特定属性和空间关系的目标。作者的目标是将文本描述映射到图像中的对应目标,以确保精确的目标检测和定位。
与 MDETR 类似,LightMDETR 和 LightMDETR-CF 都是用来预测被提及在 referring expressions(如 "blue umbrella" 和 "park bench")中的所有目标的边界框。然而,在 referring expression comprehension 任务上,作者需要返回一个与整个表达描述的目标对应的单边界框。为了解决这个问题,作者在特定任务的专用数据集上对模型进行为期5个epoch的微调。
表2 呈现了作者在 RefCOCO,RefCOCO+ 和 RefCOCOg 上的其他检测模型与作者的模型 LightMDETR 和 LightMDETR-CF 的比较。RefCOCO 和 RefCOCO+ 使用行人 vs. 目标划分进行评估:"testA" 包括具有多个人的图像,而 "testB" 包括具有多个目标的图像。训练、验证和测试图像之间没有重叠。RefCOCOg 分为两个部分。
表3 中的结果展示了作者的模型 LightMDETR 和 LightMDETR-CF 与 MDETR 在 RefCOCO,RefCOCO+ 和 RefCOCOg 数据集上的精确性能。Precision at rank k(P@k)表示前k个预测结果中的正确预测率。具体地,P@1 表示排序为第一的预测正确率,P@5 在前五个预测中,P@10 在前十个预测中。
作者的模型表现出具有竞争力的性能,LightMDETR 在 RefCOCO(P@1=85.92%)和 RefCOCOg(P@1=80.97%)上的 P@1 达到最高,稍微超过了 MDETR 在这些数据集上的表现。此外,LightMDETR-CF 在 RefCOCO(P@5=95.52%)和 RefCOCOg(P@5=96.56%)上的表现优于 RefCOCO+,突显了作者的轻量级方法的有效性。
作者提出了一种新的方法,用于训练减少可调参数数量的开域目标检测模型。作者的方法利用专门预训练的文本和图像编码器,训练过程中保持不变。作者只训练作者开发的轻量级模块,称为"深度融合编码器"(DFE)。DFE旨在使用共享参数同时编码文本和图像编码器中的特征。为了实现这一点,作者引入了一个可学习参数,称为"上下文",它识别每个特征的来源。这种上下文嵌入在DFE表示中,使其可以无缝地在处理文本和图像特征之间切换。
作者的方法,当集成到MDETR模型中,在RefCOCO,RefCOCO+和RefCOCOg数据集上的参考表达式理解任务中,优于 Baseline ,在准确性和精确度方面表现出色。重要的是,这种方法不仅限于MDETR;它可以应用于任何开域目标检测模型,以在降低训练成本的同时保持高性能。
未来工作计划的实验将在诸如短语定位、参考表达式分割和视觉问答等任务上,验证作者方法的有效性。此外,作者将研究其应用于其他开域目标检测模型的方法。
[1].LightMDETR: A Lightweight Approach for Low-Cost Open-Vocabulary Object Detection Training.