前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从 SAM 到 MASA,让任何检测模型都能零样本跟踪目标 !

从 SAM 到 MASA,让任何检测模型都能零样本跟踪目标 !

作者头像
用户5536580
发布2024-07-04 15:34:04
1120
发布2024-07-04 15:34:04
举报
文章被收录于专栏:未来先知未来先知

在复杂场景中,视频帧间同一目标的稳健关联对于许多应用至关重要,尤其是多目标跟踪(MOT)。 当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似性嵌入在跨领域泛化能力。 作者提出了MASA,一种新颖的鲁棒实例关联学习方法,能够在无需跟踪标签的情况下跨不同领域匹配视频中的任何目标。利用来自Segment Anything Model(SAM)的丰富目标分割,MASA通过穷举数据转换学习实例级对应关系。 作者将SAM输出视为密集目标区域 Proposal ,并从大量图像集中学习匹配这些区域。 作者进一步设计了一个通用的MASA Adapter ,它可以与基础分割或检测模型配合使用,并使它们能够跟踪任何检测到的目标。这些组合在复杂领域展现出了强大的零样本跟踪能力。 在多个具有挑战性的MOT和MOTS基准上的广泛测试表明,仅使用未标注的静态图像,所提出的方法在零样本关联方面甚至比使用完全标注的领域内视频序列训练的最先进方法性能更好。 作者的代码可在github.com/siyuanliu/masa获取。

1 Introduction

多目标跟踪(MOT)是计算机视觉中的基本问题之一。它在许多机器人系统(如自动驾驶)中起着关键作用。跟踪需要在视频中对感兴趣的目标进行检测并将它们跨帧关联。尽管最近的视觉基础模型[33, 35, 40, 47, 70, 78]在检测、分割和感知任何目标的深度方面表现出非凡的能力,但在视频中关联这些目标仍然具有挑战性。最近成功的多目标跟踪方法[36, 66]强调了学习判别性实例嵌入对于准确关联的重要性。有些[46]甚至认为,除了检测之外,它是最必要的跟踪组件。

然而,学习有效的目标关联通常需要大量的标注数据。虽然在多样化的图像集上收集检测标签是费力的,但在视频上获取跟踪标签更加具有挑战性。因此,当前的MOT数据集大多关注特定领域的目标,具有少量固定类别或有限数量的标注帧。

在这些数据集上进行训练限制了跟踪模型对不同领域和新概念的一般适用性。尽管最近的研究[35, 40, 78]在解决目标检测和分割的模型泛化问题上取得了成功尝试,但学习用于跟踪任何目标的通用关联模型的路径仍然不明朗。

作者的目标是开发一种能够匹配任何目标或区域的方法。作者希望将这种可泛化的跟踪能力与任何检测和分割方法集成在一起,帮助它们跟踪检测到的任何目标。一个主要的挑战是在不产生大量标注成本的情况下,为跨多样化领域的通用目标获取匹配监督。

为此,作者提出了一个名为MASA(通过分割任何事物来匹配任何事物)的 Pipeline ,以从 未标注 的任何域的图像中学习目标级关联。图1展示了作者的MASA Pipeline 的概览。作者利用基础分割模型SAM编码的丰富的目标外观和形状信息,结合大量的数据转换,建立强烈的实例对应关系。

对同一图像应用不同的几何变换,可以自动在来自同一图像的两个视图中建立像素级的对应关系。SAM的分割能力允许自动将来自同一实例的像素分组,从而促进从像素级到实例级对应的转换。这个过程为学习判别性目标表示创造了一个自监督信号,利用视图对之间的密集相似性学习。作者的训练策略使作者能够使用来自多样化领域的丰富原始图像集,证明这种在多样化原始图像上的自动自训练可以为零样本多目标跟踪提供卓越的性能,甚至超过了依赖域内视频标注进行关联学习的模型。

除了自训练 Pipeline 之外,作者进一步构建了一个通用的跟踪 Adapter ——MASA Adapter ,以增强任何现有的开放世界分割和检测基础模型(如SAM[35],Detic[78]和Grounding-DINO[40])的跟踪能力,以便跟踪它们检测到的任何目标。为了保持它们原有的分割和检测能力,作者冻结了它们原有的基础网络,并在顶部添加了MASA Adapter 。

此外,作者提出了一个多任务训练 Pipeline ,同时执行SAM检测知识的蒸馏和实例相似性学习。这种方法允许作者学习目标的定位、形状和SAM的外观先验,并在对比相似性学习中模拟真实的检测 Proposal 。这个 Pipeline 进一步提高了作者跟踪特征的一般化能力。此外,作者学习的检测Head将原始SAM密集统一点 Proposal 用于分割一切的速度提高了十倍以上,这对于跟踪应用至关重要。

作者在多个具有挑战性的基准上评估了MASA,包括TAO MOT[17],Open-vocabulary MOT[37],BDD100K上的MOT和MOTS[71],以及UVO[55]。大量实验表明,与在彻底的域内标注视频上训练的最先进目标跟踪方法相比,作者的方法在零样本关联设置中,使用相同模型参数的单个模型,达到了同等甚至更好的关联性能。

2 Related Work

Learning Instance-level Association

学习健壮的实例级对应关系对于目标跟踪至关重要。现有方法可以分为自监督[58]和监督策略。特别是,作为代表性的自监督方法,UniTrack[58]试图直接使用现成的自监督表示[11, 64]进行关联。尽管在一些基准测试[45]上取得了有竞争力的结果,但这些方法不能充分利用实例级训练数据,限制了它们在具有挑战性场景中的性能。相比之下,监督方法通过对比学习,在帧对上训练具有判别力的实例嵌入。尽管在具有挑战性的基准测试上取得了卓越的性能,但这些方法依赖于大量的领域内标注视频数据。几种方法从静态图像中学习跟踪信号,但仍然需要特定领域的大量细粒度实例标注或在后期测试时进行适配[53],这限制了它们跨领域泛化的能力。为了解决这些问题,作者利用由SAM编码的详尽的目标形状和外观信息来学习通用的实例匹配,完全来自未标注的图像。作者学习的表示在跨不同领域展现出了卓越的零样本关联能力。

Segment and Track Anything Models

Deva [14],TAM [67] 和 SAM-Track [15] 将 SAM [35] 与视频目标分割(VOS)方法(如 XMem [13] 和 DeAOT [69])相结合,以实现一个用于跟踪任何物体的交互式流程,其中 SAM 主要用于 Mask 初始化/校正,而 XMem/DeAOT 负责跟踪和预测。SAM-PT [49] 将 SAM 与点跟踪方法如 结合起来进行跟踪。然而,所有这些方法都面临局限性,例如由于领域差距导致 Mask 传播质量差,以及无法处理多个不同物体或快速进入和退出的物体,这在自动驾驶等场景中很常见。作者的工作关注于不同的方向。不是构建交互式跟踪流程,或者使用现成的 VOS 或基于点的跟踪器,作者专注于通过利用 SAM 丰富的实例分割知识来学习通用关联模块。

3 Method

Preliminaries: SAM

SAM [35]由三个模块组成:

(a) 图像编码器:一个基于重ViT的主干网络用于特征提取。

(b) 提示编码器:从交互点、框或 Mask 提示中建模位置信息。

(c) Mask 解码器:一个基于 Transformer 的解码器,接收提取的图像嵌入和连接的输出提示标记,用于最终的 Mask 预测。为了生成所有潜在的 Mask Proposal ,SAM采用密集采样的规则网格作为点 Anchor ,并为每个点提示生成 Mask 预测。

完整的流程包括基于贪心的盒式NMS的图像块裁剪,三步筛选,以及对 Mask 的重度后处理。关于SAM的“一切模式”的更多细节,作者请读者参考[35]。

Matching Anything by Segmenting Anything

作者的方法包含两个关键组成部分。首先,基于SAM,作者开发了一个新的流程:MASA(第3.2.1节)。通过这个流程,作者从丰富的 未标注 图像集中构建了详尽的监督,以实现密集的实例级对应。这使得作者能够学习到强大的判别性实例表示,以跟踪任何物体,而无需任何视频标注。

其次,作者引入了一个通用的MASA Adapter (第3.2.2节),以有效地转换来自冻结的检测或分割 Backbone 的特征,以学习可泛化的实例外观表示。作为副产品,MASA Adapter 的蒸馏分支也可以显著提高分割一切事物的效率。此外,作者还构建了一个统一模型,以联合检测/分割和跟踪任何事物(第3.2.3节)。作者的完整训练流程如图2所示。

3.2.1 MASA Pipeline

为了学习实例 Level 的对应关系,以前的工作在很大程度上依赖于手动标记的领域内视频数据。然而,当前的视频数据集[6, 45, 71]只包含有限的固定类别。

数据集在多样性上的限制导致了针对特定领域定制的的外观嵌入的学习,这对其普遍泛化提出了挑战。

UniTrack[58]展示了可以通过对比自监督学习技术从原始图像或视频中学习到普遍的外观特征。这些表示利用了大量 未标注 图像的多样性,可以在不同的跟踪领域间进行泛化。

然而,它们通常依赖于干净的、以目标为中心的图像,例如ImageNet[52]中的图像,或者像DAVIS17[48]这样的视频,并且关注于帧 Level 的相似性。这种关注导致它们无法充分利用实例信息,导致在包含多个实例的复杂领域中学习判别性实例表示时遇到困难,如表7所示。

为了解决这些问题,作者提出了MASA训练流程。作者的核心思想是从两个角度增加多样性:训练图像多样性 和 实例多样性。如图1所示,作者首先构建了一个来自多样化领域的原始图像的丰富集合,以防止学习特定领域的特征。这些图像还包含在复杂环境中大量的实例,以增强实例多样性。给定一个图像I,作者通过在同一个图像上采用两种不同的增强方法来模拟视频中的外观变化。通过应用强数据增强\varphi(I)\phi(I),作者构建了I的两个不同视图V_{1}V_{2},从而自动获得像素 Level 的对应关系。

如果图像干净且只包含一个实例,例如ImageNet中的那些,可以像[11, 64, 74]那样应用帧 Level 相似性。然而,在包含多个实例的情况下,作者需要进一步挖掘这些原始图像中包含的实例信息。基础分割模型SAM[35]为作者提供了这种能力。SAM自动将属于同一实例的像素分组,并提供检测到的实例的形状和边界信息,这对于学习判别性特征非常有价值。

由于作者通过选择包含多个实例的图像构建数据集,SAM对整个图像的穷举分割自动产生了一个密集且多样的实例 Proposal 集合Q。在建立了像素 Level 的对应关系后,将相同的\phi(\cdot)\varphi(\cdot)应用于Q,将像素 Level 的对应关系转移到密集的实例 Level 对应关系。这种自监督信号使作者能够使用来自[34, 36, 46]的对比学习公式来学习判别性对比嵌入空间:

\mathcal{L}_{\mathcal{C}}=-\sum_{q\in Q}\log\frac{e^{\frac{\min(q,q^{+})}{\tau }}}{e^{\frac{\min(q,q^{+})}{\tau}}+\sum_{q^{-}\in Q^{-}}e^{\frac{\min(q,q^{-}) }{\tau}}},

这里,q^{+}q^{-}分别表示q的正样本和负样本。正样本是应用了不同\phi(\cdot)\varphi(\cdot)的相同实例 Proposal 。负样本来自不同的实例。此外,\operatorname{sim}(\cdot)表示余弦相似性,\tau是一个温度参数,在作者的实验中设置为0.07。

这个对比学习公式推动了属于同一实例的目标嵌入更接近,同时使来自不同实例的嵌入保持距离。正如现有工作[10, 46]所证明的,负样本对于学习判别性表示至关重要。在对比学习范式下,由SAM自然产生的密集 Proposal 提供了更多的负样本,从而增强了对关联更好的实例表示的学习。

3.2.2 MASA Adapter

作者介绍了MASA Adapter ,旨在将开放世界分割和检测模型(如SAM [35],Detic [78]和Grounding-DINO [40])扩展到跟踪任何检测到的物体。MASA Adapter 与这些基础模型的冻结 Backbone 特征共同工作,确保保留了它们原始的检测和分割能力。然而,由于并非所有预训练特征本质上对跟踪都具有区分性,作者首先将这些冻结的 Backbone 特征转换为更适合跟踪的新特征。

考虑到物体在形状和大小上的多样性,作者构建了一个多尺度特征金字塔。对于像Detic和Grounding DINO中的Swin Transformer [42]这样的分层 Backbone ,作者直接采用FPN [39]。对于使用普通ViT [18] Backbone 的SAM,作者使用转置卷积和最大池化来上采样和下采样stride 16\times的单尺度特征,以产生比例分别为\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{32}的分层特征。为了有效地学习不同实例的区分性特征,一个位置上的物体需要了解其他位置上实例的外观。因此,作者使用可变形卷积生成动态偏移量,并跨空间位置和特征 Level 聚合信息,如[16]所示:

F(p)=\frac{1}{L}\sum_{j=1}^{L}\sum_{k=1}^{K}w_{k}\cdot F^{j}(p+p_{k}+\Delta p _{k}^{j})\cdot\Delta m_{k}^{j}, \tag{1}

其中L表示特征 Level ,K是卷积核的采样位置数量,w_{k}p_{k}分别是第k个位置的权重和预定义偏移量,\Delta p_{k}^{j}\Delta m_{k}^{j}是第j个特征 Level 的第k个位置的可学习偏移量和调制因子。对于基于SAM的模型,作者额外使用了Dyhead [16]中的任务感知注意力和尺度感知注意力,因为检测性能对于如图3(b)中准确自动 Mask 生成很重要。获取转换后的特征图后,作者通过将RoI-Align [26]应用于视觉特征F,然后使用包含4个卷积层和1个全连接层的轻量级跟踪头处理,提取实例级特征以生成实例嵌入。

此外,作者在训练期间引入了一个目标先验知识蒸馏分支作为辅助任务。这个分支采用标准的RCNN [51]检测Head来学习紧密包围SAM每个实例 Mask 预测的边界框。它有效地从SAM中学习详尽的目标位置和形状知识,并将这些信息蒸馏到转换后的特征表示中。这种设计不仅加强了MASA Adapter 的特征,从而提高了关联性能,而且通过直接提供预测的框提示,加速了SAM的“一切模式”。

MASA Adapter 使用检测和对比损失的组合进行优化,如第3.2.1节定义:\mathcal{L}=\mathcal{L}_{\text{det}}+\mathcal{L}_{C}。检测损失与[51]中的相同。

3.2.3 Inference

图3展示了作者统一模型的测试流程。

检测并跟踪任何事物 当作者将MASA Adapter 与目标检测器结合时,作者在训练期间移除了学到的MASA检测Head。此时,MASA Adapter 仅作为跟踪器使用。检测器预测边界框,然后用于提示MASA Adapter ,以获取相应的跟踪特征进行实例匹配。作者使用一个简单的双向softmax最近邻搜索进行精确的实例匹配,如附录中4.4节所描述。分割并跟踪任何事物 使用SAM时,作者保留了检测Head。作者用它来预测场景中的所有潜在物体,将框预测作为提示发送给SAM Mask 解码器和MASA Adapter ,以分割和跟踪一切。预测的框提示省去了原始SAM一切模式下所需的繁重后处理,从而显著加快了SAM的自动 Mask 生成。

使用给定观测进行测试 当检测来自于MASA Adapter 所基于之外的其他来源时,作者的MASA Adapter 作为跟踪特征提供者。作者直接利用提供的边界框作为提示,通过ROI-Align [26]操作从作者的MASA Adapter 中提取跟踪特征。

4 Experiments

作者在多个具有不同领域挑战性的MOT/MOTS基准上进行了实验。

Experimental Setup

TAO MOT TAO数据集[17]旨在追踪范围广泛的物体,涵盖超过800个类别,使其成为迄今为止类别最多、最多样化的MOT数据集。它包含在训练集、验证集和测试集中分别以1 FPS速率标注的500、988和1419个视频。作者在验证集上报告性能。TAO包括几个基准测试,每个基准测试都强调不同的特点和需求。TAO TETA基准测试[36]通过奖励那些能产生无重叠干净轨迹的追踪器来强调关联。相反,TAO Track mAP基准测试[17]特别重视轨迹的分类,并且不会对重叠轨迹进行重罚。开放词汇MOT基准测试[37]要求追踪器在训练时避免使用新类别标注,专注于追踪新类别的泛化能力。

BDD100K MOT[71]要求追踪器在自动驾驶场景中追踪常见物体。该数据集以5 FPS的速率标注,在验证集中有200个视频。

BDD100K MOTS 与BDD100K MOT不同,BDD100K MOTS[71]要求追踪器同时追踪和分割物体,在 Mask 上评估追踪性能。训练集有154个视频,验证集有32个视频,测试集有37个视频。

UVO[55]是一个开放世界视频实例分割的具有挑战性的基准。与之前的视频级目标分割数据集[68]相比,它标注了更多样化的实例。UVO有两个评估轨道,一个是图像轨道,另一个是视频轨道。作者在UVOv0.5验证集上评估所有方法。

评估指标 如之前的工作[36]所分析,传统的追踪指标如mMOTA[71]和track mAP[17]可能会产生误导,尤其是在长尾场景中,因为它们对分类的敏感性很高。为了解决这个问题,[36]引入了TETA这一新的追踪指标,它分解为三个独立的部分:AssocA、LocA和ClsA,分别反映了关联、定位和分类的准确性。在标准的MOT基准测试中,为了确保公平比较追踪器的关联能力,作者采用了领先的最先进追踪器使用的相同检测观测。因此,作者的主要关注点是关联相关的指标,如AssocAmIDF1IDF1。此外,在评估作者的统一模型时,作者考虑了全套指标以捕捉它们全面的性能。特别是对于UVO上的开放世界分割,作者在图像和视频 Level 上强调AR100和Track AR100指标。这是因为SAM通常会分割物体的每一部分,而UVO缺乏这种详细的标注,使得传统的AP评估不太准确。

训练数据 SA-1B[35]由1100万个多样、高分辨率的图像组成,包含复杂环境中具有多个物体交互的多样化场景。作者从SA-1B原始图像中进行子采样,构建了一个包含50万个图像的训练集,即SA-1B-500K。

实现细节 对于作者的模型,作者使用了SAM[35],Detic和Grounding-DINO的官方权重,确保在训练阶段这些模型的所有组件保持冻结。具体来说,作者使用了带有ViT-Base和ViT-Huge主干网络的SAM,以及带有SwinB主干网络的Detic和Grounding-DINO。作者使用自举采样方法,每轮训练200,000个图像,批处理大小为128。作者使用SGD,初始学习率为0.04,并采用学习率衰减的步进策略。动量和权重衰减参数设置为0.9和1e-4。作者的训练跨越12个周期,在第8和第11个周期降低学习率。对于数据增强,除了标准的翻转、颜色抖动和随机裁剪等实践外,作者还使用了随机仿射、MixUp[73]和大尺度抖动[21]。更多细节在附录的J节中提供。

State-of-the-Art Comparison

作者用两种方式评估作者的方法。首先,为了准确评估作者方法的关联能力,作者总是提供与当前最先进方法在标准MOT基准测试中相同的检测观察结果。其次,为了评估作者统一模型的综合能力,作者遵循以下协议:对于基于SAM的模型,作者在开放世界的视频分割数据集UVO上进行评估。对于基于检测器的模型,作者在开放词汇MOT基准[37]上进行评估。作者还报告了TAO TETA和TAO TrackmAP基准的得分。请注意,作者对所有变体进行了零样本关联测试,并在所有基准上使用相同的权重。

TAO TETA 作者使用了与TETA-SwinT[36]相同的观察结果。如表1所示,在零样本设置下,作者的方法使用Grounding-DINO的 Backbone 网络在AssocA和TETA上都取得了最好的成绩,在没有对任何领域内标注视频进行训练的情况下。作者还测试了作者的统一Detic模型,该模型同时输出检测和跟踪结果。它显著优于所有其他方法,并取得了新的最先进水平。这表明作者的方法可以很好地与当前的检测基础模型结合,并将其强大的检测能力转移到跟踪中。

开放词汇MOT 与开放词汇目标检测任务[22]类似,开放词汇MOT[37]规定,方法应该只使用LVIS[23]中的常见类别标注进行训练,将罕见类别视为新颖。作者评估了作者的统一“检测和跟踪任何事物”模型Detic,该模型仅用基本类别标注进行训练。表2显示,作者的统一Detic模型在基础和新颖划分的所有指标上都优于现有模型,尽管作者的跟踪器仅用领域外的未标注图像进行训练,但它仍取得了显著的领先。

TAO Track mAP 作者使用了与GTR[79]相同的观察结果。如表3所示,在使用相同的检测情况下,作者的方法(使用SAM-B)取得了最好的成绩(Track mAP50为23.9)。作者的绝大多数模型都超过了目前最先进的GTR,后者是一种利用未来信息进行关联的离线方法。相比之下,作者的方法以在线方式进行跟踪,并在零样本设置下进行测试。作者的统一Detic模型再次取得了新的最先进水平,大幅超过了GTR。

BDD100K MOTS 作者使用了与最先进方法UNINEXT-H[66]相同的观察结果,并在BDD100K MOTS基准上进行了零样本关联测试。如表4所示,作者的方法在所有方法中取得了最佳的关联性能(mIDF1为49.7,AssocA为54.5)。这证明了作者方法学习的实例嵌入的优越性。

BDD100K MOT 如表5所示,在给出与ByteTrack[75]相同的观察结果的情况下,作者的方法取得了最佳的IDF1 71.7和AssocA 52.9。与最先进的ByteTrack[75]相比,作者的方法也取得了更好的关联性能,在没有使用任何BDD图像进行训练的情况下,IDF1和AssocA都高出大约1.4%。ByteTrack还选择低置信度框并将它们添加到轨迹片段中,这导致了更好的mMOTA得分,该得分优先考虑检测性能[43]。

UVO VIS 作者对基于SAM的统一“分割和跟踪任何事物”模型进行了零样本测试。作者直接使用MASA检测 Head 的框提示来更快地分割一切。如图4a所示,作者的方法在图像和视频轨迹上都取得了最佳性能,大幅超过了其他同类方法。此外,作者还与SAM的默认自动 Mask 分割进行了比较。如图4b所示,随着推理时间的增加,由于蒸馏检测分支,作者方法的AR100增长速度远快于SAM。具有ViT-Base Backbone 网络的上界AR100甚至比SAM高10%。此外,在达到相同的AR100时,作者的方法大约快了10\times。这是因为作者的方法学习了一个强大的目标先验,以捕捉潜在的目标,只需少量稀疏 Proposal 。然而,为了分割一切,SAM不得不均匀地采样大约1k个点,这种方法既不灵活又效率低下,还依赖于手工制作的复杂后处理方法。

与VOS方法的比较 作者评估了基于VOS的方法Deva [14],该方法集成了XMem [13]用于跟踪多个目标以及使用点跟踪的SAM-PT [49]。为确保公平比较,作者在BDD MOTS、TAO TETA和UVO基准测试上提供了相同的观察结果。对于UVO,作者首先使用SAM的自动 Mask 生成功能生成 Mask ,然后按照Deva [14]中的启发式方法解决重叠 Mask ,并使用Deva生成每帧观察。

表6显示,作者的方法在所有基准测试中都优于Deva。特别是在自动驾驶BDD100K基准测试中,目标频繁进出场景,像Deva这样的VOS方法容易产生大量的假阳性。这在TETA分数中得到了体现,这种错误被严重惩罚。此外,Deva在处理重叠预测时也遇到困难,这是当前检测模型的常见问题。作者在附录的H节中提供了更深入的分析。

与自监督方法的比较 作者进一步将作者的方法与旨在从原始图像或视频中学习通用外观特征的自监督方法进行了比较。为确保公平比较,作者使用来自BDD和COCO的原始图像混合训练所有方法。具体来说,对于VFS,作者利用来自BDD的原始视频。作者在VFS [64]和MoCov2 [11]上使用ResNet-50模型,在DINO [8]上使用ViT-B模型,遵循UniTrack [58]中概述的关联跟踪策略。此外,作者确保所有模型上的检测观察是相同的。表7表明,作者的方法显著优于其他自监督方法。这种优势源于传统的自监督学习主要关注帧级相似性,这限制了它们在利用实例信息方面的有效性,并且在包含多个目标的图像上进行训练时遇到了困难。关于这方面的进一步分析见附录的G节。

消融研究与分析

为了降低训练成本,作者在消融实验中使用了较少的原始图像(40K)进行训练。除非另有说明,作者使用包含来自[71]的70k原始图像和来自[38]训练集的110k图像的图像集合来训练模型。作者采用Ours-SAM-B模型,并在BDD MOT和TAO TETA基准上进行测试。

训练策略与模型架构的影响 表8说明,直接使用现成的SAM特征(第1行)进行关联会导致结果较差。主要原因是SAM的原始特征是针对分割进行优化的,而不是针对实例级判别。然而,整合作者的MASA训练方法并添加轻量级跟踪头显著提高了性能,使BDD MOT上的AssocA提高了15.6\%,mIDF1提高了14.4\%。这凸显了作者的训练策略的有效性。加入动态特征融合块进一步提高了1.6\%的性能。此外,与目标先验蒸馏分支联合训练使AssocA提高了1.8\%,mIDF1提高了1.6\%,显示了这些架构设计的效果。

Proposal 多样性的影响 作者评估了关联学习中不同的 Proposal 生成机制。作者仅使用来自BDD检测任务训练集的原始图像进行训练。通过将MASA Pipeline 中的SAM替换为在COCO上预训练的Mask2former-SwinL [12]。如表8(a)所示,作者发现用SAM的 Proposal 训练的模型在BDD上的领域内性能和TAO上的零样本跟踪都显著增强。这凸显了SAM密集且多样的目标 Proposal 对优越对比相似性学习的重要性。

** Proposal 数量的影响** 调查SAM的 Proposal 数量对学习的影响,作者尝试了每批64、128和256个 Proposal 的不同上限。表8(b)显示,随着 Proposal 数量的增加,BDD和TAO上的AssocA一致提高,这表明丰富的实例集合促进了更具判别性的跟踪特征。

数据增强的影响 如表8(c)所示,随机仿射、Mixup [73]和LSJ [21]的组合给出了最佳性能。方法1表示基本数据增强,包括翻转、调整大小、颜色抖动和随机裁剪。如果没有强烈增强(方法1),其在BDD MOT上的mIDF1下降了6.7%,比使用方法5的效果差得多。这些结果说明,在仅使用静态图像进行训练时,强烈增强的必要性。

定性结果 在图14中,作者展示了作者统一方法Grounding-DINO和SAM-H的定性结果。作者的方法能够准确检测、分割和跟踪不同领域中的多个目标及其部分。这包括包含许多外观相似角色的动画电影场景以及复杂环境中的驾驶场景。

5 Conclusion

作者提出了MASA,这是一种新颖的方法,它利用来自SAM的丰富的实例级形状和外观信息,从 未标注 图像中学习可泛化的实例关联。

MASA在各种基准测试中展示了卓越的零样本关联性能,消除了对昂贵的特定领域标签的需求。

此外,作者的通用MASA Adapter 可以添加到任何现有的检测和分割模型中,使它们能够跨不同领域高效地跟踪任何物体。

参考

[1].Matching Anything by Segmenting Anything.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • Learning Instance-level Association
  • Segment and Track Anything Models
  • 3 Method
  • Preliminaries: SAM
  • Matching Anything by Segmenting Anything
  • 3.2.1 MASA Pipeline
  • 3.2.2 MASA Adapter
  • 3.2.3 Inference
  • 4 Experiments
  • Experimental Setup
  • State-of-the-Art Comparison
    • 消融研究与分析
    • 5 Conclusion
    • 参考
    相关产品与服务
    腾讯云服务器利旧
    云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档