
现有的视觉跟踪方法通常以图像块作为目标的参考来进行跟踪。然而,单个图像块无法提供目标对象的完整和精确的概念,因为图像的抽象能力有限并且可能是模糊的,这使得跟踪变化剧烈的目标变得困难。在本文中,我们提出了 CiteTracker,通过连接图像和文本来增强视觉跟踪中的目标建模和推理。具体来说,我们开发了一个文本生成模块,将目标图像块转换为包含其类别和属性信息的描述性文本,为目标提供全面的参考点。此外,还设计了动态描述模块来适应目标变化,以实现更有效的目标表示。然后,我们使用基于注意力的相关模块将目标描述和搜索图像关联起来,以生成目标状态参考的相关特征。在五个不同的数据集上进行了广泛的实验来评估所提出的算法,并且相对于最先进的方法的良好性能证明了所提出的跟踪方法的有效性。源代码和训练模型将在 https://github.com/NorahGreen/CiteTracker 发布。
视觉目标跟踪旨在基于初始帧中目标的指定区域作为参考点来估计视频序列中任意目标的状态(位置和范围)。仅使用一个目标图像样本来定位经历剧烈外观变化(例如,姿势、照明或遮挡的变化)的目标是具有挑战性的,因为目标外观可能显着不同。为了成功跟踪具有外观变化的目标,获取目标的全面表示对于在测试帧中建立目标样本和目标之间的关联至关重要。
大多数现有的深度跟踪器2,19,36,7,39学习嵌入的特征空间,其中具有不同外观的目标样本仍然彼此接近,以生成目标变化的鲁棒表示。为了构建更全面的目标表示并更好地将目标样本与测试目标相关联,最近的几个跟踪器 6,40,23 在其特征提取主干的每个块中执行目标模板和搜索区域的交互,从而实现了状态- 最先进的跟踪性能。然而,当目标发生剧烈变化或给定的目标样本质量较低时,这些方法的性能不佳。使用图像块作为跟踪的目标参考时会出现以下问题。首先,目标的视觉表示不足以提供识别具有外观变化的目标的全面理解,因为图像的抽象能力有限。目标的图像块仅捕获特定角度的外观,但从不同角度观察时,其形状、纹理和表面特征可能会发生显着变化,导致外观完全不同,从而难以跟踪目标。其次,由于图像可能不明确且易于解释,随机目标图像块可能会误导跟踪模型,导致跟踪模型过分强调某些不稳定的外观特征,而忽略目标更本质和稳定的特征,从而导致漂移到背景和跟踪失败。例如,当跟踪圆形物体时,目标块可能包含大量背景,这会导致跟踪器漂移到背景。

图 1. 所提出的算法与现有跟踪方法在目标建模和关联方面的比较。左右部分分别描述了典型的视觉跟踪框架和提出的视觉跟踪框架。我们的方法首先生成目标对象的文本描述,然后利用文本的特征来估计测试图像中的目标状态,从而实现更全面的目标建模和关联。
我们注意到,与图像信号相比,人类创建的语言信号提供了更抽象和更精确的对象概念,有可能解决上述问题。此外,关于连接语言和图像的研究30表明,文本和图像特征可以很好地对齐并相互转移,从而可以利用语言和图像信号的优势进行视觉跟踪。受这些见解的激励,我们研究了关联文本和图像以进行视觉跟踪。
在本文中,我们提出了一种新的跟踪框架,该框架使用目标的自适应文本描述作为参考点,并将其与测试图像特征相关联以执行跟踪,称为CiteTracker。具体来说,我们首先通过即时学习开发一个文本生成模型,使用预定义的开放词汇表(包括类和属性标签),从而能够基于目标图像块生成目标的文本描述。生成模型是使用CLIP模型作为基线构建的,它已经将文本与丰富的图像特征连接起来。为了适应目标随时间的变化,我们开发了一种动态文本特征模型,可以随着目标的变化生成自适应文本特征。最后,我们将目标文本描述的特征与测试图像特征相关联,以生成相关特征以进行进一步的目标状态估计。我们对各种公共数据集(包括 GOT-10K 18、LaSOT、TrackingNet、OTB100 和 TNL2K)进行了广泛的实验,以评估所提出的算法。所有数据集上与最先进方法相比的良好性能证明了关联图像和文本进行视觉跟踪的有效性。
我们在本文中做出以下贡献:
• 我们提出了一种基于文本-图像相关性的跟踪框架。我们使用文本描述来提供更全面、更精确的目标概念,并将文本与测试图像关联起来以推断目标位置,从而能够更强大地处理目标变化问题。
• 我们开发了目标描述的自适应特征模型,以更好地适应测试视频中的目标变化,从而有助于更精确的目标特征和更准确的跟踪性能。
• 我们在众多跟踪数据集上实现了最先进的性能。我们进行了广泛的实验,包括消融研究,以证明所提出方法的有效性以及每个组件的效果
几种方法21,37,14,26,16探索利用语言信号来促进视觉对象跟踪。其中一些使用语言信号作为附加提示,并将其与常用的视觉提示相结合来计算最终的跟踪结果。 SNLT 跟踪器 14 首先单独利用视觉和语言描述来预测目标状态,然后动态聚合这些预测以生成最终的跟踪结果。在37中,Wang等人。提出了一种基于自适应开关的跟踪器,当目标丢失时切换到视觉接地模块,并在找到目标时切换回视觉跟踪模块,确保稳健和精确的跟踪。另一种方法侧重于整合视觉和文本信号以获得视觉跟踪的增强表示。 CapsuleTNL 26 跟踪器开发了一个视觉文本路由模块和一个文本视觉路由模块,以促进查询到帧和帧到查询的特征嵌入空间内的关系,以进行对象跟踪。在16中,开发了一个模态混合器模块来学习统一的自适应视觉语言表示,以实现稳健的视觉语言跟踪。尽管也利用语言和视觉信息进行跟踪,但我们的方法在如何生成目标的文本描述并将其与搜索图像相关联以执行跟踪方面与上述方法有显着不同。所提出的方法开发了一种基于 CLIP 的模型,从目标图像示例生成文本描述,从而消除了对语言注释的需要并扩展了潜在应用的范围。此外,我们设计了一个动态特征重新加权模块,可根据目标外观变化调整语言特征,从而获得更准确的跟踪性能。
最近,CLIP 模型 30 在大型且多样化的图像数据集及其相关标题上进行训练,将图像及其相应的文本描述映射到共享特征空间,在该空间中可以测量两种模态之间的相似性。这种共享特征空间允许模型执行各种任务,例如图像生成31、少样本学习33和图像字幕1。基于 CLIP 的方法在这些任务的多个基准测试中实现了最先进的性能,展示了它们泛化到新领域和语言的能力。基于CLIP模型,我们开发了动态文本特征生成模块,以实现更全面的目标建模,为视觉跟踪提供更准确和信息丰富的表示。此外,由于文本和图像特征在 CLIP 模型中很好地对齐,我们将目标的文本特征与搜索图像特征相关联,以推理目标的位置,从而实现更鲁棒的跟踪性能。
我们方法的目标是通过将其表示为图像文本相关性,在跟踪序列中构建给定目标图像块和搜索图像之间的鲁棒关联,从而允许更全面地理解目标状态,这有助于应对目标对象的各种外观变化。为此,我们的 CiteTracker 首先通过所提出的图像文本转换模块根据给定的目标图像块生成目标的文本特征,然后根据目标的最新状态调整文本特征,最后将目标的特征关联起来。文本和搜索图像以进行稳健的跟踪。

图 2. 所提出的 CiteTracking 算法的总体框架。它包含三个模块:1)图文转换模块,根据图像样本生成目标对象的文本特征; 2)文本特征自适应模块,根据当前目标状态调整属性描述的权重; 3)图文相关模块,将目标描述的特征与测试图像相关联,生成相关特征用于目标状态估计。
图2展示了CiteTracker的整体框架,由三个核心模块组成:图文转换模块、文本特征适配模块和图文关联部分。我们的方法将测试序列中的示例图像和搜索图像作为输入,使用文本分支(图 2 的上半部分)和视觉分支(图 2 的下半部分)来处理它们。文本分支首先使用图像编码器来提取给定示例图像的视觉特征以及从前一帧中的目标位置处的测试图像中裁剪出的目标图像块。然后,通过图文转换模块将目标的视觉特征转换为文本特征,并根据初始目标状态和当前目标状态的文本特征之间的差异,使用文本特征适应模块调整文本特征。视觉分支采用与 OSTrack 40 相同的处理流程,将样本图像和搜索图像作为输入,并输出测试图像的特征图。最后,图像文本相关组件将文本和视觉分支的输出关联起来,通过常用的预测头生成目标状态预测的相关特征39。
为了从给定的图像样本生成跟踪目标的文本特征,我们构建了一个图文转换模型,通过即时学习基于 CLIP 模型 30 连接图像和文本。

图3显示了图文转换模型的结构。它以目标图像以及对象类别和属性的词汇作为输入。目标图像由 CLIP 模型的图像编码器处理以生成图像特征 x,然后将 x 输入到轻量级神经网络 hθ(·)(Meta-Net)中以生成包含目标的目标标记 hθ(x)信息。输入词汇由文本嵌入模块处理以生成单词嵌入 ci 。此外,K 个可学习向量 υ1, υ2, ..., υK (其中 υi 与 ci 具有相同的维度)被引入作为特定预测任务的提示标记。给定目标标记 hθ(x) 和提示标记 υ1, υ2, ..., υK ,每个基于上下文的优化标记可以通过 υk(x) = υk + hθ(x) 获得,其中 k ∈ {1, 2,...,K}。因此,第 i 类标签的提示以图像特征为条件,即 mi (x ) = {υ1(x), υ2(x), ..., υK (x), ci }。令 t(·) 表示原始 CLIP 文本编码器,第 i 类标签的预测概率计算为

其中 Sim(·,·) 计算余弦相似度得分,τ 是学习的温度参数,N 是类标签的数量。目标描述被预测为与使用公式 1 计算的最大概率相对应的标签。在这项工作中,我们使用两个 Linear-ReLU-Linear 结构实现元网络,其中隐藏层将输入维度减少了 16 倍。
为了准确描述跟踪目标,我们选择MS COCO 25数据集中的80个类别标签作为类别词汇,其中包含日常生活中最常出现的物体。此外,我们从 OVAD 4 数据集中选择三种对象属性,包括颜色、纹理和材质来描述详细的目标状态。我们根据 GOT-10k 数据集上的类和属性标签来评估预测描述的一致性。图4(a)显示了预测结果一致的情况的比例,图4(b)显示了视频帧中目标物体的预测值。他们证明了跟踪对象在类和属性值方面的预测文本描述在视频序列中是一致的,这可以用作目标定位的特征。
在视频中,跟踪目标的类别保持一致,但其状态可能会发生变化。因此,我们将文本特征生成分为类别特征生成和属性特征生成。对于类别特征 Tc ,设 Ti 是 CLIP 文本编码器生成的第 i 类标签的文本特征,Tc 可以计算为


由于跟踪目标的属性值可能会发生变化,因此我们根据其变化来调整不同属性特征的权重。颜色、材质和纹理方面的变化分别表示为 Dcolor、Dmaterial 和 Dtexture,计算公式如下

其中Rattribute和Sattribute表示参考目标和当前测试目标具有使用等式1计算的特定属性值的概率。Rattribute值越低,目标和搜索图像在该属性上越相似。因此,不同属性的注意力权重可表述为:

之后,不同属性的动态文本特征调整为

其中 Ta 是使用公式 3 生成的文本特征。
目标和搜索图像的联合视觉特征 V ∈ RH ×W ×C 通过使用 MAE 17 方法预训练的 Vision Transformer (ViT-base) 34 模型来提取。文本特征 T ∈ R1×1×CT 通过线性层进行调整,以与通道维度中的视觉特征对齐。然后通过卷积运算实现这两种特征之间的相关性,其中文本特征 T ′ ∈ R1×1×C 作为核权重。将图像特征与所有文本特征之间的相关特征相加作为状态预测的最终相关特征,其计算为

其中 ⊙ 表示卷积运算,Latt 是用于通道自适应的线性投影层,Tc 表示类别特征,而 Tco、Tm 和 Tt 分别表示动态颜色、材质和纹理特征。
状态估计。基于图像-文本相关性生成的相关特征,我们的 CiteTracker 通过包含 4 个堆叠 Conv-BN-ReLU 层的常用预测头 40 估计目标状态。预测头输出分类得分图 C、用于补偿分辨率降低的偏移图 O 以及尺寸图 B。然后,目标状态计算为:

其中 (xc, yc) 是目标中心,计算公式为 (xc, yc) = argmax(x,y)Cxy,(Ox, Oy) 表示从 O 到 (xc, yc) 的偏移,(Bw, Bh) 为B. 训练目标的预测框大小。我们采用与 OSTrack 40 类似的训练过程,联合训练三个任务。

我们使用加权焦点损失24、l1损失和GIoU32损失分别训练分类、偏移和框大小分支。总体损失函数定义为其中,我们的实验中使用 λiou = 2 和 λL1 = 5。
在本节中,我们将介绍所提出的 CiteTracker 的实验结果。我们首先展示了四个大型数据集的整体性能,并与最先进的跟踪器进行比较。然后,我们通过详尽的消融研究来调查每个组件的贡献。进行鲁棒性评估是为了研究我们的跟踪器对初始化的鲁棒性。最后,给出了许多具有挑战性的序列的可视化结果,以提供全面的定性分析。
我们的实验是使用 4 个 NVIDIA Tesla V100 GPU 进行的。我们采用使用 MAE 17 方法预训练的 Vision Transformer (ViTbase) 34 模型作为提取视觉特征的骨干。我们使用 CLIP 模型30的微调版本作为骨干来构建所提出的图像文本转换模型。我们从测试帧中裁剪出目标框面积 4 倍的搜索图像,并将其大小调整为 384 × 384 像素的分辨率。而仅从参考帧裁剪 2 倍并将其大小调整为 192 × 192 像素。开放词汇表类标签和属性标签源自 MS COCO 25 数据集和 OVAD 4 数据集。我们在 TrackingNet 29、COCO2017 25、LaSOT 13 和 GOT-10K 18 数据集的训练分割上训练 CiteTracker,除了 GOT10K 上的评估,其中 CiteTracker 仅在 GOT 上进行训练10K 训练集。

表 1. TNL2K、LaSOT、TrackingNet 和 GOT-10k 数据集的最新比较。最好的两个结果以红色和蓝色显示。我们的方法在所有数据集上的表现都优于最先进的方法。
最先进的比较
我们在四个不同的数据集(包括 TNL2K、LaSOT、TrackingNet 和 GOT-10K)上将我们的跟踪器与最先进的方法进行比较。结果如表1所示。 TNL2K 37。
TNL2K 是一个旨在评估基于自然语言的跟踪算法的基准测试。该基准引入了两个新的挑战,即对抗性样本和模态切换,这使其成为跟踪算法评估的稳健基准。尽管基准测试同时提供了边界框和语言描述,但我们仅使用边界框进行评估。与包括基于语言的 VLT 跟踪器在内的最先进方法相比,我们的方法实现了最佳性能。与第二好的跟踪器 OSTrack 40 相比,所提出的方法在成功率(SUC)和精度方面分别提高了 1.8% 和 2.5% 的性能。良好的性能表明我们的跟踪器在处理对抗性样本和模态切换问题方面具有巨大的潜力,这得益于使用文本描述来建模和推断跟踪目标。拉索特13。
LaSOT是高质量的长期单目标跟踪基准,平均视频长度超过2,500帧。尽管我们的方法没有采用任何在长期跟踪中发挥关键作用的更新机制,但它仍然取得了接近最佳方法 SwinTrack 的结果。所提出的 CiteTracker 专注于通过将目标推理制定为鲁棒的图像文本相关性来处理剧烈的目标变化。跟踪网络29。
TrackingNet 是一个针对野外对象跟踪的大规模短期基准,其中包含 511 个测试视频,这些视频隔离了地面实况注释。表 1 显示了 TrackingNet 数据集上的性能。我们的跟踪器的曲线下面积 (AUC) 达到 84.4%,超过了之前发布的所有跟踪器。它描述了我们的跟踪器在跟踪具有各种变化的野外短期场景方面具有很强的竞争力。
GOT-10k 18。 GOT-10k 是一个大规模跟踪数据集,包含超过 560 个类别的移动物体和 87 个运动模式,强调测试集中的类别不可知论。测试集的基本事实被保留,我们使用作者提供的测试平台来评估我们的结果。我们遵循一次性协议训练规则,即跟踪器仅在 GOT-10k 的训练集上进行训练。如表 1 所示,我们的跟踪器改进了所有指标,例如与 OSTrack 40 和 SwinTrack 23 相比,AUC 分数降低了 1.5%。良好的性能表明我们的跟踪器具有良好的泛化能力来跟踪与类别无关的目标。我们将此归因于所提出的使用文本描述的稳健目标建模方法。

与视觉语言跟踪器的比较
除了与 SOTA 视觉跟踪器进行比较之外,我们还将所提出的方法与 SOTA 视觉语言跟踪器进行比较,以验证描述生成能力的有效性。我们的跟踪器大幅提高了所有基准测试的跟踪性能,例如与最近发布的视觉语言跟踪器 VLT 相比,TrackingNet 基准测试的成功率为 5%,GOT-10k 的成功率为 5.3% 16。尽管我们不使用手动注释的文本描述,但所提出的带有描述生成模块的方法仍然可以实现相当可观的跟踪性能。

为了评估跟踪器中每个组件的贡献,我们使用 CiteTracker 的六个变体进行消融研究:基本视觉模型,仅使用主干来提取目标和测试图像的联合视觉特征,以及预测头预测最终的跟踪结果。这里,预测头是在联合视觉特征的特征图上构建的。
LangTraker,它使用手动注释的目标描述来跟踪。它通过CLIP文本编码器提取描述特征,并将提取的描述特征与从主干网络获得的视觉特征进行关联以获得关联特征。
W/O属性(attr.),仅使用图文转换模型从模板框架生成类别描述,然后将这些描述与从主干提取的视觉特征相关联以获得关联特征。
W/O动态描述生成(DDG),使用图文转换模型仅从模板框架中提取类别和属性描述。
W/O Fine-tune(FT),采用原始CLIP模型提取跟踪目标的类别描述和属性描述。
CiteTracker,我们完整的模型使用图像文本转换模型来获取模板和搜索框架的类别和属性描述。然后,将这些描述与视觉特征相关联,以生成用于目标状态估计的相关特征。
表 2 展示了这些变体在 OTB2015、GOT-10K 和 TNL2K 数据集上的实验结果。 OTB 数据集的手动注释目标描述来自 OTB-lang 数据集 22。
视觉和文本特征相关性的影响。基础模型和 LangTraker 之间的性能差距清楚地表明了关联视觉和基于文本的特征进行跟踪的优势。
提示调整对 CLIP 模型的影响。通过即时调优过程,CiteTracker 在 OTB2015 和 GOT10K 上的 AUC 性能分别提高了 0.5% 和 3.3%,在 TNL2K 上的 SUC 性能分别提高了 1.6%。这些改进验证了 CLIP 模型即时调整的好处,该模型通过利用基于内容的优化令牌生成更稳健的表示。
使用属性描述的效果。在不使用属性描述(w/o attr.)的情况下,CiteTracker 在 OTB2015 和 TNL2K 上的精度分别降低了 1.6% 和 0.5%。验证了利用属性描述对跟踪对象进行建模的优越性。
动态文本特征生成模块的效果。通过将我们的 CiteTracker 与无 DDG 进行比较,很明显,所提出的动态文本特征生成模块在 OTB2015、GOT-10K 和 TNL2K 上的 AUC 方面分别将跟踪性能提高了 0.3%、0.2% 和 0.3% 。这种机制成功地使跟踪器能够更多地关注参考帧和搜索帧之间的差异,从而改善结果。
为了从我们提出的跟踪算法中获得更多见解,我们将几个具有挑战性的序列的跟踪结果与 OStrack 进行比较可视化。 Bolt 序列的特点是快速移动的目标和与参考目标非常相似的对抗性示例。我们的跟踪算法可以准确地跟踪目标,而 OSTrack 在第 51 帧时无法跟踪目标。在《Ironman》系列中,尽管光照变化很大,我们的跟踪器仍能准确跟踪目标,而 OSTrack 则不然。此外,即使在 YellowPeople 序列中存在对抗性样本和目标外观变化的情况下,我们的 CiteTracker 也能准确定位目标并将其与类似的干扰物区分开来。尽管詹姆斯序列中的视点频繁变化,我们的跟踪算法仍然表现良好。图 5 另外显示了每个序列的目标的生成文本描述,包括类别、颜色、材质和纹理。对同一目标的大多数描述在不同帧中都是一致的,但变化很大,这证明了文本描述对于跟踪的鲁棒性。由于用于训练的 COCO 数据集有限的 80 个类别,预测类别可能与真实对象类别不同,但在视频的大多数帧中保持一致(图 4 中的统计结果也支持),有利于目标识别和本地化。
我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。