https://arxiv.org/pdf/2508.01730v1 多目标跟踪(MOT)旨在跟踪多个目标,同时在给定视频的帧之间保持一致的身份标识。在无人机(UAV)录制的视频中,频繁的视角变化和复杂的无人机-地面相对运动动力学带来了重大挑战,这通常导致不稳定的亲和力测量和模糊的关联。现有方法通常分别对运动和外观线索进行建模,忽略了它们的时空相互作用,导致次优的跟踪性能。在本工作中,我们提出了AMOT,它通过两个关键组件联合利用外观和运动线索:外观-运动一致性(AMC)矩阵和运动感知轨迹延续(MTC)模块。具体来说,AMC矩阵在外观特征的指导下计算双向空间一致性,从而实现更可靠和上下文感知的身份关联。MTC模块通过与基于卡尔曼的预测相一致的外观引导预测重新激活未匹配的轨迹,从而减少由于漏检导致的轨迹断裂。在三个UAV基准测试(包括VisDrone2019、UAVDT和VT-MOT-UAV)上的大量实验表明,我们的AMOT优于当前最先进的方法,并以即插即用和无需训练的方式很好地泛化。源代码将发布。
多目标跟踪(MOT)是一项基础的视觉任务,具有广泛的应用,如自动驾驶[1]和无人机(UAV)监控[2]。MOT的典型流程是首先检测多个目标,然后通过数据关联将每个检测结果分配给现有轨迹,确保轨迹身份随时间的连续性。尽管取得了进展,但稳健的数据关联仍然是一个挑战,特别是对于无人机搭载摄像头捕获的视频。
数据关联通常依赖于一个成本矩阵,该矩阵量化了检测-轨迹对之间的亲和力。频繁的视角变化导致目标外观和位置的显著变化。此外,由复杂的无人机-地面相对运动动力学(如变化的速度和方向)引起的大型且不可预测的目标位移进一步导致不稳定的亲和力测量,最终损害身份分配。
为解决上述问题,主流方法采用两种主要策略来构建成本矩阵。(1)基于运动的位置预测:卡尔曼滤波器[3]、[4]被广泛用作运动模型,根据历史状态预测轨迹的当前位置。然后,基于检测和轨迹之间的位置接近性构建基于运动的成本矩阵。为了克服卡尔曼滤波器在无人机视角下的线性运动预测限制,一些近期工作引入了互补技术,如相机运动补偿(CMC)[5]、[6]和光流[7]、[8],以提高预测轨迹位置的准确性。(2)基于外观的实例级区分:实例级重识别(ReID)嵌入对位置变化不敏感,在相机大幅运动或目标位移的情况下提供了显著优势。几项工作[5]、[6]、[9]、[10]已使用ReID嵌入构建基于外观的成本矩阵,以促进准确的身份分配。然而,这两种策略独立地对运动和外观线索进行建模,以生成单独的成本矩阵,忽略了它们之间的内在关系。具体而言,由突然目标位移引起的运动预测误差会不利地影响基于运动的成本矩阵的构建,而外观模糊性同样会影响基于外观的成本矩阵。因此,当这些成本矩阵产生冲突的关联分数时,确定可靠的匹配决策变得困难。
为解决这些挑战,我们提出了一种外观引导的运动建模策略,通过密集的外观相似性测量跨帧定位目标位置。具体而言,我们通过测量参考帧中查询ReID嵌入与相邻帧中ReID特征图所有空间位置之间的相似性来计算密集响应图。响应图反映了目标在连续帧中的空间位置概率。在此基础上,我们引入了外观-运动一致性(AMC)矩阵,该矩阵使用从轨迹和检测中导出的密集响应图计算相邻帧之间的前向和后向空间距离。通过捕获双向空间对齐,AMC矩阵反映了强大的时空对应关系,从而能够构建更稳健的成本矩阵。此外,传统的身份分配依赖于检测到轨迹的匹配。然而,漏检可能导致活跃轨迹缺乏相应的检测,从而产生未匹配的轨迹。为缓解此问题,我们提出了运动感知轨迹延续(MTC)模块,该模块通过比较外观引导和基于卡尔曼的目标中心预测来重新激活未匹配的轨迹。
结合AMC和MTC模块,我们提出了一种新颖的多目标跟踪器,称为AMOT,它基于联合检测和嵌入(JDE)架构[11]构建。AMOT特别设计用于增强在具有挑战性的无人机捕获视频下的身份分配的稳健性和准确性。在多个UAV基准测试上的实验表明,AMOT在IDF1和MOTA方面取得了卓越的性能,如图1所示。主要贡献总结如下:
MOT中运动建模的目的是预测轨迹的位置。大多数MOT方法[12]-[14]采用卡尔曼滤波器进行运动建模,因其对实时应用具有高计算效率。通过马氏距离[15]或交并比(IoU)[16]将轨迹的预测位置与当前检测进行比较,这些被用作数据关联的基于运动的成本度量。一些工作[4]、[17]通过采用以观测为中心的策略来改进轨迹估计,从而在非线性运动模式下获得更好的性能。尽管它们有效,但基于卡尔曼的方法在涉及大幅相机运动和目标位移的场景中表现出有限的能力。同时,基于学习的运动模型[18]-[20]最近受到关注。这些模型利用数据驱动架构来学习运动模式。然而,此类方法通常计算成本高,不适合实时跟踪。相比之下,我们引入了一种无需训练的运动建模策略,在稳健性和效率之间取得平衡,特别适合无人机捕获的视频。
外观建模旨在提取判别性外观特征以重新识别目标。基于检测的跟踪范式[21]、[22]首先使用现成的检测器检测目标,然后使用ReID网络提取每个目标的身份嵌入。尽管该流程提供了令人印象深刻的性能,但由于分离的检测和提取阶段,它存在高计算成本的问题。相比之下,联合检测和嵌入(JDE)范式[23]、[24]将目标检测和ReID特征提取集成到一个统一框架中,实现目标定位和嵌入提取的同时进行。此外,几个基于JDE的跟踪器整合了全局注意力[25]、[26]和时序线索[27]、[28]以增强实例级ReID嵌入的判别能力。上述方法通过计算ReID嵌入之间的余弦距离来测量实例级外观相似性。不同的是,我们将外观相似性测量重新表述为实例嵌入和全局ReID特征图之间的密集响应。这使得视觉相似性和空间一致性能够联合建模。
数据关联通常涉及构建一个成本矩阵,该矩阵基于运动和外观信息量化当前检测与现有轨迹之间的亲和力。为提高关联准确性,运动和外观线索通常被分别建模,然后集成到一个统一的成本矩阵中[29]、[30]。一旦成本矩阵构建完成,数据关联被表述为分配问题,并使用匈牙利算法[31]、[32]解决。然而,现有方法通常未能考虑运动和外观线索之间的内在相互作用。这种独立建模可能导致亲和力测量的不稳定性,由预测误差或外观模糊性引起,最终导致冲突的数据关联。为此,我们提出了AMC矩阵,该矩阵在外观、运动和时域中联合强制一致性,实现可靠的身份分配。
给定输入帧,首先将其输入特征提取器以获得特征图。然后,检测分支处理以生成对象中心定位的热图,其中表示对象类别的数量,以及回归图,预测对象的高度和宽度。ReID分支产生ReID特征图,其中是嵌入维度。
我们保留中置信度分数超过阈值的位置作为对象中心,表述为:
其中表示检测的中心坐标集,是检测的总数。对于每个检测,宽度和高度从回归图中获得为,置信度分数为。同时,每个检测的ReID嵌入从中相应中心坐标处提取,表示为。
检测集定义为,其中每个检测定义为。轨迹集可表示为,其中是现有轨迹的总数。轨迹的跟踪状态定义为,其中表示轨迹身份,轨迹的中心坐标集定义为:
在我们的AMOT中,如图2所示,我们构建了一个外观-运动一致性(AMC)矩阵,以实现稳健的检测到轨迹的关联。此外,我们提出了一个运动感知轨迹延续(MTC)模块,旨在不依赖显式检测到轨迹匹配的情况下重新激活未匹配的轨迹。
大多数现有成本矩阵仅使用运动或外观线索独立构建。然而,在具有挑战性的无人机跟踪条件下,这种单独建模方法是不够的,通常导致跟踪失败。为解决此问题,我们提出了AMC矩阵,该矩阵联合建模外观相似性和时空对应关系,以提高关联的稳健性。
具体而言,我们通过评估每个轨迹的ReID嵌入与当前ReID特征图之间的相似性来计算特定于轨迹的密集响应图,定义为:
其中表示第个轨迹的ReID嵌入,是余弦相似性函数。响应图突出了与轨迹ReID嵌入最语义相关的区域。然后,上最大响应对应的空間位置被定义为当前帧中第个轨迹的中心。相应地,当前帧中轨迹的预测中心坐标集表述为:
类似地,通过评估每个检测的ReID嵌入与前一帧的ReID特征图之间的相似性来计算特定于检测的密集响应图,定义为:
其中表示第个检测的ReID嵌入。前一帧中检测的预测中心坐标集由下式给出:
随后,如图3所示,我们通过测量前向和后向空间距离来量化外观引导的时空对应关系,可定义为:
这里,表示从第个轨迹的预测位置到第个检测的观测中心的前向空间距离。相反,表示从第个检测的预测位置到第个轨迹的观测中心的后向空间距离。在这两种情况下,较低的值表示更强的空间一致性。仅当前向和后向距离都较小时,检测-轨迹对才被视为可靠的匹配。
接下来,我们使用高斯核构建AMC矩阵,该核整合了双向空间距离,定义为:
其中是控制空间敏感性的比例因子,设置为5。本质上编码了联合空间和外观相似性。它旨在对潜在模糊的检测-轨迹对施加平滑惩罚,增强亲和力测量的稳健性。
短期丢失轨迹的恢复对于保持轨迹身份至关重要。为此,我们提出了MTC模块,该模块有效传播未匹配的轨迹,以缓解由临时漏检引起的关联失败。
在跟踪开始时,我们为每个轨迹初始化一个缓冲区以存储其帧索引和相应的跟踪状态,表示为,并按照先进先出策略更新。在后续帧中,如果轨迹未能与任何检测关联,同时在其缓冲区中保留最近且时间连续的跟踪状态,我们将其标记为重新激活候选。然后,我们引入MTC模块来确定这些候选是否应被重新激活。具体来说,我们首先使用卡尔曼滤波器预测所有候选的边界框,得到一组基于卡尔曼的预测:,其中是候选的总数。相应的预测中心表示为。随后,我们计算候选的最新ReID嵌入与当前ReID特征图之间的相似性,获得密集响应图:。中最大响应的区域不仅表现出与给定ReID嵌入的最高相似性,还作为候选在当前帧中中心坐标的外观引导预测,表示为。
随后,我们计算每个候选的外观引导预测中心与基于卡尔曼的预测中心之间的欧几里得距离。该距离表述为:
其中表示第个候选的两个预测中心之间的空间偏移。如果小于预定义阈值(在我们的实验中设置为3),并且与任何当前检测没有显著重叠,则认为候选出现在当前帧中并被重新激活,以确保身份一致性。否则,它保持未匹配状态。
AMOT的跟踪流程如图2所示。卡尔曼滤波器用于预测轨迹的当前位置。然后,我们采用类似BYTE[3]的两阶段匹配策略,将检测分为高置信度集和低置信度集。
具体而言,在第一阶段,我们在和轨迹之间构建三个成对成本矩阵,包括外观相似性矩阵[11]、交并比(IOU)矩阵和提出的AMC矩阵。这些矩阵集成到一个统一的成本矩阵中,如下所示:
这里,成本矩阵用于通过匈牙利算法进行二分匹配。在第二阶段,未匹配的轨迹仅通过IOU矩阵与关联。对于在此第二次关联后仍保持未匹配状态的轨迹,表示为,我们使用提出的MTC模块确定它们是否可以被重新激活为匹配轨迹。
之后,超过30帧保持未匹配的轨迹将被移除。新的轨迹从未与任何现有轨迹关联的剩余高置信度检测中初始化,而匹配轨迹的跟踪状态则基于当前观测进行更新。
我们采用广泛使用的CLEAR指标[27],包括MOTA、IDF1、大部分跟踪对象(MT)数量和大部分丢失(ML)对象数量,以全面评估跟踪性能。MOTA强调检测质量,基于误报(FP)、漏报(FN)和身份切换(IDs)计算。IDF1测量跟踪器随时间保持一致对象身份的能力,反映跨帧身份关联的准确性。此外,我们报告FPS以评估跟踪器的推理速度。
我们的跟踪器使用Python 3.7和PyTorch 1.7.1实现。所有实验均在NVIDIA RTX 3090 GPU和Xeon Platinum 8375C 2.90GHz CPU上评估。
我们展示了多个UAV数据集的跟踪结果。↑/↓分别表示越高/越低越好。每个指标的最佳分数以粗体标记,次佳分数以下划线标记。
无人机捕获视频中的频繁视角变化通常会导致目标外观和位置的显著变化,给多目标跟踪器带来重大挑战。如图7所示,我们在这些不利条件下评估了我们方法的跟踪性能。基线模型和MM-tracker[8]都遭受频繁的身份切换和跟踪失败,反映了在应对动态视角变化方面的有限能力。相比之下,所提出的AMOT在这些挑战性条件下表现出稳健的性能并保持轨迹身份一致性。
在本工作中,我们探索了外观和运动线索的联合建模,并引入了两个用于数据关联的即插即用组件,即AMC矩阵和MTC模块。AMC捕获外观、运动和时域一致性以确保准确的身份分配,而MTC通过在漏检后重新激活未匹配的轨迹来缓解轨迹断裂。基于这些组件,我们开发了AMOT,这是一个简单而有效的联合检测和嵌入框架,专为实时无人机跟踪定制。实验表明,AMOT在无人机搭载摄像头捕获的动态场景中表现出强大的稳健性。它还在几个UAV基准测试(包括VisDrone2019、UAVDT和VT-MOT-UAV)上取得了卓越的性能。