前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !

DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !

作者头像
集智书童公众号
发布2024-06-11 18:40:23
2490
发布2024-06-11 18:40:23
举报
文章被收录于专栏:集智书童

许多多目标跟踪(MOT)方法利用运动信息来关联跨帧检测到的所有目标。然而,许多基于滤波算法的方法,如卡尔曼滤波器,在线性运动场景中通常工作得很好,但在预测经历复杂和非线性运动的物体的位置时往往表现不佳。 为了解决这些场景,作者提出了一种基于运动的多目标跟踪方法,该方法具有增强的时间运动预测器ETTrack。具体来说,运动预测器整合了 Transformer 模型和时序卷积网络(TCN)来捕捉短期和长期的运动模式,并根据历史运动信息预测个别物体的未来运动。 此外,作者提出了一种新颖的动量校正损失函数,该函数在训练期间提供了关于物体运动方向的信息。这使得运动预测器能够快速适应运动变化,并更准确地预测未来运动。 作者的实验结果表明,ETTrack在与DanceTrack和SportsMOT上的最新跟踪器相比具有竞争力的性能,分别得到56.4%和74.4%的HOTA指标得分。

1 Introduction

多目标跟踪(MOT)是计算机视觉领域的一项重要技术,在移动机器人、自动驾驶(Sun等人,2020)和体育分析(Zhao等人,2023)等应用中发挥着重要作用。随着目标检测的最新进展,基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务:在每一帧中检测物体;以及跨多个帧关联这些物体。基于检测范式的核心是数据关联,这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处,但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。

因此,基于ReID的MOT方法(Wojke等人,2017; Du等人,2023; Fischer等人,2023),在训练的ReID模型提取物体外观特征进行数据关联的情况下,在相似外观和频繁遮挡的条件下的跟踪性能会下降。相比之下,在受到外观相似性、模糊和遮挡困扰的场景中,运动信息相对可靠。

值得注意的是,基于运动模型的MOT方法利用运动预测器识别空间和时间模式,从而预测未来物体的移动以进行物体关联。然而,对于运动预测器来说,在涉及非线性运动、多样姿态和严重遮挡等复杂场景中预测物体运动仍然具有挑战性。在这项工作中,作者的目标是开发一个时间运动预测器,以提高物体关联的准确性和跟踪性能。

作为基于运动模型的跟踪方法的主分支,基于滤波的方法广泛使用卡尔曼滤波器作为运动预测器,在预测和滤波过程中假设物体具有恒定速度。卡尔曼滤波器在线性运动中表现良好,但在复杂的非线性运动情况下无法准确预测物体位置。为了克服这些限制,基于深度学习的运动模型已被应用于多目标跟踪(MOT)。例如,采用循环神经网络根据物体的历史轨迹预测物体位置,利用其序列处理能力。采用基于长短期记忆(LSTM)的运动模型,通过考虑将物体运动信息作为输入来捕捉运动约束。(Xiao等人,2023年)提出了一种基于Transformer的运动模型,用于捕捉长距离依赖以建模运动。然而,这些基于深度学习的方法有两个局限性。

首先,由于它们的网络结构简单,在MOT中使用时无法有效处理具有高变异性的输入序列,并且难以建模复杂和长距离的时间依赖性(Luo等人,2018年)。其次,当前的运 动模型仅将物体的历史轨迹作为输入,缺乏整合可靠额外信息的能力,导致在复杂和非线性场景中位置预测不可靠。然而,集成额外信息是可能的,比如物体的外观特征以及物体之间的交互。但是,当这些场景中出现重大遮挡和预定义动作时,性能会受到损害。

为了减轻这些局限性的不利影响,本研究提出了两项主要创新。作者引入了一个增强的时间运动预测器,它集成了时间Transformer模型和时间卷积网络(TCN)用于MOT。Transformer 模型在自然语言处理(NLP)领域的成功应用已经证明了其使用强大的自注意力机制建模长距离时间依赖性的能力。作者利用了一个专门的时态Transformer架构,它只使用了传统Transformer模型的编码器部分。

这种设计有效地捕捉了单个物体的历史运动模式以预测其运动。TCN采用膨胀因果卷积来建模人类运动,捕捉基本的运动模式和时序相互依赖性。此外,TCN可以通过调整卷积核大小和扩展因子来捕捉物体在不同时间尺度上的运动模式,特别是短期内的微小变化。将时态Transformer和TCN相结合,使作者的运动预测器能够理解局部和全局的运动信息。TCN擅长捕捉细粒度的运动细节,而时态Transformer在此基础上理解更广泛的长期运动趋势。

除了运动预测器之外,作者还研究了物体运动方向对其预测位置的影响。在涉及快速姿态变化和迅速移动的场景中,对于运动预测器来说,迅速获取并融合运动信息,并对运动预测进行及时调整是一项具有挑战性的任务。因此,基于过去轨迹建模运动信息的有效性会显著降低。在复杂的运动过程中,物体的运动方向可能会发生显著变化,使得运动方向信息成为预测物体未来运动的关键因素。

作者提出了一种新的损失函数,称为动量校正损失(MCL),用作主运动预测任务的正则化器。在训练过程中,运动预测器由一个损失函数引导,该函数鼓励预测的运动方向与实际运动方向对齐。在多目标跟踪(MOT)任务中,物体的位置通常由边界框表示。在某些物体突然改变姿态的情况下,作者不仅考虑物体的中心点的运动方向,还考虑其四个角点的运动方向。通过融合额外的运动方向信息,模型预测器可以迅速适应运动变化,并更准确地预测未来运动。本研究的主要贡献如下:

  1. 作者提出了一种增强型时间运动预测器,它集成了时间卷积网络(TCN)和时间 Transformer 模型。它能有效地捕捉和理解物体的运动模式,以提高目标跟踪性能。
  2. 作者引入了一种新颖的动量校正损失函数,通过在学习过程中校正物体的运动方向,为运动预测器提供了关于物体运动方向的额外信息。
  3. 作者证明了作者提出的方法在具有非线性运动、多样化姿态和严重遮挡的挑战性数据集上,如DanceTrack和SportsMOT(Cui等人,2023年)上取得了具有竞争力的性能。此外,作者的方法在MOT17上取得了可比较的结果。

2 Related Works

Multi-Object Tracking

多目标跟踪方法可以分为两类:检测后跟踪和联合检测跟踪。检测后跟踪方法,如SORT(Bewley等人,2016)和DeepSORT(Wojke等人,2017),首先检测目标,然后使用外观和运动信息将它们关联起来。这些方法长期以来一直是MOT领域的主导范式。作为另一种选择,联合检测跟踪方法,如JDE(Wang等人,2020)和FairMOT(Zhang等人,2021),将检测和ReID模型结合进行联合训练,在低计算成本下提供可比较的性能。然而,联合检测跟踪方法可能会因为统一网络中检测和跟踪优化目标之间的冲突而降低效率。此外,ByteTrack(Zhang等人,2022)利用了一种简单而有效的数据关联方法BYTE,显著提高了跟踪的准确性和鲁棒性。最近,BotSORT(Aharon等人,2022)通过利用运动和外观信息,使用更强大的ReID模型,超过了ByteTrack的性能。因此,检测后跟踪方法表明,一个健壮的检测器结合一个简单的关联方法可以获得良好的跟踪结果。因此,作者选择遵循ByteTrack算法,用基于深度学习的运动模型替换卡尔曼滤波器(Kalman等人,1960)。

Motion Model

几种主流的多目标跟踪(MOT)算法使用了运动模型。通常,SORT系列跟踪器(Bewley等人,2016年;Zhang等人,2022年;Cao等人,2023年)采用贝叶斯估计(Lehmann和Casella,2006年)作为运动模型,通过最大化后验估计来预测后续状态。例如,SORT(Bewley等人,2016年)使用了经典的卡尔曼滤波器(Kalman等人,1960年),假设目标估计是线性的,并使用匈牙利匹配算法(Kuhn,1955年)来匹配预测和检测结果。OC_SORT(Cao等人,2023年)通过优先考虑目标观测而非线性状态估计来增强处理遮挡的鲁棒性,但它仍然受到长期遮挡的影响,并且在恢复经历非线性运动的丢失目标时存在困难。然而,正如所强调的,基于卡尔曼滤波器的方法预设了一个恒定的运动,这并不准确地描述了目标在场景内经历复杂交互时位置的变化。因此,一些MOT方法引入了基于深度学习的运动模型(Milan等人,2017年;Kesa等人,2021年)来建模非线性运动。例如,(Milan等人,2017年)提出了一种基于递归神经网络(RNNs)的新型在线MOT跟踪器。(Kesa等人,2021年)提出了一种联合学习架构,通过利用RNN的能力并添加额外的外观信息来改进MOT和轨迹预测,从而超越了使用传统卡尔曼滤波器的限制。DEFT算法(Chaabane等人,2021年)使用LSTM来捕捉目标的运动约束。(Xiao等人,2023年)提出了一种基于Transformer的运动模型来捕捉建模运动的长期依赖关系。然而,这些当前方法缺乏建模更复杂的时间依赖性的能力,并且没有可靠地整合附加信息,导致在复杂和非线性场景中的运动预测能力不足。所提出的方法解决了这些限制,并增强了预测能力。

Transformer-based Methods

自从Transformer(Vaswani et al.,2017)在计算机视觉中变得流行以来,许多用于MOT任务的方法(Meinhardt et al.,2022; Zeng et al.,2022; Sun et al.,2012; Chu et al.,2023; Zhang et al.,2023)已经被提出来利用其强大的注意力机制从视觉信息和目标轨迹中提取深层表示。例如,TrackFormer(Meinhardt et al.,2022)和MOTR从Deformable DETR扩展而来。

它们利用轨迹 Query 和标准检测 Query 来预测目标边界框并将后续帧中的相同目标进行关联。TransTrack(Sun et al.,2012)仅使用Transformer作为其特征提取器,并传播一次轨迹 Query 以获得后续帧中目标的位置。TransMOT(Chu et al.,2023)使用卷积神经网络(CNN)作为检测器来提取特征,并使用时空Transformer来学习亲和力矩阵。

最近,MOTRv2(Zhang et al.,2023)结合了一个独立的检测器与MOTR来解决检测和关联之间的冲突。然而,基于Transformer的方法需要大量的训练时间和计算资源,这阻碍了它们实现实时能力。相比之下,作者提出的方法利用了Transformer强大的时序依赖建模能力来模拟目标的移动。此外,ETTrack方法仅依赖于轨迹数据作为输入,这显著减少了运行时运动模型推理所需的计算时间。

3 Method

在本工作中,作者提出了一种增强的时间运动预测器,它有效地利用运动线索来追踪具有复杂运动模式的物体。作者的主要目标是通过对时间 Transformer 与时间卷积网络(TCN)的整合,实现对非线性不确定性的精确估计,从而超越一些基于深度学习的运动模型的性能。此外,作者提出了一种动量校正损失函数,通过使用运动方向信息来增强运动预测器。第3.2.1节和第3.2.2节分别描述了时间 Transformer 和时间卷积网络(TCN),而第3.2.3节介绍了动量校正损失函数的概念。

Problem Formulation

个体的轨迹包含一系列边界框,其中代表时间戳,是总帧数。边界框表示为b=。MOT(多目标跟踪)的目标是为所有逐帧的边界框分配一个唯一的标识符。这个分配旨在建立所有边界框之间的全面关联。

作者的目标是创建一个运动预测器,预测物体的位置。当物体的历史轨迹长度设置为时,物体的历史轨迹可以表示为一个序列,其中是所有帧中物体的总数,是帧索引。在时刻的物体表示为,其中是相应边界框的中心坐标,分别代表边界框的宽度和高度,是物体的速度。这些历史轨迹被输入到运动预测器中,以预测当前时刻的速度。

预测连续帧之间的偏移量(即位置变化)对于运动预测有两个优点。首先,预测位置变化简化了整体预测任务,因为它涉及分析相对运动,这些相对运动通常表现出较少的变异性,且比绝对位置更具有可预测的模式。通过关注相对运动,降低了预测过程的复杂性。其次,作者的运动预测器对特定的起点或轨迹形状变得不那么敏感。这个优点使运动预测器能够有效地捕捉到潜在的移动动态,从而提高了其在不同场景和未见数据上的泛化能力。

为了获得当前时刻的预测位置,运动预测器将上一帧中的边界框与预测的速度相加,生成预测的当前边界框。运动预测器的整体框架如图1所示。

Motion Predictor

多目标跟踪(MOT)任务需要识别物体的空间和时间位置,特别是它们的轨迹。已经证明,时间 Transformer (Temporal Transformer)能够捕捉全局时间依赖性并理解运动序列的整体上下文,提供了对长距离运动相互作用和模式的全面视角。此外,时间卷积网络(Temporal Convolutional Network, TCN)[1] 已被证明在识别运动序列中的复杂局部时间依赖性方面是有效的,这导致了短期运动模式的精确分析。因此,时间 Transformer 和TCN的结合使得模型能够对运动模式提供全面的理解。

3.2.1 Temporal Transformer

时间 Transformer 旨在有效地捕捉个体目标的长期历史运动模式。这是通过利用标准的 Transformer 编码器实现的,该编码器包含多头自注意力(MHSA)机制。MHSA使编码器能够考虑轨迹序列的各个方面,并识别预测目标未来位置的最关键特征。时间 Transformer 的结构如图2所示。

在时间 Transformer 中,输入序列标记T是时间卷积网络的输出。时间 Transformer 的自注意力可以学习 Query 矩阵、键矩阵和值矩阵。单个头的自注意力计算如下:

其中:为自注意力的数值稳定性。在等式1中,是分布函数,它依赖于模型的特性。使用多个矩阵进行注意力递归,可以更有效地处理复杂的时序依赖。这是通过实现多头注意力来完成的,它包含了多个自注意力机制的输出嵌入。这种方法使模型能够同时考虑不同位置上表示空间的各个子空间的信息,从而增强其处理和理解复杂信息的能力。有个头时,多头注意力可以表示为:

其中是一个全连接的前馈网络。实现了一个位置编码方法,为 Transformer 编码器提供位置信息,并使注意力层能够在TCN的输出上执行多头自注意力。最后,将个头的输出级联并送入以获得 Transformer 输出。时间 Transformer 是处理序列数据以建模目标运动的 Transformer 模型的重要实现。在作者的实验中,作者证明时间 Transformer 可以有效地捕捉输入轨迹序列中的时序相互依赖性。

3.2.2 Temporal Convolutional Network

时间卷积网络(TCN)是一种为序列数据处理优化的创新结构,它通过深度学习方法有效地解决时间依赖性问题。一个标准的TCN由多个TCN块组成,每个块旨在捕捉时间模式并确保强大的特征表示。TCN的细节如图3所示。每个TCN块由连续的层组成,从一对因果卷积开始。这些卷积确保模型的预测仅依赖于过去和现在信息,而不是未来的数据。尽管因果卷积在建模短期依赖性方面已被证明是有效的,但由于其有限的感受野,在建模长期依赖性方面存在限制。为了增强TCN捕捉更长时间间隔依赖的能力,作者可以增加网络深度或滤波器大小。然而,这会导致更高的计算复杂度。与只能通过增加其核大小或添加更多层来扩大其感受野的因果卷积不同,扩张因果卷积使用扩张因子,由表示,来扩大其感受野。扩张因子,表示为,可以指数级增加,如图4所示。使用扩张因果卷积,作者可以按如下方式计算特征图:

其中是输入,表示滤波器,是滤波器大小。通过堆叠这些卷积,TCN可以扩大其感受野并有效地捕捉更长的依赖关系。在扩张因果卷积之后,引入了两层非线性,使用ReLU激活函数。这种非线性对于模型捕捉数据中的复杂模式和关系至关重要。权重归一化被加入到一维卷积中,以提高训练的稳定性和速度。此外,在每个激活函数之后添加了一个dropout块。最后,将残差连接集成到层中以增强模型的预测性能。配备身份映射的残差块(Zagoruyko和Komodakis,2016)可以表示为:

其中和分别表示第(+1)个TCN块的输入和输出,是残差块的可训练参数矩阵,表示残差函数。

尽管可以通过设计TCN来增强其建模长期依赖的能力,使用膨胀因果卷积,但它同样优化了建模短期依赖的能力,使其能够精确捕捉序列数据中的局部模式和动态。当跟踪任务特别依赖于短期局部特征时,TCN有效地缓解了时间 Transformer 在建模短期依赖方面的局限性。此外,与需要复杂自注意力计算的时序 Transformer 相比,TCN通常具有更简单的模型结构。这不仅减轻了计算需求,还使得TCN模型在现实场景中能够更快地完成训练和推理阶段。

3.2.3 动量校正损失(MCL)

为了增强运动预测模型并获得更可靠的未来预测,作者融入了上下文信息,如运动方向。作者提出了一种新型的损失,称为动量校正损失,它作为运动预测损失的规则化器。通过结合轨迹预测损失和动量校正损失,作者可以有效地训练运动预测模型。所提出的动量校正损失如图5所示。给定两点 和 ,运动方向表示为:

在多目标跟踪(MOT)中,物体的位置通常由边界框表示。为了适应突发的姿态变化和快速移动,预测的物体运动方向可以表示为 ,其中 是中心点的运动方向,而 表示物体四个角点的运动方向。真实的物体运动方向也可以表示为 。一般来说,物体中心点的运动方向代表了整体的运动方向。在某些物体姿态突然变化的情况(Sun等人,2022年),作者需要考虑的不仅仅是物体中心点的运动方向,还包括边界框四个角点的运动方向。如图5所示,作者可以通过边界框的四个角点捕捉到更多的姿态变化。因此,动量校正损失可以计算为:

Training and Inference

训练阶段。 在训练阶段,作者利用过去n帧的历史位置来训练运动预测器,并预测后续帧中的目标位置。作者使用L1损失函数作为预测损失来监督训练过程,以提高处理异常值的能力。具体来说,给定预测偏移量 ,以及对应的真实值的属性,预测损失 通过以下方式获得:

最终的损失函数结合了运动预测损失 和动量修正损失 :

其中 是一个关键的超参数,它决定了动量修正损失函数的影响程度。值得注意的是,在训练阶段需要额外的方向信息。相比之下,在预测阶段,模型仅依赖于观察到的轨迹来预测未来的轨迹。

4 Experiments

Datasets and Evaluation Metrics

推理。作者的运动预测器应用在ByteTrack(Zhang等人,2022)平台上,该平台引入了一个两步关联算法,利用目标检测阈值通过轨迹片段跟踪每个检测框,并根据相似性恢复被遮挡的目标。作者使用运动预测器输出当前帧中的预测框。通过利用YOLOX(Ge等人,2021)检测器,在当前帧中获得检测框。ByteTrack的关联算法采用匈牙利算法,根据算法1将检测结果分配给轨迹片段。

数据集。为了全面评估作者的方法,作者在包括DanceTrack(Sun等人,2022)、SportsMOT(Cui等人,2023)和MOT17(Milan等人,2016)在内的各种MOT基准上进行了实验。MOT17是在MOT中广泛使用的基础基准,其中行人的运动主要是线性的。相比之下,SportsMOT数据集捕捉了体育场景中运动员复杂运动和相似外观,包含了如奥运会和NBA等高规格赛事的视频,因此要求高跟踪精度。DanceTrack数据集在目标跟踪方面提出了特别复杂的挑战。这是因为它包含的目标看起来非常相似,经常被遮挡,并且表现出不可预测的运动模式。因此,对于任何跟踪算法来说,要确定性地展示其能有效处理复杂场景的能力都是一项挑战。作者的目标是提出一个运动预测器,能够在具有挑战性的情况下有效提高跟踪性能,特别是在多种场景下卡尔曼滤波器失效时。SportsMOT和DanceTrack是评估跟踪性能的理想数据集。

指标。为了评估作者的算法,作者采用HOTA(Luiten等人,2021)作为主要指标。HOTA结合了几个子指标,并通过考虑检测和关联准确性来提供平衡的观点。除了HOTA之外,作者还使用了其他CLEAR指标(Bernardin和Stiefelhagen,2008),如MOTA、FP、FN、IDs等,以及IDF1(Ristani等人,2016)。MOTA基于FP、FN和IDs计算,受检测性能影响。IDF1评估身份保持能力,用于衡量关联性能。这些指标被广泛用于有效评估算法性能。

Implementation Details

作者仅在对应对跟踪数据集上训练运动预测器,没有整合任何外部样本。在实验中,作者使用了ByteTrack(Zhang et al., 2022)开发的公开可用的YOLOX(Ge et al., 2021)检测器权重,以便进行公平的比较。对于运动预测器,作者采用TCN将过去的轨迹编码成一个32维的向量。TCN由4个TCN块组成。此外,在数据处理期间实施了0.1的dropout比率。值得注意的是,所有时间转换层接收的特征大小均为32。时间 Transformer 包括6层,多头自注意力使用8个头。作者使用Adam算法(Kingma和Ba, 2014)优化网络,学习率为0.0015,批量大小为16,共50个周期。最大历史轨迹长度设置为10。在训练数据集上,作者对进行超参数优化。在DanceTrack验证集上,作者使用=0.3取得了最佳的跟踪效果。所有实验都是在GeForce RTX 3090 GPU上进行的。

Benchmark Evaluation

在这里,作者提供了多个数据集的基准测试结果,如DanceTrack、SportsMOT和MOT17。所有这些方法都使用了相同的检测结果。

表2:在作者的方法与SportsMOT测试集上的最新MOT算法比较中,ETTrack与其他方法相比表现出竞争力。特别是,ETTrack达到了56.4%的HOTA、92.2%的DetA和57.5%的IDF1,这比带有增强卡尔曼滤波器和恢复策略的OC_SORT方法要好。值得注意的是,IDF1得分有了显著提高3.4%,该得分评估了关联准确性的性能。这些实验结果提供了令人信服的证据,证明作者的方法优于依赖标准卡尔曼滤波器的SORT类算法(Bewley等人,2016;Zhang等人,2022;Cao等人,2023)。作者的运动模型被证明在建模目标的时序运动模式方面是有效的,并且在非线性和复杂场景中比SORT类算法提供了一种更鲁棒的解决方案。

DanceTrack。 为了展示ETTrack在非线性目标运动和多样化场景下的性能,表1给出了DanceTrack数据集的结果。作者的方法在DanceTrack测试集上的性能进行了测试。结果显示,SportsMOT。 为了进一步评估ETTrack在非线性场景下的性能,作者在SportsMOT基准上进行了实验。所有方法使用了相同的YOLOX检测器,该检测器在SportsMOT训练集上进行训练,有或没有验证集,以便公平比较。如表2所示,这些带*的方法表明它们的YOLOX检测器是在SportsMOT训练和验证集上训练的。表2中呈现的评估结果显示,ETTrack在HOTA上达到了74.3%,IDF1上达到了74.5%,AssA上达到了62.1%,MOTA上达到了96.8%,DetA上达到了88.8%。与设计基于外观的关联以增强OC_SORT的MixSort_OC(Cui等人,2023)相比,作者的方法仍然优于它。特别是,ETTrack在HOTA上比ByteTrack高出最多10.2%,在IDF1上高出3.1%。作者的方法在目标实例关联方面显示了显著的优势,这在HOTA和IDF1指标的性能中得到证明。这些结果表明ETTrack在处理非线性运动方面的有效性。

MOT17。 表3展示了在MOT17测试集上的追踪性能,以验证所提出运动模型的泛化能力,该模型涵盖了线性目标运动。结果显示,尽管作者的方法取得了与现有基准相当的结果,但相对于目前最先进的方法,性能略有不足。鉴于MOT17中的视频序列是在不同的分辨率和多样的光照条件下捕获的,检测成为了一个关键因素,它显著影响追踪性能。值得注意的是,尽管MOT17特别设计用来追踪在一般具有线性运动模式的场景中的行人,但作者的方法仍然取得了与先进方法相当的性能。因此,ETTrack始终展现出强大的泛化能力。

Ablation Study

在DanceTrack验证集上,作者进行了一系列消融研究,以评估模型组件、动量校正损失以及一些超参数对作者提出方法的影响。

运动建模的影响。 为了评估作者的运动预测器的有效性,作者进行了一项比较研究,使用了各种现有的运动模型。作者在跟踪过程中采用不同的运动模型来融合时间动态,如表4所示。显然,

模型组件的影响 作者进行了一项消融实验,以评估核心组件对作者提出模型的影响。具体来说,在运动预测器中停用了TCN,以检查对跟踪性能的影响。如表5所示,当从运动预测器中移除TCN时,HOTA和IDF1分别下降了1.1%和1.0%。如前所述,TCN在建模短期依赖关系方面表现出强大的能力,并且在捕捉长期依赖关系方面也显示出较高的效率。这种能力有效地缓解了Temporal Transformer在建模短期依赖关系方面的局限性,这对于识别具有时间重要性的局部特征至关重要。这些实验的结果表明,整合TCN可以有效提高Temporal Transformer的特征预测性能。

动量校正损失的影响 一项消融研究检查了动量校正损失(方程8)的行为,结果总结在表6中。作者测量了使用动量校正损失训练运动预测器时的跟踪性能。HOTA和IDF1分别提高了0.8%和0.9%。结果表明,在未来的运动预测模型中利用运动方向信息的影响。在DanceTrack这样的数据集中,存在许多突兀的姿态变化和快速的运动,这使得依赖于过去轨迹的预测变得不充分。作者的未来研究将探索在运动预测中融入更多信息的新可能性。

历史轨迹长度的影响 为了演示历史轨迹长度对跟踪性能的影响,作者在不同的值下评估了作者的方法。表7中的结果显示,非常小的历史轨迹长度无法提供足够的信息,导致预测不可靠。作者的结果表明,扩展历史轨迹长度可以对物体运动进行更全面的分析。然而,非常大的历史轨迹长度往往会产生相当大的噪声,进而负面影响跟踪性能。因此,作者选择为10,这相当于物体历史轨迹的0.5秒,基于20 FPS的视频帧率。表7中的结果证明了在选择适当的历史轨迹长度以在物体跟踪任务中获得最佳性能的重要性。

动量校正损失权重的 影响 最后,作者还探索了超参数的影响,它决定了动量校正损失对最终目标函数的影响程度。如表8所示,在将设置为0.3时,在DanceTrack验证集上获得了最佳结果。

Qualitative Results

图6:OC_SORT与ETTrack(作者的方法)的定性比较。由于非线性行动或严重遮挡,OC_SORT导致了ID转换,但ETTrack仍然保持了身份的连续性。每一行显示了一个序列的结果比较。具体来说,OC_SORT的目标出现了以下问题:(a) 在帧#240和#265之间的ID转换;(c) 在帧#315和#332之间的ID转换;(f) 在帧#132和#146之间的ID转换。

图6展示了ETTrack与OC_SORT的定性比较。第一行显示,由于目标的遮挡或非线性行为,OC_SORT造成了ID转换。卡尔曼滤波器对线性行动的假设阻止了OC_SORT准确预测突发的姿态变化,导致错误的匹配。相比之下,ETTrack保持了身份的一致性,并且在处理非线性行为时表现出鲁棒性。这表明作者的方法可以在目标表现出复杂和非线性行为时准确预测目标的位置。ETTrack在SportsMOT和MOT17测试集上的可视化结果如图7所示。ETTrack在SportsMOT测试集上提供了准确的预测。这证明了作者的方法可以在目标表现出快速和非线性行为的体育场景中准确预测目标的位置。图7还展示了在MOT17测试集上ETTrack的几个追踪结果。可以观察到,尽管MOT17数据集设计用于追踪通常表现出线性行为模式的行人场景,但作者的方法仍然提供了令人印象深刻的追踪结果。

5 Conclusion

在本文中,作者提出了一种基于运动的MOT方法,称为ETTrack,该方法使用增强的时态运动预测器来提高非线性运动中目标关联和跟踪的性能。

运动预测器整合了时态转换模型和时态卷积网络(TCN)来捕捉局部和全局的历史运动信息。此外,所提出的方法使用了一种新颖的动量校正损失,在训练过程中指导运动预测器,并提高其处理复杂运动的能力。因此,与基于卡尔曼滤波和深度学习的其他运动模型相比,ETTrack在DanceTrack和SportsMOT等具有挑战性的数据集上表现出更好的预测性能。同时,它在以行人为中心的数据集如MOT17上取得了相当的性能。在未来的工作中,作者将对运动模型中的摄像机运动信息和人体姿态特征进行进一步研究。

参考

[1].ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking.

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Works
    • Multi-Object Tracking
      • Motion Model
        • Transformer-based Methods
        • 3 Method
          • Problem Formulation
            • Motion Predictor
              • 3.2.1 Temporal Transformer
              • 3.2.2 Temporal Convolutional Network
              • 3.2.3 动量校正损失(MCL)
            • Training and Inference
            • 4 Experiments
              • Datasets and Evaluation Metrics
              • Implementation Details
              • Benchmark Evaluation
              • Ablation Study
              • Qualitative Results
              • 5 Conclusion
              • 参考
              相关产品与服务
              GPU 云服务器
              GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档