点击下方卡片,关注「集智书童」公众号
时间动作检测(TAD)旨在识别未剪辑视频中的动作边界及其相应类别。受到在目标检测中DETR成功的启发,几种方法已经将基于查询的框架适配到TAD任务上。然而,这些方法主要遵循DETR预测实例级别的动作(即,通过中心点识别每个动作),导致边界定位次优。为解决这一问题,我们提出了一种新的双级别基于查询的TAD框架,名为DualDETR,用于检测实例级别和边界级别的动作。不同级别的解码需要不同粒度的语义,因此我们引入了一个双分支解码结构。这种结构为不同级别构建了独特的解码过程,有助于在每个级别显式捕捉时间线索和语义。在双分支设计之上,我们提出了一种联合查询初始化策略,以对齐两个级别的查询。具体来说,我们利用编码器提议以一对一的方式匹配每个级别的查询。然后,使用匹配动作提议中的位置和内容先验初始化匹配的查询。对齐的双级别查询可以在后续解码过程中用互补线索改进匹配的提议。我们在三个具有挑战性的多标签TAD基准上评估了DualDETR。实验结果表明,DualDETR在现有最先进方法中性能卓越,在det-mAP指标下取得了显著提升,并在seg-mAP指标下取得了令人印象深刻的成果。
时间动作检测(TAD)是视频理解中的基本任务之一,在视频编辑,体育分析,监控录像分析以及自动驾驶[1]等领域有着广泛的真实应用。TAD旨在识别人类动作的起始和结束时间,并同时识别相应的动作类别。为了应对TAD在复杂真实应用场景中的挑战,我们专注于复杂的多标签时间动作检测(Multi-label TAD),在这种情况下,未修剪的视频中存在来自不同类别的多样化动作,通常具有显著的时空重叠。
受到DETR[4]在目标检测中成功的启发,几种方法[52, 53, 54, 38, 27, 35, 47]采用了基于查询的检测流程,并使用一组可学习的稀疏解码器查询直接预测动作,无需NMS后处理。这些方法通常遵循DETR从实例级别检测动作。它们通过中心点识别每个动作,并基于偏移预测持续时间。尽管实例级别的检测能够识别动作 To bridge this gap, we propose a novel Dual-level query-based TAD framework (DualDETR) that integrates both instance-level and boundary-level modeling into the action decoding. (为了弥补这一差距,我们提出了一种新颖的双级别基于查询的TAD框架(DualDETR),将实例级别和边界级别的建模整合到动作解码中。) 如图1所示,DualDETR使用两组解码器查询,分别是边界级别的查询组(红色和黄色)和实例级别的查询组(绿色),每组对应一个级别的解码。实例级别的查询捕捉提案内的关键语义帧,提供了对动作内容的整体理解。同时,边界级别的查询关注提案边界周围的细节,对显著的边界帧表现出更高的敏感性。遵循双级别解码流程,DualDETR可以通过结合实例级别的可靠识别和边界级别的精确边界细化来改进动作提案。
简单通过共享解码器来解码两个层次的查询并不能获得最优性能。通常,从边界和实例层次进行解码需要不同粒度的语义。使用共享解码器进行双重层次解码将无法专注于每个层次的具体语义,从而阻碍了两个层次的有效解码。为了解决这个问题,我们提出了带有特征分割的双分支解码结构,以使用独特的解码器处理每个层次。具体来说,我们沿着通道维度分割编码器特征图以表示边界(开始,结束)和实例层次。这种分离有助于明确捕获每个层次的个体特征。这种设计在多标签TAD场景中特别有帮助,在这些场景中不同的动作实例可能会重叠。例如,如图1所示,动作“_GolfSwing_”开始时,背景中“_TalkToCamera_”动作正在进行中。在这样复杂的场景下,准确确定每个动作的边界是具有挑战性的。特征分离使得每个层次上每个动作的明确线索得以保留并在不同的特征图上进行处理,从而有利于精确定位重叠动作。
在双重层次的双分支设计的基础上,我们提出了一种新颖的联合查询初始化策略,以对齐两个层次的查询,并在随后的解码过程中实现动作提议的互补性细化。首先,我们从编码器预测的动作提议中建立对齐。每个动作提议与一个起始边界查询、一个结束边界查询和一个实例查询配对。这种对齐允许边界查询和实例查询之间进行一对一匹配,使得在解码过程中可以联合更新匹配的提议。其次,与[36, 72]类似,每个查询构建为一个位置和内容向量的对。在此基础上,不是从训练中学习样本无关的先验[38, 52],位置和内容向量用它们匹配提议的位置和语义先验进行初始化。得益于联合查询初始化,位置向量引导查询明确关注匹配的提议,而内容向量提供语义指导,用于成对关系建模和全局特征细化。
我们在三个具有挑战性的多标签TAD基准测试上进行了大量实验,分别是MultiTHUMOS [67],Charades [50]和TSU [12]。我们提出的DualDETR在检测-mAP指标下明显超过了之前的最先进方法,展示了其细粒度识别和精确定位能力。值得注意的是,DualDETR在分割-mAP指标下展示了令人印象深刻的每帧检测精度,与基于检测的方法和基于分割的方法相比均表现出色。
总之,我们的贡献有三个层面:
多标签时间动作检测。先前的研究[45]在多标签TAD问题上,主要将问题公式化为一个逐帧分类(分割)任务,重点在于动作类别的识别,而不是对所有动作实例的精确动作边界定位。早期研究[42, 43]试图通过精心设计的高斯核来捕捉时间上下文。其他研究通过膨胀注意力层[10]或卷积与自注意力块的组合[11]捕捉并建模时间关系。Coarse-Fine[26]采用了双流架构,促进从不同时间分辨率提取特征。MLAD[55]利用注意力机制建模同时发生及跨不同时间步骤的动作。PointTAD[53]使多标签TAD回到了动作检测任务领域[18, 46, 48, 53]。在本文中,我们提出了一种双级别框架,以进一步探索基于查询框架的潜力,特别关注多标签TAD任务中动作实例的精确定位。
TAD中的边界信息。 关于动作边界的前期研究[41, 49, 58, 60]主要集中于提取高质量的边界特征以用于提案生成或评估。早期方法[30, 32, 33, 35, 75]采用卷积网络提取边界特征。MGG[39]通过识别边界分数较高的位置来细化提案边界。TCANet[44]和AFSD[31]采用了时间ROI对齐或边界池化技术来检索用于边界细化的特征。在基于查询的方法中,RTD-Net[52]将边界分数与原始视频特征相乘。然而,RTDNet在实现可靠的识别分数方面遇到困难,从而导致检测性能不理想,将边界信息适当地融入基于查询的框架中成为一个待解决的问题。在本文中,我们通过提出双级别框架来仔细解决这些挑战。
DETR中的查询公式。 在目标检测领域,解码器查询的公式化被广泛研究。DETR[4]在训练过程中使用随机初始化的对象查询来学习数据集级别的对象分布。Anchor DETR[59]基于锚点初始化查询以建立特定的检测模式。Deformable DETR[8]和Conditional DETR v2[8]利用编码器提案为解码器查询提供位置先验。DAB-DETR[36]用内容向量和动作向量来公式化解码器查询。在此基础上,DINO[72]为位置向量融入位置先验,并在训练过程中随机初始化内容查询。在本文中,我们与上述目标检测方法有着不同的动机,即实现双级别查询之间的有效对齐。
基于查询的时间动作检测框架是受到DETR 成功的启发而提出的。它采用了变压器架构[56],通常由编码器和解码器组成。编码器接收视频特征
作为输入,这些特征是由预训练的视频编码器(例如,I3D)提取的,其中
和
分别代表时间长度和特征维度。编码器使用自注意力来建模片段级的时间关系。经过
编码器层的细化后,解码器使用
个动作查询同时利用自注意力建模动作级关系,并使用交叉注意力细化全局特征。随后,对这些动作查询应用检测头以获得稀疏的检测结果,无需像非最大抑制(NMS)这样的后处理技术。在训练过程中,通过预测动作实例和地面真实动作实例之间的最优二分匹配,可以计算分类和定位损失。
可变形注意力[77]是为了解决DETR收敛慢的问题,同时提高其计算效率而提出的。在本文中,我们将可变形注意力作为一种工具来明确指导注意力定位。设
为一个查询元素的索引。给定查询特征
,一个一维参考点
,以及输入特征图
,可变形注意力计算如下:
这里,
表示计算为
的注意力权重。
表示注意力头索引,
表示采样时间点的索引。
和
分别表示注意力头的数量和采样点的数量。
表示一个归一化的一维采样偏移量。
给定一个未修剪的视频,DualDETR旨在预测一组动作实例集合
。这里,
表示地面真实动作实例的数量,
和
分别表示动作实例的起始时间、结束时间和相应的动作标签。
整个流程如图2所示。DualDETR在视频特征
上操作,这些特征是由预训练的特征提取器(例如,I3D)提取的。该模型采用编码器-解码器管道。对于特征编码,该模型使用具有可变形注意力的变压器编码器,以在片段级别有效地进行时间建模。
对于动作解码,我们引入了一个基于变压器解码器的双分支解码结构,以从边界和实例两个层面预测动作。相应地,解码器查询被分为两组,编码器特征也沿着通道方向划分为双级交叉注意力。在每个分支中,解码器接收相应的查询和特征以进行预测。
为了实现从两个层面提出的动作提案的互补细化,我们提出了一种联合查询初始化策略,根据从编码器预测的动作提案来对齐不同的查询组。每个提案与一对边界查询和一个实例查询相匹配。查询的内容和位置向量通过匹配提案的特征嵌入和边界位置进行初始化。在每一层的末尾,一个相互细化模块促进了对齐查询之间的通信。最后,由实例级内容向量生成的分类分数以及相互细化模块中的提案,作为最终的检测结果,无需进行NMS后处理。
在本小节中,我们介绍了我们双层级框架中解码器查询的构建方法。我们将解码器查询分为两组,一组用于边界解码分支,另一组用于实例分支。与[17, 36, 72]相似,我们通过将每个查询构建为一个位置和内容向量的对来解耦其位置和内容解码。实例级查询组,表示为
,包括内容矩阵
和位置矩阵
,其中
是查询的数量,
表示特征通道的数量。
内容向量捕捉高级语义信息,而位置向量包含两个归一化的标量,分别表示提议的中心和持续时间。类似地,边界级查询组由起始和结束查询组成,分别表示为
和
。每个边界查询也包含内容矩阵和位置矩阵,表示为
和
。位置向量包含表示提议起始和结束时间的归一化标量。在解码过程中,位置向量作为参考点,在自注意力机制和跨注意力机制中提供显式的位置指导。同时,内容向量在自注意力机制中为成对查询关系建模和跨注意力机制中的查询细化提供语义指导。这种双层级查询对应于后续的双分支解码。
在构建了两组动作查询并在各自的分支内解码每组之后,重要的是要对两组查询进行对齐,以便它们共同细化动作提案。这种对齐使得模型能够从实例级查询中获益,这些查询为识别提供了语义指导,以及边界级查询,这些查询以高精度细化提案边界。
为了实现查询对齐,我们首先通过将检测头应用于编码器特征图来获得提案和分类分数。然后,根据其分类分数,这些提案与来自两组的解码器查询进行匹配。例如,考虑到图3(a)中描绘的第
个选定提案,我们将这个提案与第
个实例级查询
以及第
个边界级查询
进行匹配。这种匹配过程确保了实例级和边界级查询之间一对一的对齐,使得它们在解码过程中能够共同更新匹配的提案。
基于匹配,我们提出了一种联合查询初始化策略,为对齐的查询提供一个良好的启动,并进一步将查询与其匹配的提案对齐。如图3(b)所示,第
个提案中的开始和结束时间戳用于初始化边界级位置向量
和
,这些也可以转换为中心点和持续时间值来初始化实例级位置向量
。同时,第
个选定的特征通过通道分裂用来初始化内容向量
,
和
。这种联合初始化策略提供了两个好处:(1) 它进一步增强了双重级别查询之间的对齐;(2) 它利用了提案中的位置和语义先验,从而实现了更好的匹配。
在双分支解码过程之前,我们将编码器特征图
划分为两个层次:1) 边界层次,包括起始边界特征
和结束边界特征
,以及 2) 实例层次特征
。这种划分使得每个层次的查询能够专注于与其各自层次相关的特定语义。两个层次的解码层均由自注意力模块[56],可变形交叉注意力模块和前馈网络(FFN)组成。
边界层次解码。 边界层次解码层将边界层次特征图
,以及内容查询向量
,以及位置查询向量
作为输入。在自注意力步骤之后,我们采用可变形交叉注意力来关注提议边界。具体来说,我们重用位置向量
作为参考点(如方程(1)中所述)。可变形注意力关注每个参考点周围的一小组关键采样点。内容向量的细化可以表示为:
随后,将回归头应用于细化的内容向量以生成偏移量
,这些偏移量用于细化位置向量,如下所示:
其中
和
分别表示sigmoid和逆sigmoid函数。这些函数用于确保提议坐标始终处于标准化状态。
实例级解码。 与边界级解码类似,实例级解码层接收实例级特征图
、内容查询向量
和位置查询向量
作为输入。通过对查询关系应用自注意力,内容查询通过关注实例级特征内的关键语义框架来细化自身。这个过程以实例级位置向量作为参考点,该向量包含提案的中心点和持续时间。这种细化可以表示为:
随后,采用一个回归头生成偏移量
以细化位置向量:
相互细化。 在单独级别上细化了解码查询之后,我们引入了一个相互细化模块,通过利用它们匹配的查询来实现提案的互补细化。这种方法允许边界级别从实例级别的强大定位中受益,而实例级别可以利用边界级别的精确边界细化。具体来说,我们利用边界级位置向量来细化实例级对应向量,可以表示为:
其中
和
分别表示实例级位置向量中包含的中心点和持续时间。类似地,我们以下列方式细化边界级别:
位置上的
更新为:
位置上的
更新为:
与现有先进方法的比较。 在表1中,我们将DualDETR与之前的多标签TAD方法进行了性能比较。
为了计算分割-mAP指标,我们遵循PointTAD的方法,将稀疏预测元组转换为密集分割得分。DualDETR在检测-mAP指标下显著优于所有先前方法(MultiTHUMOS上提高了
,Charades上提高了
),突显了其卓越的边界定位能力。
同时,即使是在分割-mAP指标下评估,DualDETR也能与专门为逐帧分类任务设计的方法相媲美。这进一步强调了我们方法的优越性。此外,我们在表2中展示了TSU数据集的结果,该数据集中的动作实例高度重叠。DualDETR仍然取得了显著性能,同时保持了良好的计算效率。
与传统TAD方法的比较。 在表3中,我们比较了几种传统TAD中的代表性方法。由于MultiTHUMOS与THUMOS14的数据准备相似,我们使用它们为THUMOS14设置的默认超参数复现了这些方法,TadTR除外,我们将查询数量调整为与我们的相同,以便公平比较。尽管这些方法在传统TAD中表现出色,但直接将它们应用于多标签场景会导致不令人满意的结果。相比之下,DualDETR在架构设计中考虑了密集重叠场景,从而实现了卓越的检测性能,超过了所有这些方法。
收敛速度。 与密集预测方法相比,基于查询的方法通常会遇到收敛速度慢的问题。在图4中,我们比较了DualDETR与PointTAD(另一种基于查询的方法)和ActionFormer(密集预测)的收敛速度。值得注意的是,DualDETR展示了有利的收敛速度,这得益于我们双分支协作结构的有效性。
我们针对MultiTHUMOS数据集进行了消融研究,以评估我们提出方法的有效性,并探讨其他设计选择。在表格中,默认设置以灰色显示。
对双层级设计的探讨。在表4中,我们展示了针对DualDETR每个组件的消融研究结果,重点关注实例级和边界级检测范式。采用实例级检测方法得到的结果次优,因为它缺乏对边界信息的明确关注。另一方面,边界级检测方法面临诸如检测不完整和难以获得可靠分数等挑战,导致性能较差。
接下来,我们逐步研究每个提出组件的有效性。我们首先呈现我们的基线,它简单地将实例级和边界级查询组合到同一个检测框架中。然后,我们在这个框架中引入我们的双分支设计,使解码过程能够关注每个层级的特定语义。这种整合带来了性能的显著提升,达到
。此外,我们引入查询对齐,将双层级查询与编码器提议进行匹配,实现有效的协作。这种对齐带来了额外的性能提升
。最后,联合查询初始化策略进一步促进了查询之间的对齐,带来了额外的性能提升
。
如图5所示,DualDETR在只有少数解码层的情况下享有卓越的检测精度。
对查询初始化的探讨。之前的基于查询的TAD方法通常在训练过程中优化随机初始化的查询,以学习数据集级别的动作分布。相比之下,DualDETR利用了匹配提议中的位置和语义先验。这些先验有两个重要目的:帮助解码器查询明确关注匹配的提议,并为对齐的查询提供额外的约束,促进有效的协作。此外,我们还观察到了对象检测领域中两种其他流行的初始化方法[72, 77]。Zhu等人[77]用编码器提议的预测初始化位置和内容向量(表示为“全位置”)。然而,这种方法只利用了位置先验进行初始化,缺乏细粒度内容解码所必需的关键语义先验。另一方面,Zhang等人[72]在训练过程中学习内容向量,同时保持位置向量的提议预测(表示为“位置随机”)。尽管这些方法在对象检测中取得了优越的结果,但将它们适应到多级基于查询的框架仍然具有挑战性,如图5所示。
相互精化的替代选择。基于DualDETR的设计,我们在表5中探讨了相互精化模块的替代选择。首先,我们考虑顺序精化,它以顺序方式更新位置向量。这可以通过先精化边界级向量,后精化实例级向量,或者反之。其次,我们研究在解码过程中更新位置向量的时机。默认情况下,位置向量在每个层的末尾更新。我们还探讨了在整个解码过程结束时更新它们(最后一层)的选项。此外,我们尝试在相互精化过程中通过将连接的内容向量输入到前馈网络来精化内容向量。总的来说,我们的默认设置得益于并行计算,并取得了优越的性能。同样值得注意的是,尽管探索了各种替代选择,DualDETR始终显示出有利的性能,展示了其鲁棒性。
在本论文中,我们介绍了DualDETR,一个新颖的基于双重查询的时序动作检测(TAD)框架。DualDETR整合了实例级和边界级的解码,以实现更精确的时间边界定位。为了明确建模每个级别的语义,我们提出了一个双分支解码结构,这使得我们能够捕捉到每个级别的个体特性。同时,为了对动作提案进行互补性细化,我们引入了查询对齐,该方法以一对一的方式将双重级别查询与编码器提案进行匹配。此外,我们提出了联合查询初始化策略,该策略利用了匹配提案中的丰富先验知识,进一步增强了这种对齐。得益于双重级别设计,DualDETR在不使用NMS后处理的情况下,在多种多标签TAD基准测试上超越了现有的TAD方法。
检测头。遵循先前的研究[4, 52, 77, 77],我们对实例级内容向量
应用线性投影以生成分类分数:
分类分数
将在以下三种场景中使用:1) 在查询对齐策略中选择编码器提案,2) 执行二分匹配以分配地面真实值,3) 计算分类损失。此外,我们采用带有ReLU激活的多层感知机(MLP)来生成提案偏移量。具体来说,使用边界级内容向量
计算边界级偏移量,而实例级内容向量
用于生成实例级偏移量:
这些偏移量随后被用于精化它们各自的位置向量。
检测头被附加到最后的编码层以及每个解码层上。在这些阶段计算检测损失以优化模型。此外,为了保持双重级别查询之间的对齐,我们在匹配的对齐查询之间共享通过二分匹配获得的地面真实值。
训练细节。DualDETR在两个NVIDIA TITAN Xp GPU上进行训练,每个GPU的批处理大小为16。为了确保训练的稳定性,我们采用了ModelEMA[23]和梯度裁剪,遵循[70]。随机种子固定为42以确保可复现性。
传统TAD基准测试. 表6展示了DualDETR在传统基准测试THUMOS14 [25]和ActivityNet1.3 [3]上的性能。DualDETR在所有IoU阈值上均超过了之前的基于查询的方法,在THUMOS14上实现了令人印象深刻的平均mAP增益
。与依赖于NMS后处理的标准化方法相比,DualDETR的性能与最先进的方法ActionFormer [70]相当。此外,在ActivityNet1.3上,DualDETR也优于所有之前的基于查询的方法。这些结果进一步证明了DualDETR在动作检测任务中的优越性。
查询数量研究. 表7中,我们分析了解码器查询的有效性。我们发现,对于MultiTHUMOS、Charades和TSU,最佳的查询数量分别是150、25和96。这一观察与每个数据集中每个视频的地面真实实例数量相一致,对于MultiTHUMOS、Charades和TSU,这一数字大约分别是97、6.8和77。
层数研究. 表8中,我们在MultiTHUMOS数据集上检查了编码器和解码器层数对性能的影响。我们的默认配置包括6个编码器层和5个解码器层。得益于联合初始化策略,即使解码器层数减少,性能仍然保持一致性强。在平均性能方面,我们的默认设置被证明是最有效的。
推理效率. 表9中,我们报告了在multiTHUMOS上与两种竞争力方法ActionFormer [70]和TriDet [49]的效率对比。DualDETR在所有方法中获得了最高的mAP,同时延迟最少,完美平衡了效率与性能之间的权衡。表中的DualDETR后缀表示所采用的解码器查询数量。
定性结果. 为了进一步比较不同的检测范式,我们在图6中展示了定性结果。
边界级检测在边界检测上具有高准确性,但缺乏可靠的语义标签。另一方面,实例级检测实现了稳健的检测,但边界定位次优。我们提出的DualDETR有效地结合了这两种范式,同时提供可靠的识别和精确的边界定位。此外,我们在图7中提供了高重叠动作区域的定性结果。我们的方法在处理复杂情况方面表现出色,展示了DualDETR在多标签动作检测场景中的强大适用性。