首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MOT从此“会思考”!华科重磅发布ReaMOT:赋予MOT推理能力,精准理解复杂指令!

MOT从此“会思考”!华科重磅发布ReaMOT:赋予MOT推理能力,精准理解复杂指令!

作者头像
AiCharm
发布于 2025-06-10 04:56:09
发布于 2025-06-10 04:56:09
1390
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

AiCharm

关注计算机视觉、深度学习、强化学习等领域的干货分享与前沿Paper解读。原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

560篇原创内容

公众号

图片
图片

🚀还在为AI在复杂场景下“跟丢”目标而头疼吗?传统的物体追踪技术往往只能处理简单的指令,一旦语言描述需要推理,AI就“蒙圈”了。现在,来自华中科技大学的科研团队为我们带来了革命性的突破——ReaMOT,一个全新的基于推理的多目标追踪(Reasoning-based Multi-Object Tracking)任务、基准测试和框架!

原文链接:https://arxiv.org/abs/2505.20381

项目代码:https://github.com/chen-si-jia/ReaMOT

1.研究背景与动机:

这篇论文提出了一个新的任务——基于推理的多目标跟踪(Reasoning-based Multi-Object Tracking,简称 ReaMOT),并构建了一个相应的基准数据集 ReaMOT Challenge,旨在解决传统多目标跟踪(MOT)和指代多目标跟踪(RMOT)任务在处理复杂语言指令时的局限性。

图片
图片

具体来说,论文试图解决以下问题:

1. 传统多目标跟踪任务的局限性

  • 传统多目标跟踪(MOT)任务虽然在处理大多数视觉通用场景方面表现出色,但在视觉-语言场景中面临巨大挑战。这些任务通常依赖于清晰的语言描述,当遇到复杂的、需要推理的语言指令时,传统方法往往无法有效工作。

2. 复杂语言指令的推理需求

  • 在日常生活中,复杂的语言指令是常见的。例如,指令“那支战术明确且组织严密的球队的球员”需要模型进行深度推理,分析球队的进攻策略、战术执行、防守定位和反应速度等,以准确推断出符合指令的目标球队并跟踪其轨迹。这种推理能力是传统方法所缺乏的。

3. 缺乏针对复杂推理的多目标跟踪基准

  • 目前,虽然有一些研究涉及基于语言的跟踪,但这些研究大多局限于单目标跟踪,且在处理复杂语言指令推理方面的能力有限。因此,作者提出 ReaMOT Challenge 基准数据集,以填补这一领域的空白,推动基于复杂语言指令推理的多目标跟踪研究。

4. 提供一个强大的基线框架

  • 为了应对 ReaMOT 任务的挑战,作者提出了一个基于大视觉-语言模型(LVLM)和 SAM2 的训练自由框架 ReaTrack,作为 ReaMOT 任务的基线。通过在 ReaMOT Challenge 基准数据集上的广泛实验,验证了 ReaTrack 框架的有效性,并展示了其在复杂推理场景下的优越性能。

总结来说,这篇论文的核心目标是提出一个能够处理复杂语言指令推理的多目标跟踪任务,并通过构建基准数据集和基线框架,推动该领域的研究进展。

2.贡献

  • 🎯 提出全新“ReaMOT”任务,挑战AI推理极限!不同于以往的“指代性多目标追踪”(RMOT)任务仅依赖清晰、直接的语言描述,ReaMOT要求模型能够理解并执行带有复杂推理需求的指令 。想象一下,你告诉AI:“追踪那个队伍里有清晰战术和高度组织性的球员们。”  ReaMOT就是要让AI像人一样,通过分析进攻策略、战术执行、防守站位乃至反应速度,来准确锁定并追踪目标群体! 这无疑将多目标追踪技术推向了一个全新的、更智能的层面。
  • 📊 构建大规模“ReaMOT Challenge”基准,填补领域空白!为了推动ReaMOT任务的研究和评估模型的推理能力,团队精心构建了ReaMOT Challenge基准测试 。该基准包含:
    • 1,156条带推理特性指令对
    • 423,359个图像-语言对
    • 869个多样化场景 更棒的是,这些指令还被细致地划分为了三个推理难度等级(简单、中等、困难),并为此设计了一套全新的评估指标 。这为领域内的研究者们提供了一个急需的、高质量的“练兵场”和“度量衡”。
  • 💡 首创“ReaTrack”无训练框架,效果惊艳! 面对ReaMOT任务的挑战,团队还提出了一个名为ReaTrack的创新型无训练(training-free)框架 。该框架巧妙地结合了大型视觉语言模型(LVLM)的强大推理能力和SAM2的精准追踪能力 。在ReaMOT Challenge基准上的大量实验证明,ReaTrack框架(特别是配备Qwen2.5-VL的版本)取得了当前最佳性能(SOTA),在各项指标上均远超现有方法,例如RIDF1提升高达37.50%,RMOTA提升12.53% 。这充分展示了其在复杂推理场景下的卓越泛化性和鲁棒性 。

3.ReaMOT基准

3.1 ✍️ 人机结合,打造高质量“推理型”数据标

研究团队从 12 个现有的多目标跟踪数据集中筛选出适合 ReaMOT 任务的视频序列,这些数据集涵盖了多种场景和目标类别。采用了一种巧妙的三步标注流程,充分结合了人工的智慧和大模型的效率,来构建包含复杂推理属性的语言指令 。

图片
图片
  1. Step 1: 人工预筛选 
    • 首先,人工仔细审查原始视频数据,对整个视频中的物体进行标注 。
    • 然后,精心挑选出那些包含多个具有共同特征、同时又与其他物体有明显区别、适合用推理型语言描述的目标,并提取包含这些对象的关键帧 。这一步确保了后续生成的指令具有可推理的基础。
  2. Step 2: GPT辅助标注 
    • 将预筛选出的关键帧(或包含预选目标的单帧图像)输入到 GPT-4o。
    • 引导 GPT 模型分析图像内容,特别是针对指定ID物体的外观、运动、相互关系以及与其他物体的区别等特征进行描述和关键词提取 。
  3. Step 3: 人工精炼与复核 
    • 人工对 GPT 输出的特征描述进行提炼、总结和泛化,形成初步的语言指令 。
    • 这些指令会经过多人交叉审核,确保其准确性、自然性和推理的必要性,最终形成高质量的、带有复杂推理特性的语言指令 。
    • 这些指令覆盖了从简单的目标外观、运动特征,到更复杂的人类认知活动或车辆运动趋势等多个层面 。例如,“场景中那些靠得很近的人,可能是家庭成员” ,这就需要模型去推理个体间的亲近程度以及可能的家庭关系 。
    图片
    图片
    图片
    图片
    图片
    图片
    图片
    图片
    图片
    图片

3.2 🎯 为“推理追踪”量身定制的评估指标

传统的追踪指标可能无法完全体现 ReaMOT 任务中“推理”的复杂度。因此,研究团队从推理性能和追踪性能两大维度出发,精心设计了一套评估指标 。

  • 核心指标选择:

选用了经典的 IDF1(身份保持F1分数)、MOTA(多目标追踪准确度)、Recall(召回率)和Precision(精确率)作为基础 。

  • ReaMOT特色化改造:
    • 推理难度评分: 同设计了一套推理难度评分规则,将语言指令分为三个难度级别:简单(Easy)、中等(Medium)和困难(Hard),以便更全面地评估模型的推理能力。
    • RIDF1, RRcll, RPrcn:  同样地,IDF1、Recall 和 Precision 也被冠以“R”(Reasoning)的前缀,代表它们是针对每条带有推理特性的语言指令进行评估后,再求平均得出的最终指标,从而全面衡量模型对具体推理指令的理解和执行能力 。
    • RMOTA (Reasoning MOTA): 考虑到在复杂推理场景下,如果追踪器性能不佳,可能会产生大量错误检测框,导致MOTA出现很大的负值,从而严重影响评估结果 。为了避免这种情况,研究者们将 MOTA 值与0取最大值,确保其在0到1之间,更稳定地反映追踪质量 。

一张表看懂ReaMOT四大核心评估指标:

图片
图片

4.方法

4.1 ✍️ ReaTrack 框架

为了应对 ReaMOT 任务中既要准确理解推理语言指令又要稳定追踪目标的双重挑战,研究者们提出了一个名为 ReaTrack 的基线框架 。这个框架最大的特点之一就是无需额外训练 (training-free),它巧妙地整合了现有强大的大型视觉语言模型 (LVLM) 和先进的分割模型 SAM2 的能力 。

ReaTrack 的核心思想和工作流程是怎样的呢? 我们可以把它拆解为四个关键模块,它们协同工作,完成从理解指令到追踪目标的全过程  (见论文图6):

图片
图片
  1. 🧠 大型视觉语言模型 (Large Vision-Language Model, LVLM):推理担当
    • 输入: 包含复杂推理特性的语言指令和视频中的当前帧图像 。
    • 任务:  LVLM 发挥其强大的图文理解和推理能力,分析当前帧中哪些物体最符合语言指令的描述 。例如,如果指令是“那个在开阔场地上玩耍并且穿着浅色衣服的孩子”,LVLM就需要理解“开阔场地”、“玩耍”、“浅色衣服”、“孩子”这些概念,并在图像中找到对应的目标。
    • 输出:  针对当前帧,输出符合指令描述的目标的检测框 (Detection Boxes) 。
  2. 👁️ 在线 SAM2 (Online SAM2):追踪核心
    • SAM2 简介: SAM2 是在 Segment Anything Model (SAM) 基础上发展而来的,它能够对图像和视频中的任何物体进行分割,并且在处理复杂场景和动态环境时效率更高 。
    • 在线化改造: 论文中的 Online SAM2 与原始的离线 SAM2 不同。离线 SAM2 通常处理整个视频,而 Online SAM2 则被设计为一个在线追踪器 。它仅利用当前帧以及该目标轨迹生命周期内的先前帧,不依赖于后续帧信息 。
    • 工作方式: 对于每一个正在追踪的目标轨迹,Online SAM2 会根据该轨迹的初始帧和初始检测框进行初始化 。随后,在新的每一帧,它会预测该目标在当前帧的位置 。
    • 输出:  输出目标的分割掩码 (masks),然后将其转换为更易于后续处理的边界框 (bounding boxes) 。这些边界框代表了 SAM2 对各个已存在轨迹在当前帧位置的预测。
  3. 🤝 IoU 匹配 (IoU Matching):关联检测与追踪
    • 目的: 这个模块负责将 LVLM 给出的“新检测到的目标框”与 Online SAM2 预测的“已存在轨迹的目标框”进行匹配。
    • 方法: 计算两组框之间的交并比 (Intersection over Union, IoU) 值,形成一个代价矩阵 。然后,使用经典的匈牙利算法 (Hungarian algorithm) 来根据这个 IoU 代价矩阵进行最优匹配 。
    • 输出:  匹配成功的轨迹(其框已用LVLM的检测框更新)、未能匹配上的新检测框(可能意味着新目标的出现)、以及未能匹配上的旧轨迹(可能意味着目标暂时消失或被遮挡)。
  4. 🔄 轨迹更新 (Trajectory Update):管理与维护轨迹
    • 更新匹配轨迹: 对于成功匹配的轨迹,更新其最新的匹配帧和最新的目标框位置 。
    • 创建新轨迹: 对于那些由 LVLM 检测出来但未能与任何现有轨迹匹配上的新检测框,系统会为它们创建新的追踪轨迹 。
    • 删除旧轨迹: 对于那些连续多帧都未能成功匹配的旧轨迹(即连续未匹配帧数超过预设的“最大轨迹年龄” At),系统会将其删除,认为目标已经离开视野或长时间消失 。在论文的实验中,这个“最大轨迹年龄”被设置为10帧 。
    • 具体操作(算法1所示)
    图片
    图片

ReaTrack 所采用的具体模型:在论文的实验中,ReaTrack 框架主要使用了 Qwen2.5-VL-7B 作为大型视觉语言模型 (LVLM),并采用 sam2_hiera_large 作为 SAM2 模型

总结来说,ReaTrack 框架通过以下流程实现推理式多目标追踪:语言指令首先由 LVLM 进行高级语义推理,在当前帧中初步定位符合描述的目标。同时,Online SAM2 利用其强大的分割和追踪能力,对已有的目标轨迹在当前帧进行位置预测。然后,通过 IoU 匹配将这两部分信息进行关联。最后,轨迹更新模块负责维护所有轨迹的生命周期,确保追踪的连贯性。

4.实验

4.1与SOTA模型比较

  • 实验设置在 ReaMOT Challenge 基准数据集的测试集上,对 ReaTrack 框架和其他几种现有的多目标跟踪方法进行评估。这些方法包括:
    • TransRMOT CVPR 2023 上提出的一种指代多目标跟踪方法。
    • TempRMOT ArXiv 2024 上提出的一种时间引导的指代多目标跟踪方法。
  • 实验结果
    • ReaTrack 在所有难度级别(简单、中等、困难)上均优于其他方法。
    • 在简单级别上,ReaTrack 的 RIDF1 比 TransRMOT 高 34.98%,RMOTA 高 11.28%,RRcll 高 55.62%,RPrcn 高 22.14%。
    • 在中等级别上,ReaTrack 的 RIDF1 比 TransRMOT 高 34.88%,RMOTA 高 12.23%,RRcll 高 54.17%,RPrcn 高 21.93%。
    • 在困难级别上,ReaTrack 的 RIDF1 比 TransRMOT 高 37.50%,RMOTA 高 12.53%,RRcll 高 55.30%,RPrcn 高 27.87%。
    图片
    图片

4.2 消融实验

  • 实验目的分析 ReaTrack 框架中不同组件的作用,特别是大视觉-语言模型(LVLM)和在线 SAM2 模块的影响。
  • 实验设置在 ReaMOT Challenge 基准数据集的测试集上,对 ReaTrack 框架的不同配置进行评估。具体配置包括:
    • 使用不同的 LVLM,如 LLaVA-1.5 [29]、InternVL2.5 [10]、LLaVA-NEXT [28]、Qwen-VLChat [4] 和 Qwen2.5-VL [5]。
    • 有无在线 SAM2 模块的对比。
  • 评估指标与性能对比实验相同,使用 RIDF1、RMOTA、RRcll 和 RPrcn 四个指标。
  • 实验结果
    • LVLM 的影响Qwen2.5-VL [5] 作为 LVLM 时,ReaTrack 在所有难度级别上均优于其他 LVLM。例如,在困难级别上,使用 Qwen2.5-VL 的 ReaTrack 的 RIDF1 为 39.63,而使用 LLaVA-1.5 的 ReaTrack 的 RIDF1 为 5.24。
    • 在线 SAM2 模块的影响对于推理能力中等的 LVLM(如 Qwen-VLChat [4]),去除在线 SAM2 模块会导致性能显著下降。而对于推理能力较强的 LVLM(如 Qwen2.5-VL [5]),在线 SAM2 模块主要提升了身份保持能力和减少了漏检。
    图片
    图片

4.3 可视化

从 ReaMOT Challenge 基准数据集的测试集中选择了一些具有代表性的语言指令和视频序列,使用 ReaTrack 框架进行推理和跟踪,并将结果可视化。

  • 实验结果ReaTrack 框架能够准确地推理出符合语言指令的目标,并跟踪其轨迹。例如:
    • 对于语言指令“站在车旁边的那个人和车”,ReaTrack 能够准确地识别出站在车旁边的人和车,并跟踪它们的轨迹。
    • 对于语言指令“正在演奏乐器的人”,ReaTrack 能够区分正在演奏乐器的人和只是拿着乐器的人,并跟踪正在演奏的人的轨迹。
    图片
    图片

4.4 定性结果

选择了一些具有复杂推理需求的语言指令,分析 ReaTrack 框架的推理过程和结果。

  • 实验结果
    • 例如,对于语言指令“在黑暗中驾驶更安全且能见度更高的车辆”,ReaTrack 能够推理出打开车灯的车辆。
    • 对于语言指令“更能吸引注意力的舞者”,ReaTrack 能够推理出站在前面或穿着更华丽服装的舞者。

通过上述实验,论文全面验证了 ReaTrack 框架在 ReaMOT 任务中的有效性和优越性,展示了其在复杂语言指令推理和多目标跟踪方面的强大能力。

图片
图片
图片
图片
图片
图片
图片
图片

5.结论

本文提出了一个新的任务——基于推理的多目标跟踪(ReaMOT),这是一个更具挑战性的任务,要求模型能够准确推理出符合具有推理特性的语言指令的目标,并跟踪这些目标的轨迹。为了推动 ReaMOT 任务的研究并评估模型的推理能力,作者构建了一个名为 ReaMOT Challenge 的基准数据集,该数据集包含 1,156 条具有推理特性的语言指令、423,359 个图像-语言对和 869 个不同场景,并分为三个难度级别。此外,作者提出了一套为 ReaMOT 任务定制的评估指标,并提出了一个基于大视觉-语言模型(LVLM)和 SAM2 的训练自由框架 ReaTrack,作为 ReaMOT 任务的基线。广泛的实验表明,ReaTrack 框架在 ReaMOT Challenge 基准数据集上表现出色。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 传统多目标跟踪任务的局限性
  • 2. 复杂语言指令的推理需求
  • 3. 缺乏针对复杂推理的多目标跟踪基准
  • 4. 提供一个强大的基线框架
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档