7B小模型竟超越72B巨头勇夺SOTA，北航、字节等联合发布长视频理解黑科技——DATE

AI生成未来

发布于 2025-11-17 15:19:36

990

点击下方卡片，关注“AI生成未来”

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Chao Yuan等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2509.09263 Git 链接：https://github.com/yuanc3/DATE

亮点直击
提出了时间戳注入机制（Timestamp Injection Mechanism, TIM），该机制无需修改模型权重或进行额外训练，即可实现显式的绝对时间建模。
提出了时间感知相似性采样算法（Temporally-Aware Similarity Sampling, TASS），这是一种结合语义引导字幕生成的时间正则化贪婪采样方法，能够在保持视频连贯性的同时，平衡关键事件的采样。
本方法在空间感知和事件定位方面表现出色，尤其适用于长达一小时的视频场景。在 70 亿参数模型上达到了SOTA性能，甚至超越了许多 720 亿参数模型。此外，DATE-72B 模型也实现了当前最先进的性能表现。

图1 DATE 与 Qwen2.5-VL 的真实示例。它显示 12 帧的 DATE 击败了256 帧的Qwen2.5-VL

总结速览

解决的问题

多模态大语言模型（MLLMs）在处理长视频理解任务时面临挑战，尤其是在以下两方面：

精确的时间推理（temporal reasoning）
关键事件定位（event localization）

现有方法多采用均匀帧采样与隐式位置编码，难以建模长距离依赖，导致时间信息丢失与理解能力下降。

提出的方案

提出一种名为 动态绝对时间增强（Dynamic Absolute Time Enhancement, DATE） 的新方法，核心包括两个模块：

时间戳注入机制（Timestamp Injection Mechanism, TIM） 将文本时间戳与视频帧嵌入交错，引入显式的绝对时间参考系统，无需修改模型结构或重新训练。
时间感知相似性采样策略（Temporally-Aware Similarity Sampling, TASS） 将视频采样建模为视觉语言检索任务，通过两阶段算法选取关键帧，兼顾语义相关性与时间覆盖度。

应用的技术

显式时间建模：通过 TIM 引入文本时间戳，实现连续的时间参考；
两阶段视频采样算法：
- 阶段一：将查询扩展为描述性字幕，增强语义对齐；
- 阶段二：使用相似度驱动的时间正则化贪婪采样策略，提取关键事件；
无需额外训练或模型改动，可直接应用于现有 MLLMs 架构中。

达到的效果

在多项小时级长视频基准测试中，DATE 方法在绝对时间理解与关键事件定位方面取得显著提升；
DATE-7B 模型在多个任务上超越了现有的 72B 模型，展现出卓越的参数效率；
DATE-72B 模型在整体性能上达到当前最先进（SOTA）水平；
展示了在无需大模型扩展的前提下，提升长视频多模态理解能力的可行路径。

方法

图2 框架总览。对于每个用户输入的问题，使用基于 LLM 的字幕生成器生成与 CLIP 对齐的图像字幕，并计算与视频帧的相似度。然后，使用时间感知相似性采样（TASS）策略对帧进行采样。最后，使用时间戳注入机制（TIM），嵌入与每个帧对齐的时间戳。

时间戳注入机制

为了增强多模态大语言模型（Multimodal Large Language Models, MLLMs）在视频理解中的时间感知能力，特别是在需要绝对时间定位的长视频中，本文提出了一种时间戳注入机制。该机制与模型无关，并兼容大多数主流 MLLMs。在本研究中，本文以集成显式绝对时间编码的 Qwen2.5-VL 作为基线方法。

Token 级别的时间戳注入 最新的开源 MLLM，Qwen2.5-VL，依赖其提出的 MRoPE（Multimodal RoPE）机制，在 MRoPE 的位置 ID 中通过时间间隔建模时间序列，从而嵌入视频帧的绝对时间。然而，本文的实验表明，这种方法缺乏对绝对时间的真正理解。

为了解决这一问题，本文引入了一种 token 级别的时间戳注入机制。如下图 3 所示，对于每一帧采样图像，本文使用视觉 token 与时间 token 交错的结构构建输入序列：

在这里，每种颜色代表一帧的视觉 token 与时间戳的组合，<video_token> 表示视觉 token（不止一个 token），<time_token> 是其对应的文本时间戳（例如，01:23 或 83s）。这种结构在保持视觉连续性的同时注入了精确且可控的时间参考，使语言模型能够执行具有时间感知能力的推理任务，如事件排序和绝对时间定位。

位置编码重构与顺序归一化 Qwen2.5-VL 中的 MRoPE 机制通过视觉分支中的位置索引引入绝对时间信息。尽管它在一定程度上建模了时间顺序，但在应用于长视频时存在关键限制，因为位置索引（ID）呈线性增长：

(1) 稀疏性与资源低效：由于位置 ID 成比例增长，较大的时间间隔（例如帧间 20 秒）会导致序列长度的低效使用，并可能引发索引爆炸（例如在一小时长的视频中达到 10,000）；

(2) 相对位置感知能力下降：位置 ID 之间的巨大间隔会破坏 token 之间的相对距离，从而削弱对局部时间结构的捕捉能力。

为缓解这些问题，本文移除了 Qwen2.5-VL 中 MRoPE 的绝对时间组件，仅保留原始的多模态 RoPE（MRoPE）编码。具体而言，时间维度使用简单的顺序索引策略进行编码，其中位置索引按照 token 的自然顺序递增。此外，为了保留视频帧之间的空间编码，本文确保仅时间维度随时间 token 的插入而扩展。空间编码保持与第一帧对齐，从而确保整个序列中的空间一致性。

这种设计保持了 RoPE 的数值稳定性，并保留了模型对 token 顺序的敏感性。同时，绝对时间感知通过显式的 <time_token> 独立处理，从而实现了解耦且鲁棒的时间表示框架。

时间感知相似性采样（TASS）

离散化的视频帧采样是多模态视频建模中的常见预处理步骤。然而，在长视频场景中，等间距采样策略存在明显局限。一方面，帧之间的时间间隔可能跨越数秒到数分钟，容易错过稀疏但语义关键的时刻。另一方面，统一采样与任务无关，严重影响关键事件的召回率。

直接基于相似性进行采样会导致变化较小的帧被连续采样，从而使视频特征塌缩为一张图像。如果采样跨度过大，则会导致关键事件连续性丧失、物体运动难以识别等问题，即与统一采样和 AKS 所面临的问题类似。

因此，本文提出了 TASS，一种时间正则化的贪婪采样算法，能够同时保证关键事件的连续性与时间多样性。该方法包括两个主要阶段：(i) 语义增强的相似性计算，(ii) 在时间约束下的相似性优先采样。

语义增强：从问题到描述 为了提升视觉-语言对齐的一致性，本文首先使用语言模型将用户的查询（通常是问题）转换为更具描述性的 caption，此步骤的提示词见附录 E。与原始问题相比，caption 具有更具陈述性的风格，更符合 CLIP 图文匹配的范式，能够激活更稳定和完整的语义表示。

每一帧视频使用 CLIP 进行嵌入，其与 caption 的相似度计算如下：

时间感知相似性采样 本文首先计算一个动态阈值，即所有相似度分数的平均值。低于该平均值的分数被视为负样本，因为它们对回答用户查询贡献较小，因此被丢弃。为了确保计算效率，本文进一步通过设置与最终选中帧数量成比例的上限来限制候选帧的数量，即：

其中是一个可控系数，表示要采样的帧数（候选帧）。例如，Qwen2.5-VL-7B 最多可处理 256 帧，本文默认设置，使用本文的采样策略，可以有效地从一段帧的视频中压缩并选取具有代表性的帧。当考虑负样本过滤时，采样的候选帧数量可能达到 2048。

尽管许多连续帧在语义上是一致的，但它们通常在时间上聚集，导致冗余。为了在保持语义相关性的同时确保时间多样性，本文引入了一种贪心选择算法，该算法以相似性优先，并在选中时间戳之间强制施加最小时间间隔。如果获得的帧数少于，则迭代地减小，直到满足配额为止。

伪代码如下：

与 TASS 最相关的工作是 Tang 等人提出的 Adaptive Keyframe Selection（AKS），该方法引入了一种查询驱动的采样机制。然而，它存在两个主要问题：（1）它直接将原始问题作为 CLIP 的文本输入，与 CLIP 的标题风格不一致，因为 CLIP 是使用图像-标题对进行训练的，而不是问题，且由于输入限制，容易导致语义截断；（2）其基于方差的采样策略容易引入误报（即来自负片段的高分帧），因为得分变化幅度较小，并且可能错过视觉上平滑区域中的关键帧。

相比之下，本文的方法通过标题重写实现更好的对齐，并引入时间正则机制以确保更广泛的时间覆盖。这使得采样在建模长视频中时间分布的事件时更加稳健和有效。

实验

基准测试

为了全面评估本文提出的 DATE 在长视频理解中的表现，本文在三个小时级别的视频基准上进行了实验，这些基准强调复杂的时间推理和长上下文建模：

Video-MME 是一个为通用视频理解设计的多模态评估基准，包含 900 个视频（总计 256 小时），涵盖各种类别和时长，配有 2,700 个专家标注的多项选择问答对。该数据集被划分为短（<2 分钟）、中（4–15 分钟）和长（30–60 分钟）三个子集，支持对时间可扩展性的详细分析。

LongVideoBench 聚焦于长上下文的多模态推理。该基准包含 3,763 个最长达 1 小时的视频和 6,678 个标注问题，涵盖 17 个类别。该基准强调细粒度的时间检索和局部事件推理，非常适合评估绝对时间理解能力。

LVBench 是最具挑战性的长视频理解基准之一，视频平均长度超过 4,000 秒。它提供了 1,549 个问答对，涵盖多个任务，如实体追踪、时间定位和因果推理，为时间感知的视频建模提供了全面的测试平台。

实现细节 本文采用 Qwen2.5-VL（7B 和 72B）作为基础模型。为确保公平比较和可复现性，本文使用公开发布的检查点，并按照其官方技术报告重新评估所有基准。本文的 DATE 也遵循相同的设置。

在评估中，基础模型采用统一的采样率 4 FPS，分辨率设为 448（最长边），在所有基准中最多输入 256 帧。所有实验均在 Nvidia A100-80G GPU 上进行。

对于本文提出的 TASS，本文使用 deepseek-v3 进行标题生成。随后，对所有视频以 1 FPS 的速度提取帧，并使用生成的标题计算视觉-文本相似度得分。视觉-文本相似度使用 CLIP ViT-B/32 模型计算，以实现语义感知的帧筛选。

在 TASS（时间感知相似性采样）模块中，本文将选择比例系数设为，并将时间间隔约束初始值设为秒。

主要结果

与当前最先进方法的比较 本文将提出的方法 DATE 与多个当前最先进的闭源和开源视频多模态大模型（MLLMs）在多个长视频基准上进行了比较，结果如下表 1 所示。

与其他小规模视频 MLLMs 相比，DATE 在所有基准上都实现了持续的性能提升：在 Video-MME（Overall）上比此前最好的模型（Qwen2.5-VL）提升了，在 LongVideoBench（val）上提升了，在 LVBench（一个极长视频基准）上提升了。

此外，本文的方法（256 帧）甚至在 LongVideoBench 和 LVBench 上超越了 Qwen2.5-VL-72B（768 帧）模型。

这些提升表明 DATE 拥有更强的时间建模能力，尤其在处理极长视频时表现出色。结果表明本文的方法能够有效注入时间线索，帮助模型聚焦于语义上重要的时刻，从而实现更稳健的长距离推理。

与事件感知任务的比较 为了更好地理解 DATE 在建模时间和事件中心信息方面的优势，本文在 Video-MME、LVBench 和 LongVideoBench 的细粒度子任务上进行了详细比较，如下图 5 所示。

精准事件定位能力

本文的 DATE 在准确事件定位方面表现出显著优势。如下图 1 所示，DATE 即使只使用 12 帧，也能准确识别事件发生的具体时间点，甚至如采样图中标注的采样顺序所示，仅用一帧也能准确采样关键时间点。

而基线模型即使在 256 帧下仍表现出明显偏差。这验证了本文提出的时间建模和语义驱动采样策略在长视频理解中的有效性与鲁棒性。下图 4 也展示了基准中的一些案例。

消融实验

本文进行了全面的消融实验，以评估 DATE 中的两个核心组件：时间戳注入机制（Timestamp Injection Mechanism, TIM）和时间感知相似性采样（Temporal-Aware Similarity Sampling, TASS），实验在 Video-MME、LongVideoBench 和 LVBench 上进行，结果见下表 2。

为了进一步分析本文采样方法的有效性与效率，本文将 TASS 与 CVPR’25 提出的最新方法 Adaptive Keyframe Selection（AKS）在不同帧率（从 16 到 256）下进行了比较。如下表 3 所示，TASS 在几乎所有帧数设置下均优于 AKS，特别是在较低帧数下（例如在 16 帧时提升了），同时在相同设备（Intel Xeon Platinum 8336C（2×32 核，2.3 GHz）CPU）上实现了相当甚至更快的采样时间。

这些结果突出了本文采样设计的效率与有效性。此外，TIM 一贯优于简单的“timestamp-in-prompt”方法，表明将时间线索直接嵌入 token 空间比依赖隐式提示描述更能有效地将时间感知注入多模态大模型中。

TIM 注意力分析

为了研究时间信息对视频理解的影响，本文可视化了基线模型与带有时间戳 token 的 TIM 的注意力图。该实验基于上图 1 中的问题进行，输入为 12 帧视频。由于 Qwen2.5-vl 每 2 帧合并一次，共嵌入 6 个时间戳 token。

如下图 6（左）所示，基线模型表现出相对分散的注意力模式，表明模型主要依赖于序列中的基于内容的相似性。相比之下，DATE 的注意力图（下图 6，右）显示出明显不同的模式。值得注意的是，与时间戳对应的视频 token 获得了显著更高的注意力，说明时间戳 token 起到了时间锚点的作用，使模型能够将特定时刻与更广泛的视频内容关联起来。