点击下方卡片,关注“AI生成未来”
如您有工作需要分享,欢迎联系:aigc_to_future
作者:Chao Yuan等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2509.09263 Git 链接:https://github.com/yuanc3/DATE

图1 DATE 与 Qwen2.5-VL 的真实示例。它显示 12 帧的 DATE 击败了256 帧的Qwen2.5-VL
多模态大语言模型(MLLMs)在处理长视频理解任务时面临挑战,尤其是在以下两方面:
现有方法多采用均匀帧采样与隐式位置编码,难以建模长距离依赖,导致时间信息丢失与理解能力下降。
提出一种名为 动态绝对时间增强(Dynamic Absolute Time Enhancement, DATE) 的新方法,核心包括两个模块:

图2 框架总览。对于每个用户输入的问题,使用基于 LLM 的字幕生成器生成与 CLIP 对齐的图像字幕,并计算与视频帧的相似度。然后,使用时间感知相似性采样(TASS)策略对帧进行采样。最后,使用时间戳注入机制 (TIM),嵌入与每个帧对齐的时间戳。
为了增强多模态大语言模型(Multimodal Large Language Models, MLLMs)在视频理解中的时间感知能力,特别是在需要绝对时间定位的长视频中,本文提出了一种时间戳注入机制。该机制与模型无关,并兼容大多数主流 MLLMs。在本研究中,本文以集成显式绝对时间编码的 Qwen2.5-VL 作为基线方法。
Token 级别的时间戳注入 最新的开源 MLLM,Qwen2.5-VL,依赖其提出的 MRoPE(Multimodal RoPE)机制,在 MRoPE 的位置 ID 中通过时间间隔建模时间序列,从而嵌入视频帧的绝对时间。然而,本文的实验表明,这种方法缺乏对绝对时间的真正理解。
为了解决这一问题,本文引入了一种 token 级别的时间戳注入机制。如下图 3 所示,对于每一帧采样图像,本文使用视觉 token 与时间 token 交错的结构构建输入序列:

在这里,每种颜色代表一帧的视觉 token 与时间戳的组合,<video_token> 表示视觉 token(不止一个 token),<time_token> 是其对应的文本时间戳(例如,01:23 或 83s)。这种结构在保持视觉连续性的同时注入了精确且可控的时间参考,使语言模型能够执行具有时间感知能力的推理任务,如事件排序和绝对时间定位。

位置编码重构与顺序归一化 Qwen2.5-VL 中的 MRoPE 机制通过视觉分支中的位置索引引入绝对时间信息。尽管它在一定程度上建模了时间顺序,但在应用于长视频时存在关键限制,因为位置索引(ID)呈线性增长:
(1) 稀疏性与资源低效:由于位置 ID 成比例增长,较大的时间间隔(例如帧间 20 秒)会导致序列长度的低效使用,并可能引发索引爆炸(例如在一小时长的视频中达到 10,000);
(2) 相对位置感知能力下降:位置 ID 之间的巨大间隔会破坏 token 之间的相对距离,从而削弱对局部时间结构的捕捉能力。
为缓解这些问题,本文移除了 Qwen2.5-VL 中 MRoPE 的绝对时间组件,仅保留原始的多模态 RoPE(MRoPE)编码。具体而言,时间维度 使用简单的顺序索引策略进行编码,其中位置索引按照 token 的自然顺序递增。此外,为了保留视频帧之间的空间编码,本文确保仅时间维度 随时间 token 的插入而扩展。空间编码 保持与第一帧对齐,从而确保整个序列中的空间一致性。
这种设计保持了 RoPE 的数值稳定性,并保留了模型对 token 顺序的敏感性。同时,绝对时间感知通过显式的 <time_token> 独立处理,从而实现了解耦且鲁棒的时间表示框架。
离散化的视频帧采样是多模态视频建模中的常见预处理步骤。然而,在长视频场景中,等间距采样策略存在明显局限。一方面,帧之间的时间间隔可能跨越数秒到数分钟,容易错过稀疏但语义关键的时刻。另一方面,统一采样与任务无关,严重影响关键事件的召回率。
直接基于相似性进行采样会导致变化较小的帧被连续采样,从而使视频特征塌缩为一张图像。如果采样跨度过大,则会导致关键事件连续性丧失、物体运动难以识别等问题,即与统一采样和 AKS 所面临的问题类似。
因此,本文提出了 TASS,一种时间正则化的贪婪采样算法,能够同时保证关键事件的连续性与时间多样性。该方法包括两个主要阶段:(i) 语义增强的相似性计算,(ii) 在时间约束下的相似性优先采样。
语义增强:从问题到描述 为了提升视觉-语言对齐的一致性,本文首先使用语言模型将用户的查询(通常是问题)转换为更具描述性的 caption,此步骤的提示词见附录 E。与原始问题相比,caption 具有更具陈述性的风格,更符合 CLIP 图文匹配的范式,能够激活更稳定和完整的语义表示。
每一帧视频 使用 CLIP 进行嵌入,其与 caption 的相似度计算如下:

时间感知相似性采样 本文首先计算一个动态阈值 ,即所有相似度分数的平均值。低于该平均值的分数被视为负样本,因为它们对回答用户查询贡献较小,因此被丢弃。为了确保计算效率,本文进一步通过设置与最终选中帧数量成比例的上限来限制候选帧的数量,即:

其中 是一个可控系数,表示要采样的帧数(候选帧)。例如,Qwen2.5-VL-7B 最多可处理 256 帧,本文默认设置 ,使用本文的采样策略,可以有效地从一段 帧的视频中压缩并选取具有代表性的帧。当考虑负样本过滤时,采样的候选帧数量可能达到 2048。
尽管许多连续帧在语义上是一致的,但它们通常在时间上聚集,导致冗余。为了在保持语义相关性的同时确保时间多样性,本文引入了一种贪心选择算法,该算法以相似性优先,并在选中时间戳之间强制施加最小时间间隔 。如果获得的帧数少于 ,则迭代地减小 ,直到满足配额为止。
伪代码如下:

与 TASS 最相关的工作是 Tang 等人提出的 Adaptive Keyframe Selection(AKS),该方法引入了一种查询驱动的采样机制。然而,它存在两个主要问题:(1)它直接将原始问题作为 CLIP 的文本输入,与 CLIP 的标题风格不一致,因为 CLIP 是使用图像-标题对进行训练的,而不是问题,且由于输入限制,容易导致语义截断;(2)其基于方差的采样策略容易引入误报(即来自负片段的高分帧),因为得分变化幅度较小,并且可能错过视觉上平滑区域中的关键帧。
相比之下,本文的方法通过标题重写实现更好的对齐,并引入时间正则机制以确保更广泛的时间覆盖。这使得采样在建模长视频中时间分布的事件时更加稳健和有效。
为了全面评估本文提出的 DATE 在长视频理解中的表现,本文在三个小时级别的视频基准上进行了实验,这些基准强调复杂的时间推理和长上下文建模:
Video-MME 是一个为通用视频理解设计的多模态评估基准,包含 900 个视频(总计 256 小时),涵盖各种类别和时长,配有 2,700 个专家标注的多项选择问答对。该数据集被划分为短(<2 分钟)、中(4–15 分钟)和长(30–60 分钟)三个子集,支持对时间可扩展性的详细分析。
LongVideoBench 聚焦于长上下文的多模态推理。该基准包含 3,763 个最长达 1 小时的视频和 6,678 个标注问题,涵盖 17 个类别。该基准强调细粒度的时间检索和局部事件推理,非常适合评估绝对时间理解能力。
LVBench 是最具挑战性的长视频理解基准之一,视频平均长度超过 4,000 秒。它提供了 1,549 个问答对,涵盖多个任务,如实体追踪、时间定位和因果推理,为时间感知的视频建模提供了全面的测试平台。
实现细节 本文采用 Qwen2.5-VL(7B 和 72B)作为基础模型。为确保公平比较和可复现性,本文使用公开发布的检查点,并按照其官方技术报告重新评估所有基准。本文的 DATE 也遵循相同的设置。
在评估中,基础模型采用统一的采样率 4 FPS,分辨率设为 448(最长边),在所有基准中最多输入 256 帧。所有实验均在 Nvidia A100-80G GPU 上进行。
对于本文提出的 TASS,本文使用 deepseek-v3 进行标题生成。随后,对所有视频以 1 FPS 的速度提取帧,并使用生成的标题计算视觉-文本相似度得分。视觉-文本相似度使用 CLIP ViT-B/32 模型计算,以实现语义感知的帧筛选。
在 TASS(时间感知相似性采样)模块中,本文将选择比例系数设为 ,并将时间间隔约束初始值设为 秒。
与当前最先进方法的比较 本文将提出的方法 DATE 与多个当前最先进的闭源和开源视频多模态大模型(MLLMs)在多个长视频基准上进行了比较,结果如下表 1 所示。

与其他小规模视频 MLLMs 相比,DATE 在所有基准上都实现了持续的性能提升:在 Video-MME(Overall)上比此前最好的模型(Qwen2.5-VL)提升了 ,在 LongVideoBench(val)上提升了 ,在 LVBench(一个极长视频基准)上提升了 。
此外,本文的方法(256 帧)甚至在 LongVideoBench 和 LVBench 上超越了 Qwen2.5-VL-72B(768 帧)模型。
这些提升表明 DATE 拥有更强的时间建模能力,尤其在处理极长视频时表现出色。结果表明本文的方法能够有效注入时间线索,帮助模型聚焦于语义上重要的时刻,从而实现更稳健的长距离推理。
与事件感知任务的比较 为了更好地理解 DATE 在建模时间和事件中心信息方面的优势,本文在 Video-MME、LVBench 和 LongVideoBench 的细粒度子任务上进行了详细比较,如下图 5 所示。

本文的 DATE 在准确事件定位方面表现出显著优势。如下图 1 所示,DATE 即使只使用 12 帧,也能准确识别事件发生的具体时间点,甚至如采样图中标注的采样顺序所示,仅用一帧也能准确采样关键时间点。

而基线模型即使在 256 帧下仍表现出明显偏差。这验证了本文提出的时间建模和语义驱动采样策略在长视频理解中的有效性与鲁棒性。下图 4 也展示了基准中的一些案例。

本文进行了全面的消融实验,以评估 DATE 中的两个核心组件:时间戳注入机制(Timestamp Injection Mechanism, TIM)和时间感知相似性采样(Temporal-Aware Similarity Sampling, TASS),实验在 Video-MME、LongVideoBench 和 LVBench 上进行,结果见下表 2。

为了进一步分析本文采样方法的有效性与效率,本文将 TASS 与 CVPR’25 提出的最新方法 Adaptive Keyframe Selection(AKS)在不同帧率(从 16 到 256)下进行了比较。如下表 3 所示,TASS 在几乎所有帧数设置下均优于 AKS,特别是在较低帧数下(例如在 16 帧时提升了 ),同时在相同设备(Intel Xeon Platinum 8336C(2×32 核,2.3 GHz)CPU)上实现了相当甚至更快的采样时间。

这些结果突出了本文采样设计的效率与有效性。此外,TIM 一贯优于简单的“timestamp-in-prompt”方法,表明将时间线索直接嵌入 token 空间比依赖隐式提示描述更能有效地将时间感知注入多模态大模型中。
为了研究时间信息对视频理解的影响,本文可视化了基线模型与带有时间戳 token 的 TIM 的注意力图。该实验基于上图 1 中的问题进行,输入为 12 帧视频。由于 Qwen2.5-vl 每 2 帧合并一次,共嵌入 6 个时间戳 token。
如下图 6(左)所示,基线模型表现出相对分散的注意力模式,表明模型主要依赖于序列中的基于内容的相似性。相比之下,DATE 的注意力图(下图 6,右)显示出明显不同的模式。值得注意的是,与时间戳对应的视频 token 获得了显著更高的注意力,说明时间戳 token 起到了时间锚点的作用,使模型能够将特定时刻与更广泛的视频内容关联起来。

此外,时间戳 token 引入的显式时间线索似乎提升了模型定位帧信息的能力。通过为整个序列的内容聚合提供一个时间参考框架,模型增强了对单个视频片段的上下文理解。
如下图 7 所示, 控制候选帧的数量,作为一种有效的过滤机制,用于去除干扰信息,在设置为 4 时达到最佳性能; 限制采样的初始时间范围,展示了算法的稳定性,无论初始化如何都能良好采样,确保帧之间的连续性并增强关键事件的覆盖率。实验结果表明,在适当配置下,TASS 在效率与时间感知之间实现了良好平衡。

DATE,旨在增强多模态大语言模型(MLLMs)对长视频中的绝对时间理解与事件定位能力。通过时间戳 token 注入机制(TIM)与语义驱动的关键事件采样策略(TASS),本文方法在不修改模型权重的情况下,构建了一个显式且连续的时间坐标系统。
在多个长视频基准上的大量实验表明,DATE 显著提升了模型识别与对齐时间相关事件的能力。本文的发现强调了精准时间建模在长视频理解中的重要性,并为预训练 MLLMs 的高效推理时增强开辟了新方向。
[1] DATE: Dynamic Absolute Time Enhancement for Long Video Understanding
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!