作者:Longbin Ji等
解读:AI生成未来


图1 VideoAR通过文本提示生成高保真且时间一致的视频
亮点直击

图2 视频增强现实的整体框架。给定文本提示时,视频帧首先通过多尺度因果3D分词器压缩成一系列时空标记。每个帧由多尺度的残差映射表示,这些映射通过带有分块因果掩蔽的变换器进行自回归预测。输入嵌入结合了文本符号、累积的视频特征和尺度嵌入,而提出的多尺度时间RoPE编码时间、空间和尺度感知的位置信息。在训练过程中应用随机帧掩蔽以减轻暴露偏差并提升长期一致性。最后,多尺度视频解码器根据预测残差重建视频帧。
VideoAR 框架结合了视觉自回归 (VAR) 建模与下一帧预测的优势,旨在实现高效且高质量的视频生成。该流程主要由两个部分组成。首先,介绍了一种 **3D 视频分词器 (3D Video Tokenizer)**,它将原始视频压缩为紧凑的离散表示,同时保留空间和时间结构。该分词器是实现可扩展和高效建模的基础。其次,设计了一个基于多尺度残差预测的 自回归视频模型,其中时间一致性通过本工作提出的训练策略得到进一步增强。
3D 架构为了更好地捕捉时空相关性,本工作采用因果 3D 卷积架构,这使得分词器能够在统一的框架内处理图像和视频。具体而言,带有时间下采样的 3D 卷积编码器将输入视频 压缩为紧凑的时空潜在表示 ,其中 表示时间压缩因子。这种设计利用了相邻帧之间固有的冗余,在保持保真度的同时实现了高效的视频建模。
为了进一步扩展到长视频生成,本工作从编码器和解码器中移除了所有非因果时间操作(例如时间归一化),确保每个潜在特征仅依赖于过去的帧。这种因果设计使得极长视频的推理能够以分块(chunk-by-chunk)的方式进行,而与全序列推理相比没有任何性能损失。
量化 (Quantization)考虑到本工作的时间因果建模,本工作利用了时间独立的量化方法,其中每一帧都通过独立的多尺度量化器进行处理。
训练 (Training)为了实现视频分词器的高效且稳定训练,本工作采用 3D 膨胀 (Inflation) 策略,即从训练良好的图像分词器初始化模型。这种初始化提供了强大的空间先验,大幅稳定了优化过程并加速了收敛。具体而言,遵循 [34] 中的膨胀过程,本工作使用图像分词器的权重填充 3D CNN 在时间维度上的最后一个切片,而其余的时间参数和判别器则随机初始化。
分词器通过一组标准的互补目标函数进行训练。本工作在每一帧上应用重构损失、感知损失和承诺损失 (commitment loss)。遵循 [33],本工作使用 LeCAM 正则化以提高稳定性,并使用熵惩罚以鼓励码本的利用率。
整体训练目标公式如下:

其中 为不同目标的平衡权重。这种训练方案确保分词器学习到紧凑且富有表现力的时空表示,有利于重构保真度和下游的自回归视频生成。
扩展至 3D 架构基于本工作 3D 分词器提取的时空特征,本工作将视觉自回归 (VAR) 范式从图像扩展到视频。具体来说,Transformer 基于所有先前生成的帧、当前帧的较粗尺度以及文本提示,自回归地预测第 帧的残差:

其中 表示所有过去帧的多尺度残差图, 表示第 帧已经生成的较粗尺度的残差。第 帧在尺度 处的输入特征构建如下:

其中 和 分别表示空间上采样和下采样。
为了初始化生成,第一帧第一尺度的特征(图2中的 )被设置为一个特殊的 <SOS> token 嵌入,从而实现文本条件生成。对于随后的帧 (),第一尺度的特征 () 从前一帧的累积特征初始化,将时间上下文注入到下一帧的生成中。
多尺度时间 RoPE为了更好地捕捉时空依赖性,本工作引入了 多尺度时间 RoPE,这是旋转位置嵌入 (RoPE) 的扩展,通过将嵌入空间分解为三个轴——时间、高度和宽度。多尺度时间 RoPE 的设计原则有三点:(1) 与文本 token 的原生 RoPE 公式兼容;(2) 显式的时间感知;(3) 跨帧多尺度输入的空间一致性。
给定包含文本提示 和视频 token 的多模态输入,本工作为文本 token 分配相同的时间、高度和宽度索引以保持与 RoPE 的兼容性。令 表示第 帧在尺度 且空间位置 处的 token,其中 且 。位置编码定义为:

其中空间索引 在各帧之间保持一致,而时间索引随 增加以保持顺序。此外,添加了一个可学习的尺度嵌入 以区分自回归生成过程中的从粗到细的尺度。
时间一致性增强自回归视频生成遭受误差累积的影响:随着 的增长,由于训练-测试差异,质量会下降。本工作采用两种互补策略来缓解这一问题:带有时间爬坡调度(time-ramped schedule)的 跨帧误差修正,以及带有因果滑动窗口的 随机帧掩码。
跨帧误差修正遵循 Infinity 中的按位(bitwise)公式,本工作将 中的每个 token 表示为 个比特 。 为了应对沿扩展帧序列的误差传播累积,本工作引入了 **时间依赖性破坏 (time-dependent corruption)**,通过注入翻转率(flip ratios)逐渐增加的扰动,从而模拟推理时的情况(见图 3)。

图3 本文提出的跨帧错误更正
此外,由于每一帧最终尺度的误差不可避免地会传播到下一帧的第一尺度,本工作提出了 跨帧误差继承 (cross-frame error inheritance) 机制。具体而言,每一帧第一尺度的翻转率被初始化为前一帧最终尺度翻转率之上的一个范围内。通过强制模型在第一尺度即修正这些继承的扰动,本工作的训练过程增强了时间鲁棒性,并显著减轻了前一帧误差对后续生成的影响。

其中 表示异或, 表示增加翻转范围的因子。模型以被破坏的历史为条件,并由带有重新量化误差的自校正目标进行监督,从而提高了对复合错误的鲁棒性。
随机帧掩码设注意力窗口大小为 。对于每一步 ,本工作构建一个随机因果上下文 ,其中独立同分布 。用 表示文本键/值,用 表示来自 中帧的视频键/值。第 帧的注意力输出为:

这在保留必要的时间上下文的同时,抑制了对远距离帧的过度依赖。
多阶段训练流程 (Multi-Stage Training Pipeline)遵循 Infinity,本工作的训练目标定义为预测残差图 与真实值 之间的按位交叉熵损失。为了在长视频、高分辨率视频中实现稳健的时间一致性和高质量合成,本工作采用渐进式多阶段训练策略。
时空自适应无分类器引导 (Temporal-Spatial Adaptive Classifier-free Guidance)在测试阶段,本工作利用缓存状态在 上执行因果解码以确保效率。为了平衡语义保真度和时间一致性,本工作引入了一种应用于逻辑 (logits) 的 **时空自适应无分类器引导 (CFG)**,从而能够在不同的模型设置下灵活控制文本对齐和时间动态。 经验上,本工作观察到较大的引导系数会导致生成的视觉质量提高以及帧间的动态性增强,而较小的系数则产生更稳定的时间过渡和更大的采样多样性。因此,本工作不仅沿尺度调整空间 CFG (spatial-CFG),还在预选的调度器中设定了第一尺度的 CFG 时间起始点。
数据集本工作在多样化的基准测试集上进行了实验,涵盖了低分辨率的玩具数据集和高分辨率的真实世界长视频生成。对于短视频生成,本工作使用 UCF-101(包含 8K 个视频片段,101 个动作类别)作为人类动作建模的标准基准。对于长视频和开放域场景,本工作在专有的内部数据集上进行了大规模预训练和评估。所有视频均被统一调整大小至 ,并根据数据集在时间上采样至 帧。
评估指标本工作从两个维度评估模型:重构质量和生成质量。对于重构,本工作报告 Fréchet Video Distance (rFVD),它直接反映了所学习到的视频分词器(tokenizer)的保真度。对于生成质量,本工作测量 UCF-101 的留出(held-out)以人为中心的测试集上的 gFVD。此外,为了评估真实世界的生成性能,本工作在标准的 VBench上进行评估,该基准提供了一套专门为视频生成模型设计的综合感知和时间指标。
视频重构自回归视频生成模型的有效性在很大程度上取决于其底层视频分词器(Tokenizer)的质量和紧凑性。本工作通过报告重构 Fréchet Video Distance (rFVD) 来评估这一方面。表 2 展示了在 UCF-101 数据集上的对比分析,证明了本模型在压缩效率和重构保真度之间取得了卓越的平衡。
本工作的 VideoAR-L 分词器采用了激进的 16 倍空间压缩,将视频片段编码为紧凑的 潜在 token 网格。与 MAGVIT和 OmniTokenizer等最近的最先进视频分词器(均仅以 8 倍压缩运行)相比,这种设计使序列长度减少了 4 倍。尽管 token 密度大幅降低,本工作的分词器仍保持了出色的重构质量,实现了 ,与 MAGVIT (58) 持平。这一结果突显了本工作分词器在保留细粒度空间和时间结构方面的有效性,为下游自回归视频生成奠定了强大而高效的表示基础。

UCF-101 上的视频生成本工作的 VideoAR 框架在 UCF-101 数据集上建立了新的技术水平(State-of-the-Art),标志着在实现卓越生成质量和前所未有的推理效率方面的范式转变。如表 3 所示,本工作的 20 亿参数模型 VideoAR-XL 实现了新的最佳 ,超过了之前领先的自回归模型 PAR-4x()达 11%。即使是本工作较小的 926M 模型 VideoAR-L,也以 90.3 的 FVD 优于它。然而,最显著的进步在于推理速度:仅需 30 个解码步骤(减少了超过 10 倍),VideoAR-L 仅需 0.86 秒即可生成视频,实现了比 PAR-4x 快 13 倍以上的推理速度。
这种双重进步直接源于本工作的架构创新。通过帧内视觉自回归保留了高保真的空间细节,同时保证了稳健的时间一致性。
真实世界视频生成为了进一步验证本方法的有效性和可扩展性,本工作在具有挑战性的真实世界视频生成任务上预训练了一个 4B 参数的 VideoAR 模型。如表 1 所示,本模型获得了 81.74 的总体 VBench 分数,实现了与当前规模大得多的最先进模型(如 30B 的 Step-Video-T2V 和 13B 的 Hunyuan-Video)相当甚至更好的性能。

通过对 VBench 指标的细粒度分析,揭示了本模型的主要优势。特别是,VideoAR 实现了新的 SOTA 语义评分 (Semantic Score, SS) 77.15,超过了所有竞争对手。这一结果凸显了其在保持精确的文本到视频对齐方面的卓越能力。在保持具有竞争力的通用视觉质量指标(如美学质量 AQ 和整体一致性 OC)的同时,这些在语义和运动方面的优异表现清楚地展示了本模型的独特优势。
定性结果(图 4 和补充材料)进一步证实了定量改进。VideoAR 始终如一地生成视觉上引人注目且语义连贯的视频,涵盖富有想象力的艺术风格化、高保真自然场景以及具有强时间一致性的动态人类动作。


至关重要的是,这些结果证实了本工作的 VideoAR 策略为基于扩散的范式提供了一个引人注目的替代方案。它达到了 SOTA 级的性能,特别是在语义控制和运动描绘方面,同时提供了提高可扩展性和显著更高推理效率的强大潜力。
图生视频与视频续写作为一种自回归视频生成模型,本工作提出的 VideoAR 可以直接从前面的内容(包括初始图像和序列帧)扩展未来的帧,而无需外部微调。为了进行评估,本工作从 VBench-I2V 中采样了几个测试用例。本工作展示了多个图生视频 (I2V) 和视频到视频 (V2V) 的示例,其中 VideoAR 实现了单镜头或多镜头连续视频生成。如图 5 所示,VideoAR-4B 在各种设置下准确遵循与输入图像对齐的语义提示,包括对象运动控制和相机轨迹调整。对于视频连续性任务,VideoAR 可以在多次迭代中生成自然且一致的内容,最终生成持续时间超过 20 秒的长视频。




本工作在 UCF-101 数据集上进行了全面的消融研究。所有模型均训练固定的 1,000 步,这足以揭示模型性能的清晰趋势。
多尺度时间 RoPE 的影响 (Effect of Multi-scale Temporal RoPE)本工作的第一个增强是将标准位置编码替换为多尺度时间 RoPE。如表 4 第二行所示,这一单一修改将 FVD 从 96.04 降低到 94.95。这一结果凸显了旋转相对位置编码对于建模视频数据的复杂时空动态的重要性,从而提高了帧与帧之间的一致性。

时间一致性增强的影响 (Effect of Temporal-Consistency Enhancement)接下来,本工作评估了提出的跨帧误差修正机制,该机制由两个协同组件组成。(1) 本工作首先激活时间依赖性破坏 (Time-dependent Corruption),这是一种在训练期间模拟推理时条件的数据增强策略。这一添加进一步将 FVD 降低到 93.57。(2) 在此基础上,本工作结合了误差继承初始化 (Error Inheritance Initialization),它鼓励模型修正继承的扰动以改进未来的预测。这最后一步产生了本工作的完整模型,实现了 92.50 的 SOTA FVD。
随机帧掩码 (Random Frame Mask) 的进一步消融是在本工作的大规模真实世界数据集上进行的,因为对小数据集 UCF-101 进行强增强可能会阻碍模型收敛。如表 5 所示,在 256px 训练阶段结合此技术将整体 VBench 分数从 76.22 提高到 77.00。

与同期工作 InfinityStar 的比较本工作强调了与 InfinityStar相比的几个关键差异。
(1) 时空建模范式 (Spatio-temporal Modeling Paradigm)。 InfinityStar 采用 3D-VAR 公式,其中每个生成块都在帧的时间窗口上运行。相比之下,本工作的 VideoAR 采用了下一帧预测范式,并结合了每一帧内的多尺度建模。这种设计通过结构化的从粗到细生成实现了细粒度的空间建模,同时通过显式的逐帧预测保持了时间一致性。
(2) 训练策略 (Training Strategy)。 InfinityStar 是从完善的 8B 规模图像生成基础模型微调而来的,受益于强大的预训练先验。相比之下,本工作的 VideoAR 是使用联合低分辨率图像-视频数据从头开始训练的,专注于从头开始学习统一的时空表示。
(3) 训练规模和序列长度 (Training Scale and Sequence Length)。 此外,VideoAR 使用相对适中的序列长度进行训练,主要是出于现阶段实际训练的考虑。因此,尚未详尽探索长视界的时间连贯性。然而,所提出的框架对序列长度没有固有的限制,并且与更长上下文的训练完全兼容。随着训练规模和序列长度的增加,本工作预计在长期一致性方面会有进一步的收益。
VideoAR,这是一种基于下一尺度预测原则的可扩展自回归视频生成新范式。通过将 VAR 框架扩展到视频领域,VideoAR 通过因果 3D 分词器和基于 Transformer 的生成器统一了空间和时间建模。所提出的多尺度时间 RoPE 增强了时空表示学习,而跨帧误差修正和随机帧掩码有效地缓解了累积误差并提高了长视频生成的稳定性。广泛的实验表明,VideoAR 不仅实现了最先进的 gFVD (88.6) 和 VBench (81.7) 分数,而且与现有的 AR 基线模型相比,推理速度提高了 13 倍。这些发现凸显了自回归建模作为基于扩散方法的一种实用且强大的替代方案,为高效、大规模的视频生成铺平了道路。
[1] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction