作者:Hangjie Yuan等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2507.08801 项目链接:https://github.com/alibaba-damo-academy/Lumos
Lumos-1 生成的示例可视化。Lumos-1 支持文本到图像、图像到视频和文本到视频任务
亮点直击
Lumos-1的设计理念:首先介绍MM-RoPE,它使LLM能够更好地感知时空以建模视觉数据。接着介绍AR-DF,它实现了有效的训练和推理。最后介绍实现Lumos-1的关键技术,包括架构、内存友好技术等。
3D RoPE的初步设计。当代LLM的一个实际设计是RoPE技术,其总体目标是通过旋转矩阵编码绝对位置,同时在注意力机制中融入显式的相对位置依赖关系。这可以表示为:
其中, 为嵌入 编码位置 以获取查询特征( 的定义类似); 是定义查询向量与键向量内积的函数,显式编码相对位置 。函数 的结果形式可表示为:
其中, 是投影矩阵; 是具有预定义参数 的旋转矩阵,其中 作为嵌入的维度, 作为基频。在此公式下,注意力计算可重写为:
其中, 的详细公式可通过基础旋转矩阵 表示,其中 为频率, 为相对位置。
然而,考虑到视觉标记的时空相关性,将原始RoPE应用于视觉数据建模仍不够理想。扩散模型这一流行生成模型通过提出3D RoPE改进该技术,在注意力计算中联合注入时空潜在坐标,并证明了其有效性。若我们稍作符号简化,将和表示为和,则可基于3D RoPE将公式(1)的注意力计算表示为:
其中,和表示编码时间、高度和宽度相对位置的起始和结束维度索引;表示从中提取行索引为的子矩阵;其他矩阵类似定义。
3D RoPE的初步探索。首先将3D RoPE引入自回归视频生成进行初步探索。由于验证损失与评估指标强相关,用它来观察效果。默认使用交叉熵损失(C-Loss),遵循标准LLM训练目标。如下图2所示,比较了原始LLM RoPE与三种方案:
下图3(a)显示:
剖析3D RoPE及其局限性。尽管3D RoPE实践有效,但其设计仍非最优。图3(b)可视化频率如何分配给时间、高度和宽度维度:时间通道主导高频段,而高度和宽度通道被分配至近零频率。对于正弦函数,相对位置τ(当τ≥0)不应超过一个周期以避免歧义,因为超过2π弧度会导致函数模式重复。超出此范围,模型无法区分细粒度位置差异。低索引通道的嵌入旋转速度显著快于高索引通道(图3(c)),导致加速混叠和嵌入唯一性丧失;高索引通道旋转过慢,缺乏足够分辨率建模细微局部变化。此外,高度和宽度虽对称重要,却占据不成比例的小且不同的频段,削弱其捕捉空间细节的能力。
MM-RoPE:分布式缩放3D RoPE机制。为优雅解决上述限制,本文提出MM-RoPE——分布式3D RoPE机制。相比视觉语言模型广泛采用的M-RoPE,MM-RoPE核心思想是为所有3D信息在全面频谱范围内编码相对位置。如前面图2(b)所示,MM-RoPE中文本标记的RoPE遵循标准LLM设计,而视觉标记的RoPE由多个元MM-RoPE组件构成。每个元MM-RoPE内保持3D信息比例与3D RoPE相同(即2:3:3),同时最小化总维度以维持分布式设计。具体而言,我们首先分配时间信息通道,然后对称交错高度和宽度通道建模空间信息。首个元MM-RoPE的注意力计算可表述为
其中每个元MM-RoPE组件包含16个通道;其他组件类似定义,共同构成视觉标记的RoPE策略。
此外,对于联合处理文本和视觉标记的模型,两种模态间的相互作用对确保视觉-语言对齐至关重要。然而,表示文本或视觉数据的位置范围往往不同。尽管视觉数据的潜在分辨率较低(例如448×256×25的视频经过8×8×4压缩后变为56×32×7),当代视觉生成系统通常使用极长描述性标题进行训练。为平衡两种模态,本文提出缩放3D位置以确保均衡学习。具体而言,我们通过乘以压缩比将潜在3D位置经验性地缩放至RGB空间,如下图5(a)所示。这一简单缩放操作从另一角度通过略微加快旋转速度提升了视觉标记的RoPE分辨率。实验部分证明其有效性,从而表明从RoPE角度平衡两种模态的重要性。
然而鉴于视频的自回归生成特性,这种缩放可能并非最优解。更先进的解决方案留待未来工作。
最朴素的生成范式(即下一标记预测)存在生成效率低下的问题,使其不适用于自回归视觉生成。本文采用离散扩散技术生成视觉内容,并结合时序因果依赖实现时序自回归生成范式。但由于Lumos-1的自回归特性,原始随机掩码(全局随机掩码)或时序独立掩码(扩散强制)均会导致显著的损失不平衡——后期帧的视觉标记往往具有更低损失。由于在充足历史帧上下文条件下预测帧的任务难度远低于根据文本提示预测首帧或根据首帧预测第二帧,模型会倾向于优化更简单任务,导致时序学习退化。
训练方案。为解决该问题,本文基于视频的基本特性——空间信息冗余展开研究。训练期间损失不平衡的核心问题源于空间信息泄漏。值得注意的是,采用扩散强制的原始视频扩散Transformer未遭遇此问题,因其使用双向依赖。面对这一挑战,我们提出自回归离散扩散强制(AR-DF),该技术在自回归视频生成训练中采用时域管状掩码。对每个视频随机生成首帧掩码模式,并将该模式重复应用于后续帧。若将多模态标记序列表示为文本标记和视觉标记的组成,并采样掩码比率,则AR-DF中的训练掩码策略可表述为:
其中和分别表示单个潜在帧的标记数和中的潜在帧数;表示第帧的视觉标记;表示为训练准备的掩码多模态标记序列;表示哈达玛积;表示掩码模式;[MASK]表示掩码标记。准备完标记序列后,将其输入模型处理。为确保与当代LLMs的一致性及视频中的时序因果性,我们采用时序因果掩码进行注意力处理,如图5(b)所示。训练时使用交叉熵损失,并仅在未掩码标记上计算损失,记为,其中为模型处理后的标记序列。算法形式化见算法1。
推理方案。经过AR-DF训练后,最朴素的推理方案(即自回归生成视频帧)会导致显著的帧质量和运动退化。我们观察到这是由于推理与训练不一致所致:训练时后续帧始终能部分观测历史帧,而推理阶段未对齐该观测模式。因此,给定标题时,我们首先生成首帧(通过多步运行),然后随机替换生成图像中预定比例的标记为[MASK]标记。基于此部分观测图像推断模型,并缓存该图像的Keys和Values以实现快速推理。重复此过程直至生成完整视频。算法形式化见算法2。
架构 Lumos-1架构遵循Llama,默认集成RMSNorm和SwiGLU。为稳定训练,本文采用Chameleon的查询-键归一化(QK-Norm)。模型包含三个规模(0.5B/1B/3B),架构细节见附录。注意快速消融研究使用0.5B版本。
标记器 为统一视觉与文本标记处理,采用Cosmos标记器的离散版本,实现8×8×4的时空压缩率。文本标记保留Chameleon的文本标记器。因此Lumos-1总码本大小为129,536(65,536文本标记+64,000视觉标记)。
序列格式化 视觉标记与文本标记在序列中间隔排列,文本标记指定元数据(包括文本提示、视频分辨率、帧率及帧数)。借此设计,本文无需调整尺寸即可训练不同宽高比的图像和视频。
GPU内存友好实现 默认使用Flash Attention加速注意力计算,降低Lumos-1训练和推理时的内存开销。此外,观察到大型码本训练时GPU内存消耗显著,因此取消语言相关损失(如文本的下一标记预测),将最终logit矩阵尺寸缩减至仅匹配视觉标记。虽然文本标记嵌入(将文本索引映射为嵌入)仍可训练,此举使模型聚焦视频生成。若目标为支持语言模态的统一模型,可重新添加该损失。最后,针对129K标记类型的损失计算存在极高内存消耗(易引发内存溢出),采用分块交叉熵损失:通过上转型并逐块计算softmax logits,保持完整softmax精度。默认分块大小为2,000,显著降低峰值内存使用。
分阶段训练 鉴于Lumos-1的自回归特性,视频生成训练可分为两项能力:1) 文本到图像;2) 单图/多图到视频。尽管AR-DF训练大幅缓解学习不平衡问题,仍观察到后者任务相对更易。因此需分阶段训练确保视频生成成功:
数据集:
训练、推理与评估:
文本到图像生成(下表1):
图像到视频生成(下表2):
文本到视频生成(下表3):
定性视觉对比 本文在下图6中将Lumos-1与主流视频生成方法进行对比。对于文本到视频(T2V),我们的384p视频在视觉质量上不逊色于LTX-Video的512p视频。在提供的案例中,Lumos-1生成了更自然的运动(水波)且更贴合提示词(穿红色衣服的滑雪者和波浪)。对于图像到视频(I2V),Lumos-1在多物体(示例1中的多个漂浮热气球)和细粒度运动(示例3中海岸线周围的细微涟漪)处理上显著优于Stable Video DiffusionSVD),后者仅生成全局相机运动。在示例2中,SVD产生了明显模糊,而Lumos-1实现了物体的平滑动画。更多可视化结果见附录。
AR-DF训练中时序管掩码的有效性 在图7(a)中,比较了使用全局随机掩码和时序管掩码时的逐帧验证损失(帧0、3、6)。训练掩码比例ρ均按MAR设置为0.7。对于随机掩码,帧6的损失迅速下降并低于较早帧。这种急剧下降表明存在显著的信息泄漏:模型可以通过关注相邻帧中未掩码的标记来重建掩码标记,而非建模真实的时序动态,使得任务过于简单。对于时序管掩码,帧6的难度最高,因为相同空间位置的像素在时间轴上全部被掩码,消除了随机掩码的捷径。随着迭代进行,帧间差距逐渐缩小并最终趋于平稳,证明模型学会了通过时间传播信息而非复制信息。
AR-DF推理掩码的作用及对ρ的敏感性 AR-DF在推理时需要保持与训练相同的部分上下文掩码;省略这些掩码会严重损害质量。在下图8(b)中,我们观察到“无推理掩码”设置会产生可见伪影和闪烁,而使用掩码则能保持连贯性。在图8(a)中,选取VBench中的两个指标(成像质量和动态程度)定量评估ρ的影响。ρ在0.3至0.7之间的广阔平台区域可生成平滑、视觉愉悦的视频。当ρ低于0.3时,上下文不足会导致模型在运动和单帧质量上均退化,从而推高动态程度值。当ρ高于0.7时,过度掩码会破坏时序连续性,同样推高动态程度值。我们经验性地将ρ设为0.7以确保明显运动。
MM-RoPE的有效性。下图7(b)展示了0.5B模型在四种RoPE设置下的验证损失。需注意,M-RoPE表示两种设计均被移除。可以观察到,MM-RoPE始终收敛更快且稳定在最低损失,证实了其对细粒度时空信息建模的优势。尽管单独移除任一组件均会提高损失,但移除分布式设计的负面影响大于移除缩放位置设计,表明全面的频率分配是主导因素。同时移除两种增强会导致最慢收敛和最高平台期,说明这两种机制在高效视频生成中具有互补性。
MM-RoPE中元MM-RoPE数量的影响。MM-RoPE将嵌入通道划分为若干元组。更多元组意味着某一类信息(时间、高度或宽度)能获得更广谱的频率建模。下图9(a)绘制了0.5B模型在四种设置下的验证损失:
结果证实,通过增加元MM-RoPE数量拓宽各维度频谱,能显著提升时空建模和整体训练效率。
MM-RoPE中缩放因子的影响。上图9(b)展示了MM-RoPE中时间、高度和宽度位置信息建模缩放因子变化时的验证损失曲线。两个明显趋势:从→→逐步降低曲线,但进一步扩大至或无额外增益,因三条曲线在训练中几乎重合。因此,中等缩放足以平衡视觉-语言范围并充分发挥高分辨率RoPE的优势,同时避免不必要的频率膨胀。故采用作为MM-RoPE的默认缩放。
MM-RoPE的推理开销分析。与M-RoPE类似,MM-RoPE需定位视觉标记起始位置后应用RoPE机制,需少量计算。表4对比了使用标准1D RoPE、M-RoPE和MM-RoPE生成图像和视频的推理速度。可观察到:1)相比1D RoPE,引入3D先验仅增加3.5%-4.1%推理延迟;2)相比M-RoPE,MM-RoPE未引入额外延迟。
CFG缩放的敏感性分析。前面图7(c)使用1B模型研究了引导缩放对GenEval的影响。发现缩放值在13至16(默认值)区间内效果良好。
对宽高比的鲁棒性。尽管训练数据宽高比多为7:4,但表5显示Lumos-1 1B因统一码本设计能很好适应不同宽高比的视觉生成。
Lumos-1,一种利用LLM架构的自回归视频生成模型。本文提出MM-RoPE以改进时空动态建模,并提出AR-DF以在考虑帧内双向性和帧间时序因果性的前提下实现高效训练与推理。期待Lumos-1成为构建基础统一模型的重要一步。
[1] Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。