作者:Weinan Jia、Yuning Lu等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2510.18692 项目链接:https://jiawn-creator.github.io/mixture-of-groups-attention/

MoGA 生成的一分钟视频
亮点直击
MoGA 通过高效的 token routing来解决上述挑战,其中一个轻量级、可训练的router将相关的 token 分配到各个组中,并在每个组内执行自注意力。该router是一个线性投影层后接一个 softmax 门控,类似于 MoE。给定一个token 和一个预定的组数量 ,router计算路由分数 的公式为:

组分配概率的计算公式为:

token被分配给概率最高的组:

在组分配之后,在每个组内独立地应用自注意力。MoGA的输出

其中 和 是组 的键和值, 是查询特征 的查询。这种分组注意力机制将计算复杂度从 降低到均匀分组分配下的理论最小值 。
如下图3所示,在视频生成过程中从一个中间层的router提取分组分配情况,并可视化了一个代表性组。经过端到端训练后,router将人物的头部、手部和部分衣物分配到同一组,这表明其能够捕捉跨越镜头边界的语义连贯结构。

MoGA 建立在分组注意力的基础上,并保持与高性能内核(如 FlashAttention)的兼容性(参见算法 1)。除了稀疏注意力之外,长上下文建模的第二个支柱是序列并行性,MoGA 也与之兼容。在每个注意力层的序列收集和头部分散步骤之前,MoGA 计算token(包含完整的头)的路由分数,然后跨所有 token 聚合路由结果。
组平衡损失。token分配的一个潜在问题是router可能崩溃,将大多数 token 仅路由到少数几个组,这将使 MoGA 退化为完全注意力。为了鼓励跨组的自适应token分配,引入了一个辅助的组平衡损失,其灵感来源于 MoE 中使用的负载平衡损失。该损失定义为:

其中 是损失权重, 是分配给组 的tokens比例,

其中 是指示函数, 是分配给组 的平均routing概率

最小化 鼓励跨组的token均匀分配,因为该目标在均匀分布下达到最小值。
时空分组注意力。尽管 MoGA 捕捉长程连贯性,但它缺乏局部连续性。使用局部时空分组注意力对其进行补充,该机制将自注意力限制在潜在视频空间中的局部窗口内,如下图 2(a) 所示。这以有限的计算量捕捉短程依赖。

首先将潜在视频划分为固定的空间窗口,然后沿时间轴对帧进行分组。来自不同镜头的帧被分配到不同的时间组。通过实验发现,完全移除镜头间的交互会导致镜头切换后的第一帧出现闪烁。为了缓解这个问题,在计算分组注意力时,用来自相邻镜头的两个潜在帧来增广键和值(而不增广查询)。这在镜头边界处保持了连续性,且额外计算量可忽略不计。为了实现帧内信息交换,还通过在每个潜在帧内对 token 进行分组来执行逐帧注意力。因此,每个 token 接收来自多个组(一个动态组和两个静态组)的输出,我们取它们的平均值作为最终输出。
构建了一个 Pipeline ,将原始长视频转换为一分钟、多镜头的片段,并带有密集标注,用于长视频生成。该 Pipeline 有两个阶段:视频级阶段和镜头级阶段(下图 4)。

视频级。首先使用视觉质量评估模型(例如,美、清晰度、曝光度)和简单操作符(例如,黑边检测)分析原始视频,以获取元数据和质量分数。然后,我们使用针对特定来源校准的阈值过滤原始视频,以移除低质量内容。由于长视频样本需要时间连贯性,放宽了片段级过滤,同时在来源(原始视频)级别应用更严格的过滤。接下来,使用 AutoShot和 PySceneDetect将每个视频分割成单镜头片段。AutoShot 对淡入淡出和渐变过渡显示出更高的敏感性。结合两种工具的预测结果,使我们能够标记一个边界是清晰的还是受到过渡重叠的影响。此阶段产生一个单镜头片段的池。
镜头级。使用 VQA 和光学字符识别模型处理单镜头片段,并丢弃低质量片段。基于 OCR 结果,计算一个最大区域裁剪,以排除水印和字幕,同时保留原始宽高比。保留区域不足的片段将被丢弃。接下来,使用多模态大语言模型为裁剪后的片段生成字幕。最后,将时间上相邻的单镜头片段合并成多镜头训练样本(最多 65 秒),并从受过渡重叠影响的片段中修剪掉几帧,以确保边界清晰。
训练设置。在现有的基于 DiT 的短视频生成模型上使用修正流目标对 MoGA 进行微调。为了与基线进行公平比较,我们在开源 Wan2.1 模型(1.3B 和 14B)上训练 MoGA。所得模型能够稳定生成 477 帧、16 fps(30 秒)、480p 分辨率的视频,上下文长度为 187k。使用 的恒定学习率。损失权重 设为 0.1。将组数设置为 ,并将空间网格划分为 组。采用多阶段训练策略:在 10 秒片段上训练 3k 步,随后在 30 秒片段上训练 1k 步。
由于 MoGA 是一种通用的稀疏注意力,也将其应用于基于 MMDiT构建的视频生成模型。与 Wan 不同,该模型使用 MMDiT 替换交叉注意力来执行跨模态注意力。它将空间划分为 组,并将router的组数设置为 ,从而实现更长的上下文长度。这个基于 MMDiT 的模型生成 1,441 帧、24 fps(60 秒)、480p 的视频,上下文长度为 578k。
基线模型。为评估我们的方法,与多个基线模型进行了比较。对于多镜头长视频生成,纳入了基于关键帧的流程 IC-LoRA+Wan和原生支持多镜头生成的 EchoShot。对于稀疏视频生成,与稀疏注意力方法进行比较,包括基于训练的 DiTFastAttn 和免训练方法 SVG 与 VMoBA。
评估指标。遵循先前工作,使用 VBench引入的指标评估所有方法。具体而言,主体一致性和背景一致性衡量视频中采样帧的主体和背景的保持程度。运动平滑度衡量运动的流畅性,对抖动和突兀的过渡进行惩罚。我们还报告美学质量和图像质量,以量化每帧的视觉吸引力和技术保真度。为计算跨镜头一致性,我们首先从不同镜头中采样固定数量的帧。然后使用 CLIP和 DINOv2 计算跨镜头的特征相似度,分别称为跨镜头 CLIP 和跨镜头 DINO。对于单镜头 5 秒视频生成,构建了一个包含 300 个提示词的多样化测试集。对于多镜头 10 秒视频生成,本文使用来自 [38] 的 100 个多镜头提示词集。对于长视频生成,在一个包含 105 个提示词的 11 个脚本测试集上进行评估。每个脚本包含 8-10 个镜头以生成 30 秒的视频。
首先,将 MoGA 与先前的稀疏注意力方法在单镜头短视频生成上进行比较,遵循它们的评估设置以确保公平。如下表 1 所示,尽管稀疏度更高,但 MoGA 在所有指标上均比现有稀疏基线取得了一致的提升。值得注意的是,尽管我们的方法高度稀疏,但在多个指标上仍能匹配或超越原始 Wan(完全注意力)。

接下来,将 MoGA 与其他多镜头视频生成方法进行比较。下表 2 报告了 MoGA、IC-LoRA+Wan 和 EchoShot 之间的定量比较。尽管依赖于稀疏注意力,我们的方法在大多数指标上优于完全注意力基线(EchoShot),这表明保留显著 token 间的交互不仅能减少 FLOPs,还能抑制无关内容带来的噪声。这带来了更强的人物身份一致性和改进的时间场景连贯性。

最后,对长视频生成进行基准测试并与基线比较。由于很少有开源方法能生成 30 秒的多镜头视频,将 MoGA(具有两种骨干网络)与 IC-LoRA+Wan 进行比较。如下表 3 所示,在相同骨干网络下,MoGA 大幅优于 IC-LoRA+Wan,凸显了端到端建模相较于多阶段流程的优势。值得注意的是,即使在激进的稀疏度下,基于 MMDiT 的 MoGA 仍保持了高视觉保真度,表明其通向更长上下文长度的可扩展路径。

视觉比较。展示了跨代表性基线的 30 秒视频的定性结果。由于 EchoShot 无法原生生成 30 秒输出,将其生成的视频片段拼接以形成完整序列。如下图 5 所示,IC-LoRA+Wan 流程受限于其每次迭代的图像数量上限(通常为三帧),这限制了其覆盖更多镜头的能力。因此,随着序列的进行,它经常表现出主体漂移和背景不一致。

EchoShot 能够扩展到更多镜头,但在长时间范围上仍然显示出明显的跨镜头不一致性。相比之下,MoGA 在延长的持续时间内保持了稳定、连贯的内容。例如,即使没有在镜头间重复或明确指定,女士的帽子也始终保持一致。由于 STGA 缺乏显式的跨镜头信息交换,这种一致性可归因于 MoGA,它有效地选择并保持了跨越镜头的身份和上下文。
1,441 帧的一分钟视频。在下图 7 中,展示了基于 MMDiT 的 MoGA 模型()在超过一分钟的超长视频上的生成结果。MoGA 保持了强大的长程上下文一致性。第 1 个和第 22 个镜头保持高度连贯,并且女士的发夹和耳环等精细细节在镜头间得以保留。此外,即使有多个面孔出现在不同镜头中,模型也避免了身份混淆。

背景一致性的涌现。如下图 8 所示,展示了 MoGA 保持背景一致性的能力。在经过长的多镜头视频训练后,MoGA 展现出对环境与角色一致性的涌现性、隐性控制。即使没有明确指定细节(例如,橱柜形状和静脉输液瓶的位置),不同镜头也能自动保持连贯的、时间上一致的描绘。

多风格视频生成。下图 9 展示了 MoGA 的多风格生成能力。MoGA 不仅在写实领域表现强劲,在动画等风格化领域也表现出色。它能够生成高质量的长篇 2D 视频,同时在不同风格间保持时间连贯性、身份一致性和场景连续性。

计算效率。下图 6 绘制了 Wan2.1-1.3B 模型的组数 () 与 FLOPs 的关系。实验表明,即使对于 30 秒视频使用相对较小的组数 (),MoGA 与完全注意力相比也实现了显著的计算节省(2.26 PFLOPs 对比 6.94 PFLOPs)。它还在训练和推理中实现了 1.7 倍的加速。值得注意的是,与诸如 VMoBA 这类因其基于块的机制而产生额外内存开销的其他稀疏注意力不同,我们的方法保持了内存效率,而没有额外的内存消耗。

路由组数M: 在固定计算预算下对组数进行了消融研究(下表 4)。跨镜头 DINO 和 CLIP 分数随着组数的增加呈现出先上升后下降的趋势。这表明适度的分组稀疏性在全局一致性和效率之间取得了平衡,在保持计算效率的同时产生了接近最优的一致性。

主体一致性的可控性。下图 10 可视化比较了 MoGA 与完全注意力。两种模型均在 10 秒数据上使用 Wan2.1-14B 进行训练。左图展示了 MoGA 在多个场景中保持主体身份的能力,而右图展示了其在保持身份一致性的情况下对外观变化(例如,服装)的鲁棒性。尽管具有 71.25% 的稀疏度,MoGA 实现了与完全注意力相当的叙事连贯性和内容可编辑性,并且在某些情况下提供了更优的性能。

MoGA 与 STGA 的有效性。如下图 11 所示,MoGA 和 STGA 在实现上下文一致的长视频生成中扮演互补的角色。单独使用 MoGA 缺乏局部信息交换,无法生成有意义的视觉内容。相反,仅使用 STGA 限制了长程镜头交互,导致跨镜头一致性差和叙事连贯性减弱。当两者结合时,模型实现了强大的跨镜头一致性。这些结果表明,MoGA 以相对较低的计算成本有效地路由并保持了跨越镜头的身份和上下文。

MoGA,一种稀疏注意力机制,它通过轻量级 token router,用精确的、学习得到的分组分配取代了粗粒度的块级评分。通过将 token 路由到连贯的组中,MoGA 提高了超长上下文下的注意力效率和保真度。基于 MoGA,我们提出了能够生成分钟级别、多镜头、480p 分辨率、24 fps 视频的生成模型。在视频生成中的多样实验进一步证明了我们方法的有效性。
[1] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation