作者:Junshu Tang等
解读:AI生成未来

项目链接:https://hunyuan-gamecraft-2.github.io/ 论文链接:https://arxiv.org/pdf/2511.23429

Hunyuan-GameCraft-2将生成式游戏世界模型从静态游戏场景视频合成提升到开放式、遵循指令的交互式模拟。

合成交互视频Pipeline展示

Pipeline of the Data Curation System

Pipeline of the Caption Generation System
亮点直击
现有生成式世界模型在创建开放式游戏环境方面取得了进展,但仍存在以下限制:
文章提出了 Hunyuan-GameCraft-2,一种基于指令驱动交互的生成式游戏世界建模新范式。
Hunyuan-GameCraft-2 模型建立在以下技术之上:
通过广泛的实验和 InterBench 上的评估,Hunyuan-GameCraft-2 取得了以下效果:
本文提出了 Hunyuan-GameCraft-2,这是一个专注于自由形式指令控制的交互式游戏视频模型。整体框架如下图 5 所示。具体而言,本工作将自然的动作注入因果架构、图像条件自回归长视频生成以及多样化的多提示词交互统一到了一个紧密的框架中。本节将介绍模型架构、训练过程及推理过程。

本模型的主要架构基于一个 14B 参数的图生视频混合专家(MoE)基础视频生成模型。本工作的目标是将该图生视频扩散模型扩展为一个动作可控的生成器。动作空间包括键盘输入和自由形式的文本提示词。
对于键盘和鼠标信号注入(W, A, S, D, , Space 等),本工作采用了 GameCraft-1的方法,将这些离散的动作信号映射为连续的相机控制参数。在训练期间,标注的相机参数被编码为 Plücker 嵌入,并通过令牌相加(token addition)的方式集成到模型中。在推理时,用户输入被转换为相机轨迹以推导出这些参数。
关于基于提示词的交互注入,本文观察到基础模型难以表达某些交互性动词,这主要是因为交互文本相比场景描述具有更高的语义和空间复杂性。此类文本通常与特定的视觉区域或对象实例紧密耦合。为了缓解这一问题,本工作利用多模态大语言模型(MLLM)来提取、推理并将交互信息注入到主模型中。这能够丰富与交互相关的文本指导,提高模型在训练过程中区分通用文本指令和细粒度交互行为的能力。这种相机条件控制与基于文本的场景及交互输入相结合,形成了一种统一的机制,使 Hunyuan-GameCraft-2 能够在环境中无缝地导航和交互。
如上图 5 所示,给定参考图像及相应的动作、键盘/鼠标信号和基于提示词的指令,本工作将这些选项注入到主架构中。在训练和推理过程中,利用 Self-Forcing 后训练进行长视频扩展,并利用 KV-cache/recache 进行多动作切换。为了保持长视频的质量,设计了一种随机化长视频微调方案。
为了实现长时长且实时的交互式视频生成,必须将基础的双向模型蒸馏为少步数的因果生成器。在本工作中,我们将综合自回归蒸馏技术 Self-Forcing扩展到了 14B MoE 图生视频模型上。该方案专为增强长视频生成的质量和效率而定制,因为长视频生成通常具有大幅度且快速的场景变化。本文引入了随机扩展微调(random extension tuning)以减轻误差累积。训练过程分为四个阶段:(1)动作注入训练,(2)指令导向的监督微调(SFT),(3)自回归生成器蒸馏,以及(4)随机化长视频扩展微调。
此阶段的主要目标是建立对 3D 场景动态、光照和物理的基本理解。本工作加载预训练权重,并使用流匹配(flow-matching)目标对模型进行微调以适应架构调整。为了提高长期一致性,采用了课程学习策略。具体而言,将训练分为三个阶段,依次让模型接触 480p 分辨率下的 45、81 和 149 帧的视频数据。这种阶梯式的方法使模型能够先巩固对短期运动动态的理解,然后逐渐调整其注意力机制以处理更长持续时间连贯性所需的复杂依赖关系。此外,在训练期间随机选择长和短的标题,并拼接交互式标题以进行交互学习。此选项有助于模型初步感知交互信息的注入。
为了增强模型的交互能力,本工作通过利用程序生成的合成视频增强真实世界素材,构建了一个包含 150K 样本的数据集。这些合成序列可以提供跨多种交互类型(例如,状态转换、主体交互)的高保真监督信号,从而建立动作与其视觉结果之间的紧密对应关系。在随后的阶段中,冻结相机编码器的参数,仅微调 MoE 专家层。此过程旨在优化模型与语义控制线索的对齐。
对于交互式世界模型而言,将定长视频生成器扩展为高质量的自回归长视频生成至关重要。先前的工作在长视频生成方面已进行了初步尝试。基于高噪声和低噪声 MoE 架构及相机参数注入,本工作对注意力机制和蒸馏协议进行了针对性的调整。这些修改专门用于优化自回归蒸馏过程中的性能。
Sink Token 与块稀疏注意力(Block Sparse Attention):先前的技术使用直接滑动窗口方法更新因果注意力的 KV 缓存。然而,这可能导致生成质量随时间下降,因为后续步骤无法引用初始条件帧,导致漂移。本工作将初始帧指定为 Sink Token(锚点令牌),并始终保留在 KV 缓存中。这一修改有两个关键作用:首先,它提高并稳定了生成质量。其次,在本工作的特定任务中,Sink Token 提供了坐标系原点的信息。这确保了在自回归过程中注入的相机参数始终与初始帧对齐,从而避免了因坐标原点偏移而在每个自回归步骤都需要重新缓存(recache)的问题。此外,本工作采用块稀疏注意力进行局部注意力计算,这更适合自回归、分块生成的流程。具体来说,正在生成的目标块可以关注一组先前的块。这种局部注意力与上述 Sink 注意力相结合,构成了完整的 KV 缓存,在提高生成质量的同时也加速了生成速度。
蒸馏调度(Distillation Schedule):由于 MoE 架构的独特性,高噪声专家在训练和收敛方面比低噪声专家面临更大的挑战,特别是在 SFT 或蒸馏期间。为了解决这个问题,本工作为每个专家分配了不同的学习率。同时,根据分隔两个专家的噪声水平边界,重新定义了用于蒸馏的去噪时间步目标列表。这确保了教师模型和学生模型在蒸馏过程中选择高噪声或低噪声专家时保持一致性(如下图 6 所示)。

本工作实现长视频生成的方法受到了一个观察的启发:尽管基础模型是在短片段上预训练的,但它隐含地捕捉了全局视觉数据分布。先前的方法 从因果生成器中展开长视频序列,并在扩展帧上应用分布矩距离(DMD)对齐。该策略有效地减轻了自回归生成过程中的误差累积。

基于这一见解,本工作采用随机化扩展微调策略,使用超过 10 秒的长时长游戏视频数据集。在这个阶段,模型自回归地展开 帧,并均匀采样连续的 帧窗口以对齐预测分布和目标分布(真实值或教师先验)。此外,我们将预测视频从因果生成器随机扩展到不同的长度,以提高跨不同时间范围的鲁棒性。在实践中,当在窗口 展开时,学生生成器使用 Sink Token 和 KV 缓存并自回归地扩展长视频,而 Fake Score 教师模型使用前一个干净预测块中的最后一帧 作为图像条件;Real Score 则使用原始视频中的真实帧。
为了减轻少步数蒸馏固有的交互能力侵蚀,本工作采用了一种交错使用 Self-forcing(自身强制)与 Teacher-forcing(教师强制)的训练范式。这种方法的理由是迫使模型掌握状态恢复并保持时间稳定性。至关重要的是,这是通过在生成轨迹的任意点将其暴露于不同状态来实现的,而不是将这种纠正训练仅限于初始阶段。
自注意力 KV 缓存:为了保持与训练策略的一致性,推理过程采用了具有滚动更新机制的固定长度自注意力 KV 缓存,以促进高效的自回归生成,如下图 7 所示。具体而言,Sink Token 永久保留在缓存窗口的开始处。随后的部分作为局部注意力窗口,在整个多轮交互中保留目标去噪块之前的 帧。完整的 KV 缓存由这些 Sink Token 和局部注意力组件组成,通过块稀疏注意力实现。这种设计不仅提高了自回归效率,还有效防止了质量漂移。

ReCache(重缓存)机制:本工作采用 Recache 机制来增强自回归长视频生成中多轮交互的准确性和稳定性。在接收到新的交互提示词后,模型提取相应的交互嵌入以重新计算最后一个自回归块,并更新自注意力和交叉注意力 KV 缓存。该策略以最小的计算开销为随后的目标块提供了精确的历史上下文,从而确保准确和响应迅速的反馈,以促进更流畅的用户体验。
为了进一步加速推理并最小化延迟,本工作结合了几项系统级优化:
综合这些技术,推理速度提升至 16 FPS,实现了具有稳定质量和低延迟的实时交互式视频生成。
实验将 Hunyuan-GameCraft-2 与几种 SOTA 图生视频基础模型进行了对比,包括 HunyuanVideo、Wan2.2 A14B 和 LongCatVideo。所有基线模型均在官方推荐的配置下运行。为了评估,构建了一个包含三个核心交互维度的测试套件:(1) 环境交互,(2) 角色动作,(3) 实体与物体出现。测试集包含 100 张覆盖多种场景和风格的图片,所有模型统一生成分辨率为 、长度为 93 帧的视频。
评估使用了两类指标:
定量结果:如下表 5 所示,GameCraft-2 在所有交互类别(环境、角色动作、实体出现)的各项指标上均显著优于基线模型。


定性分析:通过可视化对比(文中图 10, 11, 12, 13, 22-24),GameCraft-2 展现了更高的保真度:







泛化能力:模型展示了超出训练分布的泛化能力。例如,尽管训练数据中没有“人突然出现”或“龙出现”的具体实例,模型仍能处理这些未见过的交互,生成符合物理规律的状态转换(图 15)。

针对长视频微调和 KV-Cache 设置进行了消融研究(文中图 16):

Hunyuan-GameCraft-2,一种交互式游戏世界模型,能够响应自由形式的文本指令和键盘/鼠标动作,生成高保真、可控的视频。本工作正式定义了交互式视频数据,并提出了用于其策展和合成的自动化流程,有效地解决了阻碍该领域发展的数据瓶颈问题。
本模型在一个稳健的训练框架内统一了多模态控制信号,利用新颖的随机化长视频微调方案和高效的推理机制(如 KV-recache),实现了稳定、长时长且实时的交互式生成。为了严格评估本工作的贡献,引入了 InterBench,这是一个专门设计用于评估动作级交互质量的新基准。广泛的实验表明,GameCraft-2 在交互保真度、视觉质量和时间一致性的所有维度上均显著优于现有的最先进模型。通过将前沿技术从被动的视频合成推向主动的、用户驱动的世界生成,本工作标志着迈向创建真正可玩且沉浸式 AI 生成虚拟体验的重要一步。
[1] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model