作者:Xu He等
解读:AI生成未来

亮点直击

图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准的口型同步和忠实的身份保护
音频驱动的视觉配音面临一个根本的数据瓶颈:缺乏成对的训练数据,即受试者的嘴部运动不同,但所有其他视觉条件(姿势、光照、表情)完全相同的视频对。
本文提出了 X-Dub,一个自我引导框架:

图 2:我们的自引导配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器为每个视频创建一个经过口型修改的对应视频,与原始视频(左)形成上下文丰富的对。 然后,DiT 编辑人员直接从这些理想配对中学习无掩模、视频到视频的配音,利用完整的视觉上下文来确保准确的口型同步和身份保留(中)。 这种情境学习通过我们的时间步长自适应多阶段学习(右)进一步完善,该学习将不同的扩散阶段与学习不同的信息(分别是全局结构、嘴唇运动和纹理细节)结合起来。
如图2所示,本文建立了一个自引导配音框架,其中一个DiT模型首先生成具有不同嘴部运动的视觉对齐视频对,然后从这些视频对中学习配音任务,从而将配音从一个病态的修复问题重新构建为一个条件良好的视频到视频编辑任务。
首先介绍基于DiT的生成器。它使用掩码修复自重建目标进行训练,以合成嘴型变化的伴侣视频,这些视频纯粹作为上下文输入。为了确保这些合成伴侣充当可靠的视觉条件,本文引入了原则性的构建策略。这些策略优先考虑身份保持和鲁棒性,而非次要的嘴型准确性和泛化能力,并采用严格的质量过滤和增强措施来最小化伪影并最大化视觉对齐。
在这些精心策划的视频对之上,基于DiT的编辑器将无掩码配音作为富上下文驱动的编辑进行学习,实现了精确的唇形同步、忠实的身份保留以及对姿势和遮挡变化的鲁棒性。最后,提出了一种时间步自适应多阶段学习方案。该方案将扩散阶段与互补的目标(结构、嘴唇和纹理)对齐,以促进该编辑范式内的稳定训练收敛,并进一步提高配音质量。
DiT骨干网络:骨干网络遵循隐空间扩散范式,使用3D VAE进行视频压缩,使用DiT进行序列建模。每个DiT块结合了2D空间和3D时空自注意力,以及用于外部条件的交叉注意力。
朴素掩码配音
基于DiT的生成器是在掩码自重建方案下实现的,遵循先前的配音方法。给定目标视频 和音频 ,应用面部掩码 ,并在条件 和参考帧 下重建被掩盖的区域 。
虽然这种设置产生的配音输出并不完美,但生成器的设计初衷并非直接解决配音问题,而仅仅是为了合成伴侣视频作为编辑器的上下文输入。通过在其他方面一致的帧内改变嘴部运动,生成器将稀疏的修复上下文转换为对齐的视频对,这比静态参考帧要强大得多。

图 3:基于 DiT 的框架的调节机制。 参考条件(用于编辑器的完整上下文视频帧;用于生成器的单个参考帧)和目标视频连接成一个统一的序列以进行 3D 自注意力。 音频通过交叉注意力注入
条件机制:如图3所示,掩码帧和目标帧由VAE编码为 ,参考帧编码为 。 与加噪的 在通道维度上拼接, 进行零填充以对齐通道。跨帧拼接产生了统一的DiT输入 ,这使得视频和参考Token之间可以通过3D自注意力进行交互。Whisper特征通过交叉注意力作为音频条件注入。为了将生成扩展到长视频,使用了运动帧:每个片段都以基于前一片段的最后几帧为条件。在训练期间, 的前 帧保持不加噪作为运动指导。条件Dropout(50%)用于处理初始片段中先验帧缺失的情况。
训练目标:采用流匹配损失 ,并通过DWPose提取的面部和嘴唇掩码 进行加权(表示逐元素乘法):
以这种方式训练后,生成器通过用替代音频 替换原始音频 ,为每个真实剪辑 生成一个合成伴侣视频 ,从而产生帧对齐但嘴型变化的视频对 。在这里, 仅作为编辑器的条件输入。
原则性的配对构建策略
普通的掩码配音不可避免地会产生不完美的结果。因此,本文在生成器的数据构建过程中设计了明确的权衡策略,以确保合成的伴侣视频虽然不完美,但能作为可靠的上下文输入。
确立了三个指导原则:
据此,实施了若干策略。利用短时视觉平稳性,生成器以25帧的短片段处理视频,此时姿势和场景相对稳定。运动帧随后将这些片段连接成完整的77帧视频,用于后续的编辑器训练。替代音频 从与 相同的说话人中采样,以减少跨身份冲突。
为了增强鲁棒性,结合了互补技术。通过标注并将面部遮挡物排除在修复区域之外来处理遮挡。对于光照增强,对 和 应用相同的重光照处理,以构建具有一致光照动态的视频对。使用地标距离、身份相似度和整体视觉质量评分进行质量过滤。此外,补充了3D渲染数据以获得完美对齐的视频对。
给定精心策划的视频对 ,训练一个基于DiT的编辑器进行无掩码配音。与生成器不同,编辑器直接处理配音任务:给定音频 和伴侣视频 ,它学习生成 作为目标,从而将配音从稀疏的修复问题转变为上下文驱动的编辑问题。在实践中,得益于视频对提供的丰富上下文输入,编辑器在嘴型准确性、身份保持和鲁棒性方面均超越了生成器。
上下文条件机制:如图3所示,配对的参考视频和目标视频被编码为潜变量 。扩散后的 随后与干净的 跨帧拼接,形成 。对该序列进行Patch化处理使得上下文可以通过3D自注意力进行交互,在最小化改动DiT骨干的同时充分利用其上下文建模能力。音频特征和运动帧的集成方式与3.1节相同。
虽然嘴型变化的视频对显著简化了配音任务,但编辑器的训练仍需平衡继承全局结构、编辑嘴部运动和保留细粒度身份细节这三个目标。扩散模型在时间步上表现出阶段性的专业化。受此启发,本文引入了一种时间步自适应多阶段方案,不同的噪声区域针对互补的目标。
阶段划分:遵循Esser等人的方法,移动时间步采样分布以集中在每个训练阶段的不同噪声水平上:
其中 是对数正态分布, 设定偏移强度。这产生了:
高噪声全参数训练:首先,编辑器在高噪声分布下进行全参数优化训练。这促进了收敛,并使得模型能够从参考上下文中无缝迁移全局结构,同时实现初步的唇形同步。目标函数是相同的掩码加权流匹配损失 。
中低噪声的LoRA专家微调:随后为中噪声和低噪声阶段附加轻量级的LoRA模块。由于需要像素级约束,设计了一种单步去噪策略以避免计算开销:
其中 确保在高噪声水平下的去噪稳定性。
嘴唇专家(Lip Expert) 在中噪声阶段工作,由额外的唇形同步损失 (使用SyncNet进行视听对齐)监督。
纹理专家(Texture Expert) 在低噪声阶段工作,由重建损失 (结合L1、CLIP和ArcFace身份损失)监督以恢复高频细节。为保障唇形同步质量,在纹理微调阶段我们以0.5的概率随机禁用音频交叉注意力机制,仅在静音条件下计算纹理监督信号。
在推理阶段,各LoRA模块在其最优时间步范围内被激活:纹理专家作用于t∈[0, 0.3]区间,唇部专家作用于t∈[0.4, 0.8]区间,从而确保二者在各自最有效的生成阶段发挥作用。
本文在 HDTF(高清数据集)和新提出的 ContextDubBench 上评估了所提出的编辑器。对比了Wav2Lip, VideoReTalking, TalkLip, IP-LAP, Diff2Lip, MuseTalk 和 LatentSync 等最先进的方法。


图4:跨多种情景的定性比较。对口型错误用yel-low标记,视觉伪影用蓝色标记,静音时嘴唇漏用红色。“ERROR”表示运行时因未找到3DMM或地标而失败,尽管已尽最大努力。我们的方法展现出强有力的牙龈,唇部准确度和身份一致性都更佳

本工作引入了一种新颖的自引导范式来解决视觉配音中的核心挑战:缺乏成对的真实世界训练数据。我们认为,视觉配音不应依赖于掩码修复,而应被重构为一个条件良好的视频到视频编辑任务。
基于这一范式,提出了 X-Dub,一个富上下文的配音框架。它利用一个DiT模型首先作为生成器,创建具有完整视觉上下文的理想训练对,然后作为编辑器从这些精心策划的数据中学习。这一过程通过时间步自适应多阶段学习策略得到进一步完善,该策略解耦了结构、嘴唇和纹理的学习,从而提高了最终输出的质量。
在标准数据集和我们要新提出的高难度基准 ContextDubBench 上的广泛实验表明,本文方法取得了SOTA结果。X-Dub 在复杂的野外场景中表现出卓越的鲁棒性,显著优于先前的工作。相信这项工作不仅为视觉配音树立了新标准,也为其他缺乏成对数据的条件视频编辑任务提供了宝贵的见解。
[1] FROM INPAINTING TO EDITING: A SELF-BOOTSTRAPPING FRAMEWORK FOR CONTEXT-RICH VISUAL DUBBING
技术交流社区免费开放
这是一个高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!