首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!

口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!

作者头像
AI生成未来
发布2026-01-13 14:35:49
发布2026-01-13 14:35:49
450
举报

作者:Xu He等

解读:AI生成未来

  • 论文链接: https://arxiv.org/abs/2512.25066
  • 项目主页: https://hjrphoebus.github.io/X-Dub/

亮点直击

  • 范式转变:本文将视觉配音从一个病态的“掩码修复”任务重新定义为一个条件良好的“视频到视频编辑”任务。
  • 自引导框架(X-Dub) :提出了一个自我引导框架,利用一个基于DiT的生成器来创建“理想的”成对训练数据(即除了嘴型不同外,其他视觉条件完全相同的视频对),从而允许独立的编辑器模型在完整的视觉上下文下学习鲁棒的配音。
  • 时间步自适应学习:引入了一种多阶段训练策略,将特定的扩散噪声水平与不同的学习目标(全局结构、嘴部运动、纹理细节)对齐。
  • 新基准测试:发布了ContextDubBench,这是一个包含真实世界复杂场景(如遮挡、动态光照等)的综合基准,用于评估配音模型的鲁棒性。
图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准的口型同步和忠实的身份保护
图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准的口型同步和忠实的身份保护

图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准的口型同步和忠实的身份保护

解决的问题

音频驱动的视觉配音面临一个根本的数据瓶颈:缺乏成对的训练数据,即受试者的嘴部运动不同,但所有其他视觉条件(姿势、光照、表情)完全相同的视频对。

  • 此前的局限:现有方法通常通过遮挡下半张脸并使用修复(Inpainting)技术来规避这一问题。这剥离了关键的视觉上下文,迫使模型去“幻觉”出缺失的内容(如遮挡物),并从可能未对齐的参考帧中提取身份信息。这导致了视觉伪影、身份漂移和同步性差的问题。

提出的方案

本文提出了 X-Dub,一个自我引导框架:

  1. 生成器(数据构建者):一个通过自重建训练的DiT模型,用于为每个真实训练视频生成一个“伴侣视频”。这个伴侣视频具有改变后的嘴部运动(由不同的音频驱动),但保留了原始身份和场景,从而构成了合成的“对齐视频对”。
  2. 编辑器(富上下文配音者):第二个DiT模型在这些视频对上进行训练。因为它接收完整的(未被遮挡的)伴侣视频作为输入,所以它执行的是“编辑”而非“修复”,能够利用完整的视觉上下文进行精确的嘴部修改和身份保持。

应用的技术

  • 扩散Transformer (DiT):作为生成器和编辑器的骨干网络,采用流匹配(Flow Matching)进行训练。
  • 上下文条件化:编辑器将参考视频和目标视频沿帧维度(Token序列)而非通道维度进行拼接,允许通过3D自注意力机制进行交互。
  • 时间步自适应多阶段学习
    • 高噪声阶段:全参数微调,针对全局结构和姿势。
    • 中噪声阶段:使用LoRA专家配合SyncNet损失,针对嘴部清晰度。
    • 低噪声阶段:使用LoRA专家,针对高频纹理和身份细节。
  • 遮挡与光照增强:在数据构建阶段采用特定策略以确保模型的鲁棒性。

达到的效果

  • SOTA性能:在HDTF数据集和新的ContextDubBench上,超越了现有方法(如Wav2Lip, MuseTalk, LatentSync等)。
  • 卓越的鲁棒性:在动态光照、面部遮挡和大姿态变化等掩码基方法容易失败的场景中表现出色。
  • 高保真度:与基线相比,实现了更好的身份保持(CSIM)和唇形同步准确性(Sync-C)。
  • 用户偏好:人类评估者在真实感和同步性方面显著更偏好X-Dub的结果。

方法论

图 2:我们的自引导配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器为每个视频创建一个经过口型修改的对应视频,与原始视频(左)形成上下文丰富的对。 然后,DiT 编辑人员直接从这些理想配对中学习无掩模、视频到视频的配音,利用完整的视觉上下文来确保准确的口型同步和身份保留(中)。 这种情境学习通过我们的时间步长自适应多阶段学习(右)进一步完善,该学习将不同的扩散阶段与学习不同的信息(分别是全局结构、嘴唇运动和纹理细节)结合起来。
图 2:我们的自引导配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器为每个视频创建一个经过口型修改的对应视频,与原始视频(左)形成上下文丰富的对。 然后,DiT 编辑人员直接从这些理想配对中学习无掩模、视频到视频的配音,利用完整的视觉上下文来确保准确的口型同步和身份保留(中)。 这种情境学习通过我们的时间步长自适应多阶段学习(右)进一步完善,该学习将不同的扩散阶段与学习不同的信息(分别是全局结构、嘴唇运动和纹理细节)结合起来。

图 2:我们的自引导配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器为每个视频创建一个经过口型修改的对应视频,与原始视频(左)形成上下文丰富的对。 然后,DiT 编辑人员直接从这些理想配对中学习无掩模、视频到视频的配音,利用完整的视觉上下文来确保准确的口型同步和身份保留(中)。 这种情境学习通过我们的时间步长自适应多阶段学习(右)进一步完善,该学习将不同的扩散阶段与学习不同的信息(分别是全局结构、嘴唇运动和纹理细节)结合起来。

如图2所示,本文建立了一个自引导配音框架,其中一个DiT模型首先生成具有不同嘴部运动的视觉对齐视频对,然后从这些视频对中学习配音任务,从而将配音从一个病态的修复问题重新构建为一个条件良好的视频到视频编辑任务。

首先介绍基于DiT的生成器。它使用掩码修复自重建目标进行训练,以合成嘴型变化的伴侣视频,这些视频纯粹作为上下文输入。为了确保这些合成伴侣充当可靠的视觉条件,本文引入了原则性的构建策略。这些策略优先考虑身份保持和鲁棒性,而非次要的嘴型准确性和泛化能力,并采用严格的质量过滤和增强措施来最小化伪影并最大化视觉对齐。

在这些精心策划的视频对之上,基于DiT的编辑器将无掩码配音作为富上下文驱动的编辑进行学习,实现了精确的唇形同步、忠实的身份保留以及对姿势和遮挡变化的鲁棒性。最后,提出了一种时间步自适应多阶段学习方案。该方案将扩散阶段与互补的目标(结构、嘴唇和纹理)对齐,以促进该编辑范式内的稳定训练收敛,并进一步提高配音质量。

DiT骨干网络:骨干网络遵循隐空间扩散范式,使用3D VAE进行视频压缩,使用DiT进行序列建模。每个DiT块结合了2D空间和3D时空自注意力,以及用于外部条件的交叉注意力。

生成器:上下文条件构建者

朴素掩码配音

基于DiT的生成器是在掩码自重建方案下实现的,遵循先前的配音方法。给定目标视频 和音频 ,应用面部掩码 ,并在条件 和参考帧 下重建被掩盖的区域 。

虽然这种设置产生的配音输出并不完美,但生成器的设计初衷并非直接解决配音问题,而仅仅是为了合成伴侣视频作为编辑器的上下文输入。通过在其他方面一致的帧内改变嘴部运动,生成器将稀疏的修复上下文转换为对齐的视频对,这比静态参考帧要强大得多。

图 3:基于 DiT 的框架的调节机制。 参考条件(用于编辑器的完整上下文视频帧;用于生成器的单个参考帧)和目标视频连接成一个统一的序列以进行 3D 自注意力。 音频通过交叉注意力注入
图 3:基于 DiT 的框架的调节机制。 参考条件(用于编辑器的完整上下文视频帧;用于生成器的单个参考帧)和目标视频连接成一个统一的序列以进行 3D 自注意力。 音频通过交叉注意力注入

图 3:基于 DiT 的框架的调节机制。 参考条件(用于编辑器的完整上下文视频帧;用于生成器的单个参考帧)和目标视频连接成一个统一的序列以进行 3D 自注意力。 音频通过交叉注意力注入

条件机制:如图3所示,掩码帧和目标帧由VAE编码为 ,参考帧编码为 。 与加噪的 在通道维度上拼接, 进行零填充以对齐通道。跨帧拼接产生了统一的DiT输入 ,这使得视频和参考Token之间可以通过3D自注意力进行交互。Whisper特征通过交叉注意力作为音频条件注入。为了将生成扩展到长视频,使用了运动帧:每个片段都以基于前一片段的最后几帧为条件。在训练期间, 的前 帧保持不加噪作为运动指导。条件Dropout(50%)用于处理初始片段中先验帧缺失的情况。

训练目标:采用流匹配损失 ,并通过DWPose提取的面部和嘴唇掩码 进行加权(表示逐元素乘法):

以这种方式训练后,生成器通过用替代音频 替换原始音频 ,为每个真实剪辑 生成一个合成伴侣视频 ,从而产生帧对齐但嘴型变化的视频对 。在这里, 仅作为编辑器的条件输入。

原则性的配对构建策略

普通的掩码配音不可避免地会产生不完美的结果。因此,本文在生成器的数据构建过程中设计了明确的权衡策略,以确保合成的伴侣视频虽然不完美,但能作为可靠的上下文输入。

确立了三个指导原则:

  1. 域内质量优于泛化:关注训练分布内的保真度。
  2. 变化下的视觉一致性:伴侣视频必须保持身份,并在姿势、遮挡和光照变化下保持鲁棒。
  3. 嘴型变化优于准确性: 中的嘴型应与 不同以避免泄漏,同时容忍适度的唇形同步不准确。

据此,实施了若干策略。利用短时视觉平稳性,生成器以25帧的短片段处理视频,此时姿势和场景相对稳定。运动帧随后将这些片段连接成完整的77帧视频,用于后续的编辑器训练。替代音频 从与 相同的说话人中采样,以减少跨身份冲突。

为了增强鲁棒性,结合了互补技术。通过标注并将面部遮挡物排除在修复区域之外来处理遮挡。对于光照增强,对 和 应用相同的重光照处理,以构建具有一致光照动态的视频对。使用地标距离、身份相似度和整体视觉质量评分进行质量过滤。此外,补充了3D渲染数据以获得完美对齐的视频对。

编辑器:上下文驱动的视频到视频配音

给定精心策划的视频对 ,训练一个基于DiT的编辑器进行无掩码配音。与生成器不同,编辑器直接处理配音任务:给定音频 和伴侣视频 ,它学习生成 作为目标,从而将配音从稀疏的修复问题转变为上下文驱动的编辑问题。在实践中,得益于视频对提供的丰富上下文输入,编辑器在嘴型准确性、身份保持和鲁棒性方面均超越了生成器。

上下文条件机制:如图3所示,配对的参考视频和目标视频被编码为潜变量 。扩散后的 随后与干净的 跨帧拼接,形成 。对该序列进行Patch化处理使得上下文可以通过3D自注意力进行交互,在最小化改动DiT骨干的同时充分利用其上下文建模能力。音频特征和运动帧的集成方式与3.1节相同。

基于LoRA专家的时间步自适应多阶段学习

虽然嘴型变化的视频对显著简化了配音任务,但编辑器的训练仍需平衡继承全局结构、编辑嘴部运动和保留细粒度身份细节这三个目标。扩散模型在时间步上表现出阶段性的专业化。受此启发,本文引入了一种时间步自适应多阶段方案,不同的噪声区域针对互补的目标。

阶段划分:遵循Esser等人的方法,移动时间步采样分布以集中在每个训练阶段的不同噪声水平上:

其中 是对数正态分布, 设定偏移强度。这产生了:

  1. 高噪声步骤:用于全局结构和运动(背景、姿势、粗略身份)。
  2. 中噪声步骤:用于嘴部运动。
  3. 低噪声步骤:用于涉及身份细节的纹理细化。

高噪声全参数训练:首先,编辑器在高噪声分布下进行全参数优化训练。这促进了收敛,并使得模型能够从参考上下文中无缝迁移全局结构,同时实现初步的唇形同步。目标函数是相同的掩码加权流匹配损失 。

中低噪声的LoRA专家微调:随后为中噪声和低噪声阶段附加轻量级的LoRA模块。由于需要像素级约束,设计了一种单步去噪策略以避免计算开销:

其中 确保在高噪声水平下的去噪稳定性。

嘴唇专家(Lip Expert) 在中噪声阶段工作,由额外的唇形同步损失 (使用SyncNet进行视听对齐)监督。

纹理专家(Texture Expert) 在低噪声阶段工作,由重建损失 (结合L1、CLIP和ArcFace身份损失)监督以恢复高频细节。为保障唇形同步质量,在纹理微调阶段我们以0.5的概率随机禁用音频交叉注意力机制,仅在静音条件下计算纹理监督信号。

在推理阶段,各LoRA模块在其最优时间步范围内被激活:纹理专家作用于t∈[0, 0.3]区间,唇部专家作用于t∈[0.4, 0.8]区间,从而确保二者在各自最有效的生成阶段发挥作用。

实验总结

本文在 HDTF(高清数据集)和新提出的 ContextDubBench 上评估了所提出的编辑器。对比了Wav2Lip, VideoReTalking, TalkLip, IP-LAP, Diff2Lip, MuseTalk 和 LatentSync 等最先进的方法。

  • 定量结果
    • HDTF:编辑器实现了最低的 FID (7.03) 和 FVD,以及最高的 Sync-C (8.56) 和 CSIM (0.883),大幅优于之前的最佳方法(例如,FID降低了12.6%,Sync-C提高了4.9%)。
    • ContextDubBench:在这个具有挑战性的基准上,优势更加明显。该方法实现了 96.4% 的成功率(次优方法仅约72%),并具有卓越的唇音一致性(Sync-C +16.0%)和身份保持能力(CSIM +6.1%)。
  • 定性结果
    • 可视化结果显示,X-Dub 能够产生精确的唇形同步,即使在侧面视图或有遮挡(如手遮挡部分面部)的情况下也能保持身份,而基于掩码的方法通常会在这些情况下失败或产生伪影。
图4:跨多种情景的定性比较。对口型错误用yel-low标记,视觉伪影用蓝色标记,静音时嘴唇漏用红色。“ERROR”表示运行时因未找到3DMM或地标而失败,尽管已尽最大努力。我们的方法展现出强有力的牙龈,唇部准确度和身份一致性都更佳
图4:跨多种情景的定性比较。对口型错误用yel-low标记,视觉伪影用蓝色标记,静音时嘴唇漏用红色。“ERROR”表示运行时因未找到3DMM或地标而失败,尽管已尽最大努力。我们的方法展现出强有力的牙龈,唇部准确度和身份一致性都更佳

图4:跨多种情景的定性比较。对口型错误用yel-low标记,视觉伪影用蓝色标记,静音时嘴唇漏用红色。“ERROR”表示运行时因未找到3DMM或地标而失败,尽管已尽最大努力。我们的方法展现出强有力的牙龈,唇部准确度和身份一致性都更佳

  • 消融研究
    • 条件化:使用Token拼接(跨帧)优于通道拼接,后者会损害唇形同步。
    • 多阶段学习:移除嘴唇微调阶段会降低 Sync-C 分数;移除纹理阶段会损害身份指标。均匀的时间步采样会导致发散或质量低下。
  • 用户研究:在包含30名参与者的研究中,该方法在真实感、唇形同步和身份保持方面获得了最高的平均意见得分(MOS)。

结论

本工作引入了一种新颖的自引导范式来解决视觉配音中的核心挑战:缺乏成对的真实世界训练数据。我们认为,视觉配音不应依赖于掩码修复,而应被重构为一个条件良好的视频到视频编辑任务

基于这一范式,提出了 X-Dub,一个富上下文的配音框架。它利用一个DiT模型首先作为生成器,创建具有完整视觉上下文的理想训练对,然后作为编辑器从这些精心策划的数据中学习。这一过程通过时间步自适应多阶段学习策略得到进一步完善,该策略解耦了结构、嘴唇和纹理的学习,从而提高了最终输出的质量。

在标准数据集和我们要新提出的高难度基准 ContextDubBench 上的广泛实验表明,本文方法取得了SOTA结果。X-Dub 在复杂的野外场景中表现出卓越的鲁棒性,显著优于先前的工作。相信这项工作不仅为视觉配音树立了新标准,也为其他缺乏成对数据的条件视频编辑任务提供了宝贵的见解。

参考文献

[1] FROM INPAINTING TO EDITING: A SELF-BOOTSTRAPPING FRAMEWORK FOR CONTEXT-RICH VISUAL DUBBING

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 解决的问题
  • 提出的方案
  • 应用的技术
  • 达到的效果
  • 方法论
    • 生成器:上下文条件构建者
    • 编辑器:上下文驱动的视频到视频配音
    • 基于LoRA专家的时间步自适应多阶段学习
  • 实验总结
  • 结论
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档