首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >6倍极速生成无限时长人像视频!复旦&微软最新FlashPortrait:让你成为数字人面具背后的TA

6倍极速生成无限时长人像视频!复旦&微软最新FlashPortrait:让你成为数字人面具背后的TA

作者头像
AI生成未来
发布2025-12-25 14:07:17
发布2025-12-25 14:07:17
430
举报

作者:Shuyuan Tu、Zhen Xing等

解读:AI生成未来

论文地址:https://arxiv.org/pdf/2512.16900 项目主页:https://francis-rings.github.io/FlashPortrait/ 项目代码:https://github.com/Francis-Rings/FlashPortrait 项目Demo: https://www.bilibili.com/video/BV1Gfq9BAEvo/

亮点直击

  • 提出了一种基于滑动窗口的自适应潜变量预测加速机制。该方法无需额外训练,仅在推理阶段激活,可在保持无限长度人像动画身份一致性的同时实现6倍加速。首个探索视频扩散模型以加速身份保持型无限长度人像动画生成的研究。
  • 设计了一种新型归一化面部表情模块,用于对齐扩散潜变量与面部特征的分布中心,从而增强去噪过程中的身份稳定性。
  • 在多个基准数据集上的实验结果表明,我们的模型优于当前最先进方法。

在电影制作、虚拟助手、直播带货等领域,人像动画技术始终追求着 “无限时长、高保真、身份稳定” 的终极目标。随着扩散模型的兴起,音频驱动或视频驱动的人像生成技术取得了显著进展,但现有方案却面临着难以调和的核心矛盾:要么生成时长受限(超过20秒即出现身体扭曲、身份漂移),要么推理速度缓慢(生成20秒视频需数分钟),严重制约了技术的工业化落地。当前基于扩散模型的人像动画技术,在长时长、高速推理、高一致性的要求下,暴露出三大核心缺陷: (1)身份一致性缺失:扩散潜变量与面部表情特征的分布中心差异过大,导致生成视频易出现面部扭曲、颜色漂移、身份特征模糊等问题; (2)推理速度缓慢:传统扩散模型需逐帧完成完整去噪流程,生成 20 秒视频往往需要数十分钟,难以满足实时应用场景; (3)长视频衔接生硬:采用片段切割拼接或简单滑窗策略时,视频片段间过渡突兀,缺乏流畅性与连贯性。现有加速方案(如缓存复用、知识蒸馏)要么仅适用于小幅运动场景,要么需付出巨大计算成本,且无法解决长视频中的身份漂移问题。因此,开发一款兼顾速度、时长与一致性的人像动画框架,成为工业界迫切需求。

为了解决上述问题,来自复旦、微软、西交等研究团队提出FlashPortrait框架,以实现6倍推理加速的无限时长人像视频生成,目前代码已开源,包括推理代码和训练代码

方法简介

如下图所示,FlashPortrait 基于 Wan2.1-14B 基座模型开发,通过三大核心技术模块,构建了 “特征对齐-流畅衔接-高速生成” 的完整技术路线。

1. 归一化面部表情模块(Normalized Facial Expression Block)

针对扩散潜变量与面部特征分布差异导致的身份漂移问题,FlashPortrait 设计了归一化面部表情模块,通过分布对齐技术,实现跨帧身份一致性的精准把控,具体而言,首先利用预训练面部编码器(PD-FGC)从驱动视频中提取头部姿态、眼部动作、情绪状态、嘴部运动等原生面部表情特征,再通过自注意力机制与前馈网络(FFN)增强面部整体布局感知。然后计算处理后表情特征与扩散潜变量的均值和方差,通过归一化操作将两者分布中心对齐,消除分布差异带来的身份不稳定问题,将归一化后的面部特征与参考图像的 CLIP 编码特征进行交叉注意力融合,通过逐元素相加注入扩散模型,确保生成过程中面部细节与身份特征的精准保留。

2. 加权滑窗策略(Weighted Sliding-Window Strategy)

将长视频划分为多个重叠窗口,窗口重叠长度设为v(v=5),确保相邻窗口存在部分共享帧,在重叠区域采用算术插值权重,对相邻窗口的潜变量进行加权融合()。融合后的潜变量回注至相邻窗口,使窗口边界由混合特征构成,避免片段衔接处的突兀过渡,实现长视频的流畅连贯生成。

3. 自适应潜变量预测加速机制(Adaptive Latent Prediction Acceleration)

为突破传统扩散模型逐帧去噪的速度瓶颈,FlashPortrait 创新提出自适应潜变量预测加速机制,通过高阶导数预测跳过冗余去噪步骤,实现6倍速推理。首先利用泰勒级数展开,基于历史潜变量的高阶差分近似未来潜变量,即,其中通过有限差分替代复杂的导数计算,降低计算成本。针对人像动画中面部运动幅度大、潜变量波动剧烈的问题,设计两大动态调整函数:(1)潜变量变化率函数(), 根据当前时步潜变量变化速度与平均变化速度的比值,动态调整预测步长,避免大幅运动时预测失真。(2)跨层导数权重函数(), 根据不同扩散层的导数幅度差异,动态调整权重,解决低层纹理特征与高层结构特征的预测误差问题。通过上述预测机制,扩散模型仅需对部分关键时步进行完整去噪,即可直接预测未来多个时步的潜变量,最终实现跳过冗余去噪步骤,达到6倍速推理加速。

生成结果示例

实验对比

结论

FlashPortrait,该模型配备专门设计的训练与推理机制,能够生成具有身份保持特性的无限长度人像动画,并在推理速度上实现了高达6倍的加速。FlashPortrait首先利用现有成熟模型提取与身份无关的面部表情特征。为提升身份稳定性,模型引入了归一化面部表情模块以优化表情特征。在推理阶段,为确保长视频的流畅性与身份一致性,FlashPortrait提出了加权滑动窗口策略。在每个上下文窗口中,进一步引入自适应潜变量预测加速机制,以跳过部分去噪步骤,从而实现6倍推理加速。多数据集实验结果表明,本文模型在合成无限长度、身份保持的人像动画方面具有显著优势,且推理速度大幅提升。

参考文献

[1] FlashPortrait: 6 × Faster Infinite Portrait Animationwith Adaptive Latent Prediction

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 方法简介
    • 1. 归一化面部表情模块(Normalized Facial Expression Block)
    • 2. 加权滑窗策略(Weighted Sliding-Window Strategy)
    • 3. 自适应潜变量预测加速机制(Adaptive Latent Prediction Acceleration)
  • 生成结果示例
  • 实验对比
  • 结论
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档