作者:Shuyuan Tu、Zhen Xing等
解读:AI生成未来

论文地址:https://arxiv.org/pdf/2512.16900 项目主页:https://francis-rings.github.io/FlashPortrait/ 项目代码:https://github.com/Francis-Rings/FlashPortrait 项目Demo: https://www.bilibili.com/video/BV1Gfq9BAEvo/
亮点直击
在电影制作、虚拟助手、直播带货等领域,人像动画技术始终追求着 “无限时长、高保真、身份稳定” 的终极目标。随着扩散模型的兴起,音频驱动或视频驱动的人像生成技术取得了显著进展,但现有方案却面临着难以调和的核心矛盾:要么生成时长受限(超过20秒即出现身体扭曲、身份漂移),要么推理速度缓慢(生成20秒视频需数分钟),严重制约了技术的工业化落地。当前基于扩散模型的人像动画技术,在长时长、高速推理、高一致性的要求下,暴露出三大核心缺陷: (1)身份一致性缺失:扩散潜变量与面部表情特征的分布中心差异过大,导致生成视频易出现面部扭曲、颜色漂移、身份特征模糊等问题; (2)推理速度缓慢:传统扩散模型需逐帧完成完整去噪流程,生成 20 秒视频往往需要数十分钟,难以满足实时应用场景; (3)长视频衔接生硬:采用片段切割拼接或简单滑窗策略时,视频片段间过渡突兀,缺乏流畅性与连贯性。现有加速方案(如缓存复用、知识蒸馏)要么仅适用于小幅运动场景,要么需付出巨大计算成本,且无法解决长视频中的身份漂移问题。因此,开发一款兼顾速度、时长与一致性的人像动画框架,成为工业界迫切需求。

为了解决上述问题,来自复旦、微软、西交等研究团队提出FlashPortrait框架,以实现6倍推理加速的无限时长人像视频生成,目前代码已开源,包括推理代码和训练代码。
如下图所示,FlashPortrait 基于 Wan2.1-14B 基座模型开发,通过三大核心技术模块,构建了 “特征对齐-流畅衔接-高速生成” 的完整技术路线。

针对扩散潜变量与面部特征分布差异导致的身份漂移问题,FlashPortrait 设计了归一化面部表情模块,通过分布对齐技术,实现跨帧身份一致性的精准把控,具体而言,首先利用预训练面部编码器(PD-FGC)从驱动视频中提取头部姿态、眼部动作、情绪状态、嘴部运动等原生面部表情特征,再通过自注意力机制与前馈网络(FFN)增强面部整体布局感知。然后计算处理后表情特征与扩散潜变量的均值和方差,通过归一化操作将两者分布中心对齐,消除分布差异带来的身份不稳定问题,将归一化后的面部特征与参考图像的 CLIP 编码特征进行交叉注意力融合,通过逐元素相加注入扩散模型,确保生成过程中面部细节与身份特征的精准保留。
将长视频划分为多个重叠窗口,窗口重叠长度设为v(v=5),确保相邻窗口存在部分共享帧,在重叠区域采用算术插值权重,对相邻窗口的潜变量进行加权融合()。融合后的潜变量回注至相邻窗口,使窗口边界由混合特征构成,避免片段衔接处的突兀过渡,实现长视频的流畅连贯生成。
为突破传统扩散模型逐帧去噪的速度瓶颈,FlashPortrait 创新提出自适应潜变量预测加速机制,通过高阶导数预测跳过冗余去噪步骤,实现6倍速推理。首先利用泰勒级数展开,基于历史潜变量的高阶差分近似未来潜变量,即,其中通过有限差分替代复杂的导数计算,降低计算成本。针对人像动画中面部运动幅度大、潜变量波动剧烈的问题,设计两大动态调整函数:(1)潜变量变化率函数(), 根据当前时步潜变量变化速度与平均变化速度的比值,动态调整预测步长,避免大幅运动时预测失真。(2)跨层导数权重函数(), 根据不同扩散层的导数幅度差异,动态调整权重,解决低层纹理特征与高层结构特征的预测误差问题。通过上述预测机制,扩散模型仅需对部分关键时步进行完整去噪,即可直接预测未来多个时步的潜变量,最终实现跳过冗余去噪步骤,达到6倍速推理加速。





FlashPortrait,该模型配备专门设计的训练与推理机制,能够生成具有身份保持特性的无限长度人像动画,并在推理速度上实现了高达6倍的加速。FlashPortrait首先利用现有成熟模型提取与身份无关的面部表情特征。为提升身份稳定性,模型引入了归一化面部表情模块以优化表情特征。在推理阶段,为确保长视频的流畅性与身份一致性,FlashPortrait提出了加权滑动窗口策略。在每个上下文窗口中,进一步引入自适应潜变量预测加速机制,以跳过部分去噪步骤,从而实现6倍推理加速。多数据集实验结果表明,本文模型在合成无限长度、身份保持的人像动画方面具有显著优势,且推理速度大幅提升。
[1] FlashPortrait: 6 × Faster Infinite Portrait Animationwith Adaptive Latent Prediction