点击下方卡片,关注“AI生成未来”
如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jun-Kun Chen等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2509.04450 项目链接:https://immortalco.github.io/VirtualFittingRoom/

生成两段任意长度的视频片段

VFR框架
亮点直击
给定用户图像、参考服装图像、可选的文本提示和长动作参考视频,本文的VFR是一种以自回归、逐段的方式生成用户穿着所需服装并执行指定动作的长达分钟级的高质量试衣视频的方法。在自回归生成框架中,核心挑战是实现(1)局部平滑性,使视频过渡无缝且没有明显的突然变化或变形(下图5);以及(2)全局时间一致性,使得视频中所有出现时刻的用户和服装外观保持一致(下图2)。


为了解决这些关键挑战,本文核心见解是(1)提出“锚视频”生成,以确保整个视频中的一致外观,以及(2)引入视频前缀条件和即时优化器,通过强条件增强视频平滑度。结合这两个见解,本文的VFR实现了高质量的长试衣视频,同时确保平滑性和时间一致性。

人体主体以简单的“A”姿势进行的360°短视频作为合理的锚点
模型训练设置。VFR模型建立在Dress&Dance的基础上,增加了“前缀视频”和“锚视频”CondNets。我们在Dress&Dance的互联网和捕获数据集上训练VFR 10,000次迭代。即时优化器从基础VFR的第5,000次迭代检查点初始化,并再训练5,000次迭代。
评估任务。有四个不同部分:(1)360°服装一致性,生成5秒360°视角的“A”姿势视频,该视频也作为其他任务的锚视频;(2)360°人体+服装一致性,生成30秒360°随意移动视频;(3)360°手部与身体交互保真度,生成90秒固定动作视频;以及(4)任意姿势能力,生成30∼60秒任意动作视频。
Baseline。将VFR与FramePack基线进行比较,采用与Dress&Dance对齐的“图像虚拟试衣+图像到视频动画”(IVT+I2V)程序。以[14]中提到的“重复图像到视频”(RI2V)方式与Kling Video 2.0进行比较。我们无法与以下基线进行比较:StreamT2V,因为它仅支持16:9横向视频;CausVid,因为没有可用的图像到视频检查点发布;TTT,因为它仅支持汤姆和杰瑞视频;以及DiffusionForcing和HistoryGuidance,因为它们仅限于各自训练数据集的视频。至于图像试衣方法,本文主要使用两种最先进的方法,Dress&Dance图像试衣和Kling Try-On,来生成视频的第一帧。
消融研究。将完整的VFR与以下变体进行比较:(1)“无前缀”(NP),不使用前缀条件,而是直接利用DiffEdit来绘制带有前缀的视频;(2)“无锚”(NA),不生成和基于锚视频进行片段生成条件;(3)“Dress&Dance”(D&D),既不使用锚视频也不使用前缀条件,这使其等同于一种无需训练的方法,该方法采用Dress&Dance与DiffEdit进行长视频生成;(4)“无优化”(NR),不使用即时优化器来优化每个片段的输出。
指标。与Dress&Dance和FramePack一致,利用基于GPT的分数和VBench来评估本文的视频。GPT分数可以有效地从各个方面评估试衣质量,利用GPT的视觉能力;VBench引入了一套指标,从质量和语义角度全面评估视频。
在下图6、7、8中以图像形式展示了定性结果,并在项目页面中以视频形式展示。在下表1中提供了定量结果。




360°人体+服装一致性(30秒)。如上图6-(a)所示,VFR生成了高质量的长虚拟试衣视频。在图6-(b)中,本文的“无前缀”(NP)变体由于全局锚视频的存在,生成的结果与本文的完整VFR相当,但在项目页面中展示了一些突然变化。相比之下,本文的“无锚”(NA)变体的视频显示出长期时间不一致性,而“Dress&Dance无训练”(D&D)变体在短期和长期都表现出更大的时间不一致性。这突显了我们VFR中用于局部平滑性和全局时间一致性的两种设计都是有效且必要的。在图6-(c)中,基线FramePack产生了整体平滑的结果,但存在长期不一致性,而基于Kling Video 2.0的RI2V方法生成的结果中外观显著偏离。这表明虚拟试衣任务是非平凡且具有挑战性的,突显了我们在实现高质量结果方面的贡献。
手部与身体交互保真度(90秒)。见上图7,这些评估任务中的动作包括人体旋转和手臂运动。本文的VFR在不同虚拟试衣任务中忠实地执行相同的动作,展示了在各种服装(如裤子、裙子或连衣裙)中描绘相同动作的能力。即使对于如此长期的视频,本文的VFR仍保持高度的时间一致性,这可以通过比较第一帧和最后一帧观察到。
任意姿势能力(∼50秒)。见上图8,在这些极具挑战性的任务中,动作可以是任意的,包括各种手臂和腿部运动,这导致了服装和用户之间更广泛的展示和交互。本文的VFR有效地处理了这些动作,并生成了高质量的视觉效果来描绘它们。这表明VFR有能力推广到各种长视频虚拟试衣任务。
定量实验。定量评估比较在表1中提供。使用VBench中的“主体一致性”、“背景一致性”和“运动平滑性”来评估如何解决两个主要挑战——时间一致性和平滑性,以及使用[8]中的GPT指标来评估整体虚拟试衣质量。
如上表1所示,在每个评估协议的组成部分中,完整VFR始终优于所有基线和变体。此外,由于本文的VFR基于先前的工作Dress&Dance,所有这些变体都保持了其一部分虚拟试衣能力,实现了可比的GPT评估分数,其中D&D变体作为利用D&D的无训练长视频生成流程,保留了其大部分能力。
本文的NP变体的性能与本文的完整模型非常相似,反映了锚视频提供的强控制。然而,没有锚视频,NA和D&D变体在(人物)主体和背景一致性方面都显著下降,甚至在GPT评估指标中,NA变体的虚拟试衣质量也出现了退化。这表明锚视频不仅控制一致的外观,还控制试衣质量。
本文将最强大的基线FramePack和Kling与最先进的虚拟试衣方法Dress&Dance结合起来进行比较。FramePack的一致性指标显著较低,表明其考虑先前帧的条件方法不足以强制一致性。Kling的一致性指标仍略低于本文的VFR,但虚拟试衣的质量有所下降。
VFR,一种从单个用户图像、服装和动作参考生成任意长、高分辨率视频的虚拟试衣方法。我们方法的关键是锚视频引导的框架,确保各片段间的时间一致性,并隐式捕捉3D结构,无需3D监督即可实现自由视角渲染。结合前缀条件,在长视频生成中实现了局部平滑性和全局时间一致性。进一步引入了一种新的评估协议,专门针对长视频虚拟试衣,涵盖服装保真度、用户外观和动作鲁棒性。实验表明,VFR产生的结果真实、平滑、时间一致且服装保真,显著超越了先前方法的能力。我们相信VFR为互动式、个性化的虚拟试衣体验开辟了新途径——无论是在电子商务、虚拟社交平台还是创意内容生成中。
讨论。本文在为虚拟试衣生成任意长、高分辨率视频方面取得了进展。本文的初步分析表明,额外的视频数据可以帮助我们进一步提高生成视频的质量。其次,尽管这项工作是第一项此类工作,但生成30秒视频需要1∼2小时,这不足以近乎实时地生成长视频——将这种加速作为有趣的未来工作。最后,相信本文的工作将为从长视频过渡到任意4D内容铺平道路,用户可以在其中更改相机视角和动作。
[1] Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image Technical Preview
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!