大家好,今天要介绍的是最近出现的一篇关于文本驱动的视频编辑工作NVEdit。本文针对现有的基于扩散模型的算法编辑结果存在明显抖动,且受限于显存限制,难以编辑长视频的缺陷,提出了一种显存高效的长视频编辑算法NVEdit,基于现有的T2I模型实现帧间一致的长视频编辑。具体来说,本文以隐式神经表示显存高效地编码视频信号,并用T2I模型优化神经网络参数,注入编辑效果,实现帧间一致的长视频编辑。实验证明:NVEdit足以编辑几百上千帧的长视频,且编辑效果高度符合文本指令并保留了原始视频的语义布局。
项目地址:https://nvedit.github.io/ 代码地址:https://github.com/Ysz2022/NVEdit
如上图所示,用户可向NVEdit提供文本指令实现帧间一致的高质量视频编辑。比如左侧第一行展示的是狼的视频,用户输入“把狼变成熊的文本”后,NVEdit成功输出一段新的视频(左侧第二行)。本文方法支持各种编辑操作,包括变形、场景变化和风格迁移等,同时保留原始场景的运动和语义布局。由于其高效的编码率,具有几百上千帧的长视频也可被很好地编辑。
如图所示,本文方法由两阶段训练组成:视频拟合阶段和场编辑阶段。在视频拟合阶段,作者先用一个神经网络(Neural Video Field)将视频信号编码为模型参数,学习原视频的运动和语义布局等先验。在场编辑阶段,作者逐帧地让神经网络渲染出图片,调用现有的T2I模型对渲染帧进行文本驱动编辑,以编辑帧为伪GT优化网络参数,注入编辑效果。
视频拟合阶段。受益于已有的基于神经场的视频编辑算法,本文选用了一种混合的显隐式编码结构,其将视频建模为一个x-y-t的三维空间,并以三平面和稀疏网格结构显式地编码视频信号。编码后的特征可由一个定制的轻量级MLP(multilayer perceptron)解码回RGB的像素信号。在场编辑阶段中,作者令MLP解码的像素与原始视频对应坐标处的像素值一致,实现以神经网络参数记录视频信号的功能。此过程中,模型充分学习了原始视频的运动及语义布局等先验。
场编辑阶段。考虑到T2I算法的蓬勃发展,本文选用现有的T2I模型(Instruct-Pix2Pix[3])为视频编辑提供编辑效果。如图所示,作者逐帧渲染图像,并以原视频对应帧和用户指令为条件,调用T2I模型生成编辑帧。编辑帧可作为伪GT进一步优化上一阶段训练好的神经视频场,从而注入编辑效果。
本文展示了四组来自 NVEdit 的视觉结果,它支持多种类型的编辑,包括风格迁移和形状变化。每组结果对应的编辑文本都在下方给出。
此外,本文也与其他SOTA的文本驱动视频编辑算法做了对比实验。注意由于本文主要选用Instruct-Pix2Pix(IP2P)提供编辑效果,IP2P作为基准模型也被纳入对比范围。为了尽可能让这个T2I模型生成帧间一致的结果,作者固定了它的随机种子。下图给出了NVEdit和其他 SOTA 方法之间的主观比较。可以看到IP2P无法输出帧间一致的结果,例如箭头指向的区域的差异。其他方法要么扭曲形状,要么编辑了错误的区域,要么无法在不同的视点上运行稳定。NVEdit不仅生成时序一致的内容,而且还能精确控制要编辑的区域。
本文还设计了一些定量指标以客观对比不同方法的视频编辑效果。具体来说,作者设计了两组六个指标,分别为由CLIP计算的3个指标:i) Tem-Con:测量帧间一致性。只采用CLIP中的图像编码器,计算所有连续帧对之间的余弦相似度。ii) Frame-Acc:逐帧编辑精度,表示编辑视频中与目标文本具有更高的CLIP相似度的帧占总帧数的百分比。iii) Vid-Score:编辑帧和目标文本之间的余弦相似度的平均值,表示语义差异。以及根据21名志愿者打分的3个指标,包括“Edit”、“Image”和“Temporal”。这些指标分别衡量编辑帧和目标文本之间的一致性、编辑帧的图像质量和编辑视频的时间一致性。
视觉信息智能学习实验室(VILLA)由张健助理教授在2019年创立并负责,致力于AI内容生成与安全、底层视觉、三维场景理解等研究方向,已在CVPR、ICCV、ECCV、NeurIPS、ICLR、TPAMI、TIP、IJCV、AAAI等高水平国际期刊会议上发表成果50余篇。VILLA在图像合成与编辑领域发布多款爆火技术和产品,包括T2I-Adapter、DragonDiffusion、FreeDoM。其中T2I-Adapter已被AIGC领域的独角兽公司Stability AI与其旗舰模型StableDiffusion-XL结合,推出涂鸦生成产品Stable Doodle。近期,VILLA在AIGC内容生成和安全方面推出了多项工作,包括零样本图生视频新方法AnimateZero,联合篡改定位与版权保护的多功能图像水印EditGuard,扩散隐写新范式CRoSS,基于物理的动态人机交互模拟框架PhysHOI,渐进式3D内容生成框架Progressive3D等