首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

StreamV2V——实时视频重绘及换脸

前几天,AI圈子里又掀起了一场轰动,StreamV2V这个新项目横空出世,彻底刷新了我们对实时视频处理的认知。

简单来说,StreamV2V是一种基于扩散模型的实时视频到视频(V2V)翻译技术。通过用户提示,StreamV2V能够实时处理无限帧数的视频,真正实现了“实时换脸”的梦想。

与传统的V2V方法不同,StreamV2V采用了一种新颖的流式处理方式,通过维护一个特征库来存储过去帧的信息,从而实现对当前帧的推理。这种向后看的原则使得StreamV2V在不需要微调的情况下,能够与图像扩散模型无缝集成,展现出卓越的适应性和效率。

效果演示:

不仅如此,StreamV2V在vid2vid任务上表现出色,还能够与txt2img应用无缝集成。与逐图像的StreamDiffusion相比,StreamV2V能够从文本连续生成图像,提供更加平滑的过渡效果。

StreamV2V的设计动机源于现有V2V方法的局限性——它们通常以批处理方式处理帧,这限制了它们能够处理的视频长度,通常不超过4秒。而StreamV2V通过流式处理视频帧,突破了这一限制,实现了实时处理。

在方法上,StreamV2V通过维护一个特征库来存储中间变换器特征。对于新到来的帧,StreamV2V通过扩展自注意力(Extended self-Attention, EA)和直接特征融合(Feature Fusion, FF)来使用这些存储的特征。EA通过将存储的键和值直接连接到当前帧的自注意力计算中,而FF则通过余弦相似性矩阵检索库中的相似特征,然后进行加权求和以融合它们。

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置环境出现各种问题,下载地址(电脑浏览器访问):https://xueshu.fun/4784/,在此页面右侧区域点击下载!

注意电脑配置如下:

windows 10/11 64位操作系统

12G显存以上英伟达显卡

整合包教程

解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行

浏览器访问http://127.0.0.1:7860/,即可在浏览器使用

技术细节

特征库的维护与更新:StreamV2V通过合并存储的和新的特征来不断更新特征库,使其既紧凑又信息丰富。

扩展自注意力(EA):EA将存储的键和值与当前帧的键和值结合,扩展了自注意力的计算范围。

直接特征融合(FF):FF在变换器块的输出上操作,通过余弦相似性矩阵检索库中的相似特征,并进行加权求和以实现特征融合。

性能比较

StreamV2V在性能上显著优于FlowVid, CoDeF, Rerender, 和TokenFlow等其他方法,分别快了15倍、46倍、108倍和158倍。

用户研究

用户研究结果和运行时间的详细分解可以在提供的链接中查看,这进一步证实了StreamV2V在保持时间一致性方面的卓越能力。

结论

StreamV2V代表了视频到视频翻译技术的一个重大进步,它通过创新的流式处理和特征库机制,实现了实时、高效的视频翻译,同时保持了生成视频的高质量和一致性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJmaLuPU8ZvE9HU9xvnuZxqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券