各位可能注意到了我最近非常关注 AI 视频的进展和具体的实现过程,这是因为我感觉 AI 视频的 Midjourney V5 时刻就要到了,最迟到年底(12 月底)AI 视频应该就会大规模用到生产环境中,类似现在的一众 AI 画图软件和到处可以看到的 AI 图像。实际上已经有这个端倪了从开始的 Pika 到后来的Genmo,再到前几天的Moonvalley,效果也越来越好。
根本原因是技术基建的成熟,是的就是Animatediff。我的判断主要基于这几个维度的原因:
从生成质量来看:Animatediff在很多场景生成视频的闪烁都已经可以接受了,由于提示旅行这个功能的存在,时间比较长的视频也能获得不错的连贯性。
从控制方式来看:你现在可以通过Animatediff的镜头控制模型来控制镜头,可以利用 ControlNet 来从原始视频转绘,可以基于图片生成视频,控制方式非常全面适合各种场景。
从资源消耗看:Animatediff小分辨率和低帧率的视频的时候 4090 需要的时间已经非常短了,几秒的视频达到了几十秒这个量级,再加上 SD 生态里面各种原有的放大模块,高清视频消耗的资源也可以接受了。
目前Animatediff主要的问题可能还是在有些人看来每段视频的时长过短,无法生产类似电影镜头那种长视频,还有每段视频的连续性不太够。我理解这在现在不是问题,毕竟现在是短视频的天下,几秒十几秒一个镜头的时长已经够用了。想要 AI 一步到位完成电影或者电视 TVC 这种质量的内容本来就是不现实的。
下面是最近一些比较热门的Animatediff视频,可以看一下相关视频的质量,已经出现的Pika和Moonvalley这类产品也可以试用一下。如果认同我的观点的话也可以点个赞,有想要讨论的也可以随时跟我沟通。
领取专属 10元无门槛券
私享最新 技术干货