
不知道各位炼丹师和AI爱好者们有没有这种感觉:现在的AI视频生成,尤其是数字人对话,总有种说不出的诡异感。要么是眼神空洞,只有嘴巴在机械地一张一合,像个腹语木偶;要么就是身体僵得像块木板,任凭你音频里情绪再激昂,他自岿然不动。似乎缺了点“灵魂”。美团开源了了——InfiniteTalk。我瞅了一眼,嘿,这玩意儿好像真有点东西,它想解决的,恰恰就是数字人“灵魂附体”的难题。
看两个Demo感受一下,这嘴唇对的挺准啊。第一个视频,从视频到视频:
第二个视频,是从一张照片生成的一个视频,然后配音,就是常见的“让蒙娜丽莎唱Rap”。让老外讲中文。
本模型并不是视频生成,而是根据你提供的一段视频和一段新的音频,合成一个全新的视频。其中视频生成需要使用阿里的WAN之类的模型。
我们先来看看 InfiniteTalk 是个啥。官方给它的定义是“稀疏帧视频配音框架”(sparse-frame video dubbing)。听着有点玄乎?它的核心任务就是把你提供的一段视频和一段新音频,合成一个全新的视频。但重点在于,它不止是让视频里的人对上新音频的口型。
项目地址:https://huggingface.co/MeiGen-AI/InfiniteTalk 代码仓库:https://github.com/MeiGen-AI/InfiniteTalk
InfiniteTalk 的野心,是实现“全方位同步”。这包括:
我个人感觉,这就是从“配音”到“表演”的跨越。以前的模型是个优秀的配音演员,只管声音;而 InfiniteTalk 想当的是个演员,它要调动全身的“演技”去匹配这段音频。这要是真做好了,那可比单纯的 talking head 高到不知道哪里去了。
除了“灵魂注入”,InfiniteTalk 还亮出了两个特别吸引我的特性:
1. 无限长生成 (Infinite-Length Generation)
这个名字里的 "Infinite" 可不是白叫的。做过视频生成的朋友都懂,很多模型生成个十几秒还行,时间一长,要么效果劣化,要么直接崩掉。InfiniteTalk 敢叫这个名字,就是宣称自己能处理无限时长的视频。这意味着你可以用它来给一部完整的电影重新配音,而不用担心模型“体力不支”。对于想做长视频内容的朋友,这简直是福音。
2. 稳定性超强 (Stability)
另一个痛点是“AI抽风”。很多视频生成模型,动不动就手部扭曲、身体出现诡异的变形,俗称“掉san”。InfiniteTalk 在文档里特别提到,跟它的前辈 MultiTalk 相比,它大幅减少了手部和身体的扭曲。稳定性,是AI工具从“玩具”走向“生产力”的关键一步,InfiniteTalk 显然在这里下了功夫。
InfiniteTalk 还有一个很实用的副业:它可以作为 Image-to-Video 模型使用。什么意思呢?就是你不需要提供一段视频作为基础,你只需要给它一张静态的人物图片,再配上一段音频,InfiniteTalk 就能让这张照片里的人动起来,开口说话。嗯,没错,就是我们常见的那种“让蒙娜丽莎唱Rap”的应用。但这结合了它“全身同步”的特性,理论上效果会比那些只动嘴的工具生动得多。
准备拿我家娃的照片,让她去唱歌~~~
这个模型背后的论文在这:INFINITETALK: AUDIO-DRIVEN VIDEO GENERATION FOR SPARSE-FRAME VIDEO DUBBING,不做过多解读。使用上,InfiniteTalk 遵循 Apache 2.0 协议,这意味着它对商业使用相当友好。
总的来说,InfiniteTalk 给我画了一个非常诱人的饼:一个不仅会说话,还懂“表演”的AI数字人生成工具,而且它还持久、稳定。如果它真能兑现承诺,那无疑将是视频翻译、虚拟主播、内容创作领域的一个重磅玩家。AI视频生成的“木头人”时代,或许真的要结束了。
如果你觉得这篇文章对你有帮助,别忘了 点赞、转发、在看,并留言分享你的看法~