首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >美团开源InfiniteTalk,AI数字人从“对口型”到“演对手戏”!太强了

美团开源InfiniteTalk,AI数字人从“对口型”到“演对手戏”!太强了

作者头像
AgenticAI
发布2025-09-02 19:49:21
发布2025-09-02 19:49:21
2.1K0
举报
文章被收录于专栏:AgenticAIAgenticAI

大家好,这里是 Agentic AI,我是 Mountain。

不知道各位炼丹师和AI爱好者们有没有这种感觉:现在的AI视频生成,尤其是数字人对话,总有种说不出的诡异感。要么是眼神空洞,只有嘴巴在机械地一张一合,像个腹语木偶;要么就是身体僵得像块木板,任凭你音频里情绪再激昂,他自岿然不动。似乎缺了点“灵魂”。美团开源了了——InfiniteTalk。我瞅了一眼,嘿,这玩意儿好像真有点东西,它想解决的,恰恰就是数字人“灵魂附体”的难题。

看两个Demo感受一下,这嘴唇对的挺准啊。第一个视频,从视频到视频:

第二个视频,是从一张照片生成的一个视频,然后配音,就是常见的“让蒙娜丽莎唱Rap”。让老外讲中文。

本模型并不是视频生成,而是根据你提供的一段视频和一段新的音频,合成一个全新的视频。其中视频生成需要使用阿里的WAN之类的模型。

从“对口型”到“演对手戏”

我们先来看看 InfiniteTalk 是个啥。官方给它的定义是“稀疏帧视频配音框架”(sparse-frame video dubbing)。听着有点玄乎?它的核心任务就是把你提供的一段视频和一段新音频,合成一个全新的视频。但重点在于,它不止是让视频里的人对上新音频的口型。

项目地址:https://huggingface.co/MeiGen-AI/InfiniteTalk 代码仓库:https://github.com/MeiGen-AI/InfiniteTalk

InfiniteTalk 的野心,是实现“全方位同步”。这包括:

  • 嘴唇同步 (Lip Sync):这是基本功,但它号称比竞品(比如MultiTalk)做得更准。
  • 头部姿态 (Head Movements):音频里有疑问语气?它可能会给你一个歪头杀。
  • 身体姿态 (Body Posture):音频情绪激昂?身体可能也会有相应的微妙动作。
  • 面部表情 (Facial Expressions):终于,不止是嘴动了,眉毛、眼睛都可能跟着情绪走。

我个人感觉,这就是从“配音”到“表演”的跨越。以前的模型是个优秀的配音演员,只管声音;而 InfiniteTalk 想当的是个演员,它要调动全身的“演技”去匹配这段音频。这要是真做好了,那可比单纯的 talking head 高到不知道哪里去了。

两大杀手锏,专治“短”和“抽风”

除了“灵魂注入”,InfiniteTalk 还亮出了两个特别吸引我的特性:

1. 无限长生成 (Infinite-Length Generation)

这个名字里的 "Infinite" 可不是白叫的。做过视频生成的朋友都懂,很多模型生成个十几秒还行,时间一长,要么效果劣化,要么直接崩掉。InfiniteTalk 敢叫这个名字,就是宣称自己能处理无限时长的视频。这意味着你可以用它来给一部完整的电影重新配音,而不用担心模型“体力不支”。对于想做长视频内容的朋友,这简直是福音。

2. 稳定性超强 (Stability)

另一个痛点是“AI抽风”。很多视频生成模型,动不动就手部扭曲、身体出现诡异的变形,俗称“掉san”。InfiniteTalk 在文档里特别提到,跟它的前辈 MultiTalk 相比,它大幅减少了手部和身体的扭曲。稳定性,是AI工具从“玩具”走向“生产力”的关键一步,InfiniteTalk 显然在这里下了功夫。

不止配音,还能让照片“活”起来

InfiniteTalk 还有一个很实用的副业:它可以作为 Image-to-Video 模型使用。什么意思呢?就是你不需要提供一段视频作为基础,你只需要给它一张静态的人物图片,再配上一段音频,InfiniteTalk 就能让这张照片里的人动起来,开口说话。嗯,没错,就是我们常见的那种“让蒙娜丽莎唱Rap”的应用。但这结合了它“全身同步”的特性,理论上效果会比那些只动嘴的工具生动得多。

准备拿我家娃的照片,让她去唱歌~~~

总结

这个模型背后的论文在这:INFINITETALK: AUDIO-DRIVEN VIDEO GENERATION FOR SPARSE-FRAME VIDEO DUBBING,不做过多解读。使用上,InfiniteTalk 遵循 Apache 2.0 协议,这意味着它对商业使用相当友好。

总的来说,InfiniteTalk 给我画了一个非常诱人的饼:一个不仅会说话,还懂“表演”的AI数字人生成工具,而且它还持久、稳定。如果它真能兑现承诺,那无疑将是视频翻译、虚拟主播、内容创作领域的一个重磅玩家。AI视频生成的“木头人”时代,或许真的要结束了。

如果你觉得这篇文章对你有帮助,别忘了 点赞、转发、在看,并留言分享你的看法~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大家好,这里是 Agentic AI,我是 Mountain。
    • 从“对口型”到“演对手戏”
    • 两大杀手锏,专治“短”和“抽风”
    • 不止配音,还能让照片“活”起来
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档