美团开源InfiniteTalk，AI数字人从“对口型”到“演对手戏”！太强了

AgenticAI

发布于 2025-09-02 19:49:21

2.1K0

文章被收录于专栏：AgenticAIAgenticAI

大家好，这里是 Agentic AI，我是 Mountain。

不知道各位炼丹师和AI爱好者们有没有这种感觉：现在的AI视频生成，尤其是数字人对话，总有种说不出的诡异感。要么是眼神空洞，只有嘴巴在机械地一张一合，像个腹语木偶；要么就是身体僵得像块木板，任凭你音频里情绪再激昂，他自岿然不动。似乎缺了点“灵魂”。美团开源了了——InfiniteTalk。我瞅了一眼，嘿，这玩意儿好像真有点东西，它想解决的，恰恰就是数字人“灵魂附体”的难题。

看两个Demo感受一下，这嘴唇对的挺准啊。第一个视频，从视频到视频：

第二个视频，是从一张照片生成的一个视频，然后配音，就是常见的“让蒙娜丽莎唱Rap”。让老外讲中文。

本模型并不是视频生成，而是根据你提供的一段视频和一段新的音频，合成一个全新的视频。其中视频生成需要使用阿里的WAN之类的模型。

从“对口型”到“演对手戏”

我们先来看看 InfiniteTalk 是个啥。官方给它的定义是“稀疏帧视频配音框架”（sparse-frame video dubbing）。听着有点玄乎？它的核心任务就是把你提供的一段视频和一段新音频，合成一个全新的视频。但重点在于，它不止是让视频里的人对上新音频的口型。

项目地址:https://huggingface.co/MeiGen-AI/InfiniteTalk 代码仓库:https://github.com/MeiGen-AI/InfiniteTalk

InfiniteTalk 的野心，是实现“全方位同步”。这包括：

嘴唇同步 (Lip Sync)：这是基本功，但它号称比竞品（比如MultiTalk）做得更准。
头部姿态 (Head Movements)：音频里有疑问语气？它可能会给你一个歪头杀。
身体姿态 (Body Posture)：音频情绪激昂？身体可能也会有相应的微妙动作。
面部表情 (Facial Expressions)：终于，不止是嘴动了，眉毛、眼睛都可能跟着情绪走。

我个人感觉，这就是从“配音”到“表演”的跨越。以前的模型是个优秀的配音演员，只管声音；而 InfiniteTalk 想当的是个演员，它要调动全身的“演技”去匹配这段音频。这要是真做好了，那可比单纯的 talking head 高到不知道哪里去了。

两大杀手锏，专治“短”和“抽风”

除了“灵魂注入”，InfiniteTalk 还亮出了两个特别吸引我的特性：

1. 无限长生成 (Infinite-Length Generation)

这个名字里的 "Infinite" 可不是白叫的。做过视频生成的朋友都懂，很多模型生成个十几秒还行，时间一长，要么效果劣化，要么直接崩掉。InfiniteTalk 敢叫这个名字，就是宣称自己能处理无限时长的视频。这意味着你可以用它来给一部完整的电影重新配音，而不用担心模型“体力不支”。对于想做长视频内容的朋友，这简直是福音。

2. 稳定性超强 (Stability)

另一个痛点是“AI抽风”。很多视频生成模型，动不动就手部扭曲、身体出现诡异的变形，俗称“掉san”。InfiniteTalk 在文档里特别提到，跟它的前辈 MultiTalk 相比，它大幅减少了手部和身体的扭曲。稳定性，是AI工具从“玩具”走向“生产力”的关键一步，InfiniteTalk 显然在这里下了功夫。

不止配音，还能让照片“活”起来

InfiniteTalk 还有一个很实用的副业：它可以作为 Image-to-Video 模型使用。什么意思呢？就是你不需要提供一段视频作为基础，你只需要给它一张静态的人物图片，再配上一段音频，InfiniteTalk 就能让这张照片里的人动起来，开口说话。嗯，没错，就是我们常见的那种“让蒙娜丽莎唱Rap”的应用。但这结合了它“全身同步”的特性，理论上效果会比那些只动嘴的工具生动得多。

准备拿我家娃的照片，让她去唱歌~~~