前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

作者头像
机器之心
发布2025-02-19 23:02:59
发布2025-02-19 23:02:59
680
举报
文章被收录于专栏:机器之心机器之心

EMO 最初由阿里巴巴通义实验室提出,作为音频驱动高表现力人像 AI 视频生成的先驱。现在,该实验室的研究者带来了升级版本「EMO2」!

只需提供一张人物的肖像图片,你就可以输入任意长度的音频来驱动人物说话、唱歌或进行手势舞。并且,生成的人物表情和动作都具备高度的感染力和专业水准。

  • 论文标题:EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
  • 论文地址:https://arxiv.org/abs/2501.10687
  • 项目地址:https://humanaigc.github.io/emote-portrait-alive-2/

我们来看几个视频生成示例:

1. 研究问题

AI 技术发展已经实现了通过音频驱动人物面部表情的能力,但在虚拟主播、数字人交互等新兴领域,如何让 AI 通过音频自动生成自然流畅的动作肢体语言和表情,始终是业界关注的技术焦点。

以往的方法可能难以通过音频驱动生成流畅自然的手部动作,可能存在肢体错乱或者动作幅度不够大,表现力不够高的问题。

这一领域的一个基本挑战在于人类身体的复杂性,其作为一个多关节的复杂系统,比较难实现对于复杂丰富动作的驱动。以往的音频驱动人体动作生成的方法在捕捉自然动作中多个关节的复杂耦合方面表现不足,导致效果欠佳。研究者表明,音频与不同身体关节之间的关联差异显著。

受启发于机器人控制系统对人类行为的模仿:机器人往往具有一个「末端执行器」(end effector),比如机械手、钻头甚至足部等,它会在特定任务中将末端执行器移动到指定 pose,同时带动其他结构部分动作,这些其他部分关节的角度往往通过逆向运动学(IK)来获取。机器人的控制大多会关注于末端执行器上。

因此,研究者希望重新定义语音-人类动作生成这一任务的目标。手作为日常生活中的「末端执行器」(end effector),与人类意图更紧密相关,并且与音频之间的关系显著。比如,当人类说话或唱歌时,往往会伴随意图明确的手势。因此,建立音频与手部动作的联系会更加简单直接。

然而,类似于机器人控制,通过逆向运动学(IK)来获得其他人体关节角度时,可能会出现奇异性,导致错误的运动规划结果,EMO2 指出,视频生成模型往往具备一定生成人体结构的能力,因此 EMO2 提出可以将人体结构知识融入像素生成,即「具有像素先验知识的 IK」(Pixels Prior IK)。

最终,EMO2 通过音频生成手部动作,然后利用 2D 视频模型生成其他身体部位,从而实现自然高表现力的人物动作视频生成。

2. 技术方案

基于此灵感,研究者提出了一套两阶段的解决方案,用于音频驱动的手势及面部表情生成。

在第一阶段,专注于建立音频到手部动作的映射,基于 DIT 模型,借助音频与手部动作之间的强相关性,生成具有高表现力和高一致性的手势动作。

在第二阶段,研究者使用基于 diffusion UNet 架构的视频生成模型合成视频帧,以第一阶段所生成的动作表征作为引导,生成真实的面部表情和身体动作。

3. 效果对比

EMO2 分别对第一阶段的动作生成和第二阶段的视频生成做了结果对比。

在动作生成方面,EMO2 所生成的动作相比于以往的方法会具有更大运动范围和多样性,且与音频的一致性会更强。

在人物视频生成方面,EMO2 相比以往的方法也存在显著优势,尤其是在手势动作的多样性和手部清晰度上。

4. 结论

EMO2 提出了一种基于扩散模型的两阶段框架,用于生成与音频同步的人物唱歌 / 讲话 / 手势舞视频。EMO2 扩展了 EMO 模型,使其能够生成上半身动作。EMO2 研究发现,在人类自然活动中,手部动作与其他身体部位相比,与音频信号最为相关。

因此,在第一阶段,EMO2 基于音频仅生成手部动作,然后将动作表征作为第二阶段视频生成中的控制信号使用。实验结果表明,该框架能够生成比其他方法更加生动、富有表现力的人体视频。研究者希望这项工作能为音频驱动视频生成的技术提供新的思路。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档