首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一张图片+ 一条音频,照片开口说话唱歌,多角色、情绪控制都拿捏了。

一张图片+ 一条音频,照片开口说话唱歌,多角色、情绪控制都拿捏了。

作者头像
AI进修生
发布于 2025-06-08 10:31:16
发布于 2025-06-08 10:31:16
1520
举报
文章被收录于专栏:AI进修生AI进修生
Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

腾讯混元联合腾讯音乐,搞了个新模型 HunyuanVideo-Avatar,能让照片直接“活”过来。

你只要上传一张照片,再配上一段音频,它就能自动识别场景氛围和情绪,然后生成跟真人说话唱歌差不多的动态视频。

我也是用实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。这篇文章里的现实风格提示词 + GPT4o 生成了一张水獭图片。

图片
图片

顺手把我这个视频的音频给他了:

,时长00:23

生成过程还挺久的:

,时长00:13

挺逗的。

看官方演示,效果还挺不错。

,时长01:04

支持各种风格的角色(真人、卡通、3D),还能控制情绪(喜怒哀乐),甚至多角色同框对话也不在话下。

图片
图片

官方说,这技术就是为短视频创作、电商带货、广告这些场景量身打造的,已经在腾讯音乐的好几个 App 里用上了。

现在,单角色模式已经开源,代码、模型权重、项目主页、技术报告都放出来了,在混元官网也能直接体验(支持最长 14 秒音频)。多角色模式也说快了。

  • 项目主页: https://hunyuanvideo-avatar.github.io
  • Hugging Face 模型: https://huggingface.co/tencent/HunyuanVideo-Avatar
  • GitHub 代码: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
  • 在线体验: https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
  • 技术报告 (arXiv): https://arxiv.org/pdf/2505.20156

技术层面,HunyuanVideo-Avatar 有啥不一样?

以前搞这种音频驱动的人物动画,主要有几个难题:

  1. 想让视频动作丰富吧,角色的形象又容易崩
  2. 角色的情绪跟音频里的情绪,老是对不上号
  3. 多个人一起说话的场景,基本搞不定。

他们用的是一种基于多模态扩散 Transformer (MM-DiT) 的模型,主要有三个核心创新:

  1. 角色图像注入模块 (Character Image Injection Module): 以前很多方法是直接把参考图的特征加到视频里,这样虽然能保证形象一致,但动作就僵硬了。而且训练和推理的时候,条件容易不匹配。 HunyuanVideo-Avatar 这个新模块,换了一种方式注入角色特征(沿着通道维度注入,避免了直接在潜空间操作带来的动态性和一致性的权衡),目标是既能让动作流畅自然,又能牢牢锁住角色的样子。他们对比了三种注入方式(Token Concat, Token Concat + Channel Concat, 以及他们自己的方法),发现他们的方法效果最好。
图片
图片
  1. 音频情绪模块 (Audio Emotion Module, AEM): 为了让角色的表情能跟音频里的情绪对上,他们搞了这个模块。它能从一张带有情绪参考的图片里提取情绪线索,然后把这些线索“传递”到生成的视频里。这样,就能更精细地控制角色的情绪风格,让表情更真实。他们发现,把这个模块插到模型的 Double Block 里效果最好,能更好地捕捉和表达情绪细节。
  2. 面部感知音频适配器 (Face-Aware Audio Adapter, FAA): 多角色场景下,怎么让不同的人根据不同的音频说话,这是个大难题。FAA 就是干这个的。它会在潜空间层面,用面部掩码把需要被音频驱动的角色“框”出来,然后通过交叉注意力机制,只把对应的音频信息注入到这个特定角色的面部区域。这样,就能独立控制不同角色的口型和表情,实现更逼真的多角色对话效果。
图片
图片

▲ 整体框架图

HunyuanVideo-Avatar 在一些公开的基准数据集(比如 CelebV-HQ, HDTF)和他们自己搞的一个包含各种复杂场景的“野外数据集”上,都取得了比现有 SOTA 方法更好的效果。

图片
图片

官方的定量对比数据显示,在 FID、FVD、IQA、ASE、Sync-C 这些指标上,HunyuanVideo-Avatar 都表现出色。用户研究也表明,在口型同步、身份保持这些方面,它比其他方法强。

怎么本地部署?

官方提供了详细的安装指南和运行命令,支持 Conda 环境和 Docker 镜像。硬件方面,需要英伟达 GPU,推荐 80GB 显存,最低也得 24GB(跑起来会很慢)。

他们还提到了长视频生成的方法,用的是一种叫做 Time-aware Position Shift Fusion 的技术,能让模型生成超过 129 帧的视频,减少卡顿和突兀的转场。

https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档