Hi,这里是Aitrainee,欢迎阅读本期新文章。
腾讯混元联合腾讯音乐,搞了个新模型 HunyuanVideo-Avatar,能让照片直接“活”过来。
你只要上传一张照片,再配上一段音频,它就能自动识别场景氛围和情绪,然后生成跟真人说话唱歌差不多的动态视频。
我也是用实测 Google I/O 放出来的 Imagen4,不如GPT4o、甚至不如Imagen3。。这篇文章里的现实风格提示词 + GPT4o 生成了一张水獭图片。
顺手把我这个视频的音频给他了:
,时长00:23
生成过程还挺久的:
,时长00:13
挺逗的。
看官方演示,效果还挺不错。
,时长01:04
支持各种风格的角色(真人、卡通、3D),还能控制情绪(喜怒哀乐),甚至多角色同框对话也不在话下。
官方说,这技术就是为短视频创作、电商带货、广告这些场景量身打造的,已经在腾讯音乐的好几个 App 里用上了。
现在,单角色模式已经开源,代码、模型权重、项目主页、技术报告都放出来了,在混元官网也能直接体验(支持最长 14 秒音频)。多角色模式也说快了。
技术层面,HunyuanVideo-Avatar 有啥不一样?
以前搞这种音频驱动的人物动画,主要有几个难题:
他们用的是一种基于多模态扩散 Transformer (MM-DiT) 的模型,主要有三个核心创新:
▲ 整体框架图
HunyuanVideo-Avatar 在一些公开的基准数据集(比如 CelebV-HQ, HDTF)和他们自己搞的一个包含各种复杂场景的“野外数据集”上,都取得了比现有 SOTA 方法更好的效果。
官方的定量对比数据显示,在 FID、FVD、IQA、ASE、Sync-C 这些指标上,HunyuanVideo-Avatar 都表现出色。用户研究也表明,在口型同步、身份保持这些方面,它比其他方法强。
怎么本地部署?
官方提供了详细的安装指南和运行命令,支持 Conda 环境和 Docker 镜像。硬件方面,需要英伟达 GPU,推荐 80GB 显存,最低也得 24GB(跑起来会很慢)。
他们还提到了长视频生成的方法,用的是一种叫做 Time-aware Position Shift Fusion 的技术,能让模型生成超过 129 帧的视频,减少卡顿和突兀的转场。
https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar