复旦百度等开源的AI对口型肖像视频生成框架 Hallo,不仅质量好，动作丰富质量高，还是完全开源的

deephub

发布于 2024-07-01 14:40:37

9700

文章被收录于专栏：DeepHub IMBADeepHub IMBA

近日，由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员联合开发的AI对口型肖像图像动画技术——Hallo，正式发布。这一框架结合了先进的音频分析技术和视觉合成模块，能够根据语音音频输入生成高度逼真且动态的肖像图像视频。

技术背景与特点

Hallo技术采用了基于扩散的生成模型和分层音频驱动视觉合成模块，通过UNet去噪器、时间对齐技术和参考网络，实现了音频与视觉输出的高度同步精度。其主要功能特色包括：

音频同步动画：利用精确的唇动同步算法，确保视频动画中的嘴唇动作与音频声音同步，创造出逼真的说话效果。

面部表情生成：根据音频信号的情感和语调变化，自动生成对应的面部表情，使得动画角色的表演更加自然和富有情感。

头部姿态控制：允许对视频动画中的头部姿态进行精细调整，增强视觉与听觉的协调性。

个性化动画定制：支持根据不同应用场景和个人特征定制动画的风格、表情和动作，满足特定的视觉和情感表达需求。

技术架构与应用场景

Hallo的网络架构结合了先进的扩散模型和UNet去噪器，通过音频驱动的视觉合成模块实现对表情和姿态的自适应控制，提升了动画生成的多样性和真实感。该技术不仅在学术研究中具有突破性，也在实际应用中展现出广阔的应用前景，如数字娱乐、教育和虚拟助手等领域。

Hallo的性能与实验结果

经过与其他SOTA方法的定量和定性比较，Hallo在多项评估指标上表现出色。在各种数据集上，包括HDTF和CelebV，Hallo展示了优越的生成视频质量、唇形同步精度和运动多样性。这些结果显示，Hallo不仅能够应对不同风格的人像和音频输入，还能够捕捉到复杂场景下的细微表情和头部动作变化。

社会反响与未来展望

尽管Hallo技术在提升用户体验和视觉效果方面取得了显著进展，但也引发了社会对于深度伪造技术可能带来的潜在隐患的讨论。研究团队表示，他们正在积极探索技术在安全和伦理方面的应对策略，以确保其在社会应用中的安全性和合法性。

Hallo作为一种新兴的AI对口型肖像图像动画技术，不仅在技术创新和应用场景多样性上展现出巨大潜力，也为数字娱乐和虚拟现实等领域带来了新的可能性。随着技术的不断发展和改进，预计将为用户带来更加丰富、沉浸式的视听体验。

最主要的是不像隔壁公司那样PPT开源， Hallo可是开放了完整的代码，权重的，我们直接拿来就可以使用

https://fudan-generative-vision.github.io/hallo/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-20，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度