今日主题:INFP-音频驱动的生成逼真面部表情和头部姿态的AI框架
我们先来看一个视频
从这个视频我们可以看到,我们只需要上传一张图片,即可使用音频驱动的生成逼真面部表情和头部姿态
INFP,一种用于二元对话的音频驱动交互式头部生成框架。鉴于二元对话中的双轨音频和任意代理的单个肖像图像,我们的框架可以动态合成具有逼真面部表情和有节奏的头部姿势运动的口头、非口头和交互式代理视频。此外,我们的框架轻量级但功能强大,使其在视频会议等即时通信场景中实用。INFP 表示我们的方法是交互式的、自然的、Flash和Person-generic
通俗易懂的来讲就是
INFP 是一个特殊的工具,它能根据两个人的对话声音和一个人的照片,自动创造出看起来像是在说话和倾听的虚拟头像。这个工具很聪明,能随着对话的内容变化而变化,让头像看起来像是在自然地交流。它还很快,可以在视频会议等场合中使用。INFP 这个名字代表了它的几个特点:它是互动的,能与人交流;它是自然的,看起来很真实;它是快速的,响应迅速;它是通用的,可以适应不同的人物
INFP的主要功能
- 角色自动转换:在双人对话中,INFP能自动进行角色的转换,无需手动分配角色和角色切换,增强了交的自然性和流畅性。
- 轻量与高效:在保持强大功能的同时,INFP还具有轻量级的特性。能够在NvidiaTesla A10上实现超过40 fps的推理速度,这意味着INFP能够支持实时的智能代理交互,无论是代理之间的沟通还是人与代理的互动。
- 交互式头部生成:INFP包含两个关键阶段:基于运动的头部模仿和音频引导的运动生成。第一阶段将真实对话视频中的面部交流行为编码到低维运动潜在空间,第二阶段则将输入的音频映射到这些运动潜在代码,实现音频驱动的头部生成。
- 大规模双人对话数据集DyConv:为了支持该研究领域的进步,INFP提出了大规模双人对话数据集DyConv,从互联网上收集的丰富的二元对话。
INFP的技术原理
- 基于运动的头部模仿阶段:在这个阶段,框架学习将现实生活中的对话视频中的面部交流行为投影到一个低维运动潜在空间。这个过程涉及到从大量真实对话视频中提取面部交流行为,并将其编码为可以驱动静态图像动画的运动潜在代码。
- 音频引导运动生成阶段:在第二阶段,框架学习从输入的双通道音频到运动潜在代码的映射。这一阶段通过去噪过程实现,从而在交互场景中实现音频驱动的头部生成。
- 实时互动与风格控制:INFP支持实时互动,支持用户在对话中随时打断或回应虚拟形象。通过提取任意肖像视频的风格向量,INFP还能够全局控制生成结果中的情绪或态度。
INFP的工作原理是怎么样的呢?
现有的交互式头部生成(左)采用手动角色分配和显式角色切换。我们提出的 INFP(右)是一个统一的框架,可以动态、自然地适应各种对话状态。
INFP 示意图。第一阶段(基于运动的头部模仿)学习将真实对话视频中的面部交流行为投射到低维运动潜码空间中,并使用潜码为静态图像制作动画。第二阶段(音频引导运动生成)通过去噪学习从输入的二元音频到运动潜码的映射,以实现音频驱动的交互式头部生成。
INFP的应用场景
- 视频会议与虚拟助手:INFP框架能实现真实感、交互性和实时性,适合实时场景,例如视频会议和虚拟助手等,提供更加自然和流畅的交互体验。
- 社交媒体与互动娱乐:在社交媒体平台或互动娱乐应用中,INFP可以用于生成具有自然表情和头部动作的交互式头像,增强用户的互动体验。
- 教育培训:INFP可以用于创建虚拟教师或培训师,提供更加生动和互动的教学体验
- 客户服务:在客户服务领域,INFP可以用于生成虚拟客服代表,提供更加人性化的服务。
- 广告与营销:INFP可以用于生成更加吸引人的虚拟代言人,用于广告和营销活动,提供更加通真和互动的广告体验。
- 游戏与模拟:在游戏和模拟环境中,INFP可以用于创建更加真实和互动的角色,提高游戏的沉浸感和互动性。
INFP的项目地址
项目官网:https://grisoon.github,io/INFP/C
arXiv技术论文:https://www.arxiv.org/pdf/2412.040370
好了,介绍到此,再会!