[AIGC服务] LivePortrait | 视频控制的数字人动画

iResearch666

发布于 2024-07-29 08:20:04

3680

⚡[AIGC服务] LivePortrait | 视频控制的数字人动画

Live Portrait 为任何静态照片（真人、卡通、名画、雕塑、宠物等）注入了生命力。通过使用驱动视频将静态照片中的人物动画化，以精确匹配驱动者的头部运动、面部表情、情绪甚至声音，无论在视觉效果还是在眼睛、嘴唇的细节控制上都达到较高的水平。

视频驱动人物图片

视频驱动宠物图片

1 先睹为快

2 功能介绍

01 所有风格肖像图片

真人、卡通、名画、雕塑、宠物

02 高分辨率动画生成

生成的动画可以达到512×512的分辨率，使得人物面部细节更加清晰，适合对图像质量要求较高的应用场景。

03 拼接模块

拼接模块用于处理多张人像之间的无缝拼接。此功能可确保多个动态角色之间的平滑过渡，而不会出现突然的边界效应。

04 精确控制眼球和嘴唇运动

内置眼睛重定向模块，可以独立控制眼睛的运动。该功能允许眼睛在生成的动画中根据需要自由移动，显示不同的注视方向和眨眼动作。
嘴唇重定向模块可以精确控制嘴唇的张开和闭合，使动画中角色的嘴唇动作与言语或表情变化同步，使表演更加自然。

3 方法总结

方法论分为3个阶段：

Face Vid2vid初步：基础模型使用驱动视频中的运动特征来动画化静态肖像，包括多个组件，如外观特征提取、关键点检测和变形场生成。
基础模型训练：对基础模型进行增强，包括数据策划、混合训练策略和改进的网络架构。这些改进显著提升了动画的表现力和泛化能力。
拼接和重定向模块：设计了新的模块以精确控制动画。这些模块使用小型MLP（多层感知器），在确保计算效率的同时提供对眼睛和嘴唇运动的控制。

01 Face Vid2vid

Face Vid2vid是一个基于视频驱动的肖像动画生成框架。它的工作原理是从驱动视频中提取运动特征，并将这些特征应用于静态肖像图像上，以生成连贯的动画效果。Face Vid2vid初步阶段包括以下几个关键组件：

外观特征提取

外观特征提取是从源图像中提取视觉特征的过程。这些特征描述了图像中的颜色、纹理、形状等信息，是生成动画图像时保留源图像外观的一部分。具体过程如下：

使用卷积神经网络（CNN）提取源图像的外观特征。
这些特征向量被用于在动画生成过程中保持源图像的视觉一致性。

关键点检测

关键点检测是识别并定位面部上的重要点（如眼睛、鼻子、嘴巴等）的过程，这些点用于指导动画生成。具体步骤包括：

使用深度学习模型（如Hourglass网络或基于热图的方法）检测图像中的面部关键点。
关键点用于描述面部几何形状和结构，提供驱动视频中面部运动的信息。

变形场生成

变形场生成是根据驱动视频的运动特征和源图像的外观特征，生成变形场，使得源图像能够变形为目标图像，产生动画效果。具体过程如下：

根据关键点和外观特征，计算源图像到目标图像的变形场。
使用该变形场将源图像进行像素级的变形，以匹配驱动视频中的面部动作和表情。
变形场通常通过光流法或基于网格的变形技术生成。

02 基础模型训练

基础模型训练旨在提高Face Vid2vid模型的表现力和泛化能力。为了实现这一目标，研究人员对数据策划、混合训练策略和网络架构进行了改进。

数据策划

数据策划是创建高质量训练数据集的过程，以确保模型在多种情况下都能生成逼真的动画。具体措施包括：

大规模数据集收集：收集包含多种面部表情和姿态的图像和视频，确保数据的多样性和代表性。
- 包括 6900 万张高质量图像和视频帧，以确保模型能够泛化到各种场景
数据清洗和标注：对数据进行清洗，去除低质量或噪声数据，并对关键点、表情等进行精确标注，以提高训练数据的准确性。
数据增强：使用图像增强技术（如旋转、缩放、裁剪等）扩充数据集，增加模型的鲁棒性和泛化能力。

混合训练策略

混合训练策略通过结合多种训练方法，提高模型的鲁棒性和生成质量。具体策略包括：

通过将单帧图像作为一帧视频进行训练，模型不仅可以处理动态视频，还可以生成各种风格的动画效果。
自监督学习：利用未标注数据，通过设计适当的任务（如图像重构、变形场预测等）进行训练，增强模型的特征学习能力。
对抗训练：使用生成对抗网络（GAN），通过生成器和判别器的对抗训练，提高生成图像的真实性和细节表现力。
多任务学习：同时训练模型完成多个相关任务（如关键点检测、变形场生成等），共享特征表示，提高模型的整体性能。

改进的网络架构

在现有架构的基础上进行优化，增强模型的特征提取和变形能力。具体改进包括：

采用先进的网络架构，包括ConvNeXt-V2-Tiny作为主干网络和SPADE解码器，以提高生成质量和计算效率。
将原来的隐式关键点检测器、头部姿态估计网络和表情变形估计网络统一为一个模型，以简化网络结构并提高性能。
采用SPADE解码器生成高质量动画，结合PixelShuffle层进行分辨率上采样，生成更清晰的图像。

03 拼接和重定向模块

拼接和重定向模块是LivePortrait框架中的关键部分，用于实现对动画的精确控制。这些模块确保生成的动画不仅高效，而且在细节上自然连贯。

拼接模块

拼接模块的主要目标是确保面部各部分在动画过程中无缝衔接。特别是对于眼睛、嘴唇等边缘部分，拼接模块能够有效地避免失真或不自然的拼接痕迹。其工作原理和具体步骤如下：

输入处理：将从驱动视频中提取的运动特征和源图像的外观特征输入到拼接模块中。
局部调整：通过使用小型多层感知器（MLP），对面部的局部区域（如眼睛、嘴唇）进行微调。这些调整基于驱动视频中对应区域的运动特征，确保这些区域在动画过程中保持自然过渡。
无缝衔接：拼接模块生成的调整参数应用于源图像，使得变形后的图像在细节上无缝衔接，避免出现明显的拼接痕迹。

重定向模块

重定向模块允许用户对动画的具体部分（如眼睛和嘴唇的运动）进行手动调整，以实现更高的控制精度。其工作原理和具体步骤如下：

用户输入：用户可以通过界面提供控制参数，这些参数指定了特定面部区域（如眼睛、嘴唇）的目标运动或表情。
参数处理：重定向模块接收用户输入的控制参数，并通过小型MLP将这些参数转换为具体的调整指令。
应用调整：将调整指令应用于源图像，生成符合用户预期的动画效果。这一过程确保在保证计算效率的同时提供精确的控制。

4 实验结果

眼睛重定向

嘴唇重定向

5 应用场景

虚拟助手与聊天机器人：通过将静态头像动画化，使虚拟助手和聊天机器人能够表现出更具情感和互动性的面部表情，提升用户体验和互动感受。
视频会议与虚拟演示：在视频会议或虚拟演示中，使用LivePortrait将参会者或演示者的静态图像转化为动态视频，解决因网络带宽或设备性能限制导致的视频质量问题。
娱乐和媒体：在电影、动画、游戏等娱乐领域，利用LivePortrait为角色创造逼真的面部表情和动作，降低制作成本和时间，提高内容的沉浸感和真实感。
社交媒体与个性化内容创作：用户可以通过LivePortrait将自己的照片制作成生动的视频，用于社交媒体上的分享和传播，增强个人内容的吸引力和互动性。
教育与培训：在远程教育和培训中，通过动画化的教育形象来增强学习的趣味性和参与度，使教育内容更加生动易懂。
遗产保护与文化传承：通过将历史人物或文化遗产中的肖像动画化，使其“复活”并用于文化展示和教育，增强文化传承的互动性和吸引力。
市场营销与广告：在广告和营销活动中，使用动画化的肖像来创建个性化的广告内容，吸引消费者的注意力并增强品牌互动。