选自arXiv
作者:ZHAN XU等
机器之心编译
参与:魔王
这篇SIGGRAPH 2020 论文提出基于输入角色模型生成动画骨架绑定结果的端到端自动化方法 RigNet,这或许能帮助加速动画制作流程。
在动画制作中,骨架绑定(Rigging)与动画密切相关。
什么是动画骨架绑定呢?基于 3D 蒙皮创建骨骼。动画模型中的关节就像现实中人的关节一样,两个关节组成一段骨骼,几段骨骼组成一个骨架。绑定就是把模型绑定到骨骼上边,通过骨骼来控制模型的运动。
如下图所示,绿色球即为关节,蓝色线段为骨骼,多个骨骼构成了骨架。
给定 3D 角色蒙皮,RigNet 生成动画骨骼和蒙皮权重。
Rigging 本身是一项专门技术,骨架绑定结果的好坏对动画的质量有很大影响。那么,有没有什么办法可以简化该过程呢?
最近,来自马萨诸塞大学阿默斯特分校和多伦多大学的研究者提出了一种基于输入角色模型生成动画骨架绑定结果的端到端自动化方法 RigNet,并以其优秀效果在 reddit 上引发大量关注。
我们先来看 RigNet 的效果:
图中角色动作敏捷,关节活动自然,左摇右晃时身体协调性也不错。
走路、蹦跳、前跃、跳舞、飞翔,这些角色的动作都很自然。
以及找亮点!有没有发现加鲁鲁兽?
reddit 网友纷纷表示「效果很好,求代码」。
了解了效果,接下来我们来看看 RigNet 是如何做到的。
给出表示某个铰接式角色的 3D 模型作为输入,RigNet 能够预测角色的骨架,且骨架的关节位置和拓扑结构与动画师的预期相匹配。此外,RigNet 还可以基于预测的骨架估计蒙皮权重。
该方法基于深度架构构建而成,此架构可以直接在蒙皮(mesh)表征上运行,无需对形状类别和结构进行假设。该架构的训练数据包含大量不同的骨架绑定模型,及其蒙皮、骨架和对应的蒙皮权重。
端到端自动动画骨架绑定方法:RigNet
给定某个角色的 3D 蒙皮作为输入,RigNet 可以基于其底层关节结构和几何来预测动画骨架和蒙皮。动画师可对骨架和蒙皮权重进行编辑,以便通过标准建模和动画制作流程进行细化。
RigNet 的整体架构如下图 4 所示,它可以直接在蒙皮表征上运行,在训练或测试过程中无需事先了解角色的类别、部件结构或骨骼关节类别。该方法唯一需要的假设是,输入训练和测试形状需要具备一致的方向:直立、面朝前方。
上图展示了 RigNet 方法的流程:
骨骼关节预测
该架构的第一个模块用于预测关节位置,可用于后续的动画骨架生成。它学习替换候选关节位置的蒙皮几何(图 4a)。该模块基于图神经网络构建,从蒙皮中提取拓扑和几何特征,以学习这些替换。
在这一阶段,该架构的主要思路是:学习输入蒙皮的权重函数,用于找出与关节位置更相关的区域(图 4b)。实验表明,这带来了更加精确的骨架。替换后的蒙皮几何能够围绕候选关节位置形成集簇。
研究者提出一种可微聚类机制,利用神经蒙皮注意力来提取关节位置(图 4c)。
骨骼连接预测
该架构的第二个模块学习哪些关节对应该与骨骼相连。
该模块以之前步骤中得到的预测关节作为输入,包括学得的形状和骨骼表征,然后输出每个关节对是否与骨骼相连的概率(图 4d)。
研究者发现,学得的关节和形状表征对于骨骼估计很重要,因为骨骼连接不仅依赖关节位置,还依赖整体的形状和骨骼几何。
接下来,将得到的骨骼概率作为最小生成树的输入,即使用概率最高的骨骼构建树结构骨架。该步骤从另一个神经模块得到的根关节开始(图 4e)。
该阶段所使用模块 BoneNet 的架构。
蒙皮预测
给定预测到的骨架(图 4f),该架构中的最后一个模块为每个蒙皮顶点生成权重向量,用以表示不同骨骼对顶点的影响程度(图 4g)。虽然该研究提出的方法受到 NeuroSkinning 的启发,但在架构、骨骼和形状表征、从顶点到骨骼的体积测地距离使用方面都有重要差别。
训练和泛化
该架构使用了多个损失函数进行训练,这些损失函数用来衡量关节位置偏移、骨骼连接和蒙皮权重差异。
训练输入角色不管从结构、数量还是移动部分的几何来看都具备极大的多样性,如人形物、二足动物、四足动物、鱼、玩具、虚构角色等。同样地,测试集也具备类似的多样性。
研究者观察到,该方法能够泛化到具备不同数量关节部位的角色中。
效果怎么样
研究者对他们提出的方法与其他用于动画骨架和蒙皮预测的方法进行了定量和定性评估。下表 1 展示了不同方法之间骨架提取的评估度量。本研究提出的方法在所有度量上均优于其他方法。
下表 2 展示了蒙皮的评估度量。结果显示,该研究提出的方法在所有度量上均优于 BBW、GeoVoxel 和 NeuroSkinning 方法。
作者简介
该研究的作者为 ZHAN XU、YANG ZHOU、EVANGELOS KALOGERAKIS、CHRIS LANDRETH 和 KARAN SINGH,来自马萨诸塞大学阿默斯特分校和多伦多大学。
其中第一作者 ZHAN XU 是马萨诸塞大学阿默斯特分校的博士在读学生,导师为 Evangelos Kalogerakis。研究方向为视觉计算,计算机图形学、计算机视觉和机器学习的交叉领域。
第二作者 Yang Zhou 本科毕业于上海交大,导师为林巍峣教授。现在马萨诸塞大学阿默斯特分校读博,导师为 Evangelos Kalogerakis。其研究方向为计算机图形学和机器学习,研究兴趣是:利用深度学习技术帮助艺术家、动画师做出更好的设计。
前不久他和 Adobe、虎牙的研究人员合作提出了一种使单张照片张嘴说话的新方法 MakeItTalk,该方法不仅能让真人头像说话,还可以让卡通、油画、素描、日漫中的人像说话(参见论文《MakeItTalk: Speaker-Aware Talking Head Animation》)。