通常,头像是一个社交平台的重要元素之一。而在目前大多数VR社交应用中,大多数虚拟头像都比较卡通风,还达不到像人那样真实。因此,为了打造更逼真的VR头像,社交媒体和科技巨头Facebook一直在打造一个叫Codec Avatar的系统。
它的特点是,可通过对人脸的动捕来生成逼真的虚拟头像,并通过VR头显上集成的摄像头,动态追踪和模拟自然的面部表情,有望为VR社交带来足够强的沉浸感。
目前,Codec Avatar与真人外观的差别越来越小,但它也不得不面对一个叫“恐怖谷理论”的问题。“恐怖谷理论”指的是,机器人的外表、动作与人相似,直到一个特定程度后,人们对机器人的情感会从正面变得极为负面。也就是说,如果机器人展现出任何细微差异,在人类眼里看起来都十分恐怖。
为了跨越“恐怖谷”这一瓶颈,Facebook Reality Labs提出了全新的模块化Codec Avatars(MCA)方案。据悉,MCA可看作是此前Codec Avatars的一个延伸,区别在于CA基于对识别整体面部表情的模型算法,而MCA则采用模块化的自适应表情混合算法,以及基于样本的对齐方案。
相比之下,Codec Avatar依赖于与样本的对比,而MCA系统主要是推断人脸面部活动,即使是没见过的表情也能合成。
Facebook Reality Labs科研人员表示:人的面部表情变化多样,用同一的样本来代表所有的表情并不实际,因此当人做出相似却少许不同的表情时,算法可能无法正常识别。
也就是说,若想让虚拟头像支持更多样化的表情,避免人察觉到它与真人之间的差异而产生害怕感觉,科研人员决定训练一个对眼、唇等部位分别追踪并同步融合的算法。
具体来讲,MCA首先通过模块化编码器从VR头显搭载的每颗摄像头中提取信息,接着模块化的合成器会预测全脸表情,以及从编码器提取的信息中获得的混合权值。最后,多个模块生成的信息用于预测和输出完整的3D面部表情。
据悉,MCA对比CA方案从表现力和稳定性两方面都有所提高。
◉ 表现力:CA的模型算法是通过1万到1.4万个样本训练而成,对于没见过的表情只能推断,此外CA合成的表情也比较生硬。而MCA则将面部不同位置的识别任务交给VR头显上的不同摄像头,以此来合成更灵活、逼真的面部表情;
◉ 稳定性:要想保证虚拟头像在VR场景的逼真感,它们需要准确呈现使用者的特征(胡子、化妆等),摄像头需要位于不同的部位(符合生产限制范围内),适应不同的光线和背景环境。
此外,模块化的算法负责模拟不同部位的人脸,从而合成更精准的面部表情。同时科研人员也希望,在无需额外训练数据的情况下,通过MCA来增加可准确合成的更多种表情。
为了验证MCA的效果,科研人员用一系列夸张表情进行测试,比如:张嘴、闭一只眼等,效果如下:
此外,MCA的能力可通过两个实验应用得到体现——模拟鬼脸和自然眼睛状态。即使是训练数据中没有的表情,MCA也能识别并合成自然的表情。
科研人员表示:对于VR来讲,能够做逼真的鬼脸表情更有助于提升交互感。
原始表情与眼睛放大效果对比
除了模拟鬼脸外,MCA也能推算人眼的状态。通常,在使用VR头显时,受到头显压迫、亮光照射等因素影响,使用者的眼睛并不会完全睁开,因此实际表情可能看起来并不自然。
因此,MCA通过自然放大人眼状态,来还原更接近没有戴头显时呈现的自然眼部表情。
另外,科研人员表示:MCA并未使用3D网格与线性或浅显特征结合的方式,而是将深度学习网络与潜在表情结合,实现对复杂的非线性效果的捕捉,提升动态表情的逼真感。参考:Road to VR,FRL
领取专属 10元无门槛券
私享最新 技术干货