看着这样一张抽象的人脸素描,你能猜出真人长什么样吗?
现在,有一只GAN,不仅能够完美突破次元壁,复现真实人脸:
左:素描;右:CSAGAN生成
甚至不画嘴,也不会生成无嘴怪人。效果真实,画面高清,连脸上的皱纹,都刻画得清清楚楚。
相比之下,Pix2pix(GAN网络的一种)这样的著名选手黯然失色。困难模式下画质模糊。
什么是GAN?
GAN,叫做生成对抗神经网络(Generative Adversarial Network),是深度学习中最热门的子领域之一。
GAN的主要灵感来源于博弈论中零和博弈的思想,应用到深度学习神经网络上来说,就是通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈,进而使G学习到数据的分布,如果用到图片生成上,则训练完成后,G可以从一段随机数中生成逼真的图像。
训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量辨别出G生成的假图像和真实的图像。这样,G和D构成了一个动态的“博弈过程”,最终的平衡点即纳什均衡点。
制造如此神奇魔法的GAN,名叫CSAGAN,即有条件的自注意力机制生成对抗网络(conditional self-attention generative adversarial network)。诞生于中国科大类脑智能技术及应用国家工程实验室。
世上的GAN千千万,CSAGAN为什么这么秀?
CSAGAN的独特之处,是在保持面部结构不确实的同时,生成高质量的人脸图像。
首先立功的,是条件自注意力模块(CSAM)。在模型框架中,研究人员采用了掩码残差单元(MRU),并在最后一个MRU之前加入了条件自注意力模块。
条件自注意力机制能够建模人脸不同区域之间的长期依赖关系,也就是说,即使素描图里没画清楚鼻子嘴巴,CSAGAN一样能生成五官齐全的一张脸。
MRU和条件自注意力模块的输入是处理过的黑白线条图。
稀疏线条图的密集距离场表示。给定来自上一层的线条图和特征图,条件自注意力模块会以自注意力机制计算输出新的特征图。
而另一个秘诀,是多尺度鉴别器。它能保证生成的人脸具有更加完整的结构和真实的纹理。
鉴别器由不同深度的子网组成,深度不同,最后一层接收域的大小自然也不一样。最深子网络最后一层中的接收域和捕获全局结构的整个图像大小一致。这些子网在前几层彼此共享权重。这样,大尺度鉴别器会注意面部整体结构的完整性,而小尺度鉴别器则专注于细节,增强生成面部图像的真实感。
最后一排是真实照片。
中国科大团队
这篇论文的第一作者,是来自中国科学技术大学类脑智能技术及应用国家工程实验室的Yuhang Li。论文的通讯作者,是该实验室的陈雪锦副教授。陈老师专注于计算机图形学、计算机视觉研究,在中国科大读博期间,师从沈向洋教授,2010年从耶鲁大学计算机系博士后出站。
论文的另外两位作者,是中国科大信息科学技术学院执行院长吴枫教授和该实验室副主任查正军教授。
来源量子位
领取专属 10元无门槛券
私享最新 技术干货