摘要
文本人脸合成指的是基于一个或多个文本描述,生成真实自然的人脸图像,并尽可能保证生成的图像符合对应文本描述,可以用于人机交互,艺术图像生成,以及根据受害者描述生成犯罪嫌疑人画像等。针对这个问题,中科院自动化所联合军事科学院提出了一种基于多输入的文本人脸合成方法(SEA-T2F),并建立了第一个手工标注的大规模人脸文本描述数据集(CelebAText-HQ)。该方法首次实现多个文本输入的人脸合成,与单输入的算法相比生成的图像更加接近真是人脸。相关成果论文《Multi-caption Text-to-Face Synthesis: Dataset and Algorithm》已被ACM MM 2021录用。数据集和代码已开源https://github.com/cripac-sjx/SEA-T2F。
图 1 不同方法的文本到人脸图像生成结果
背景
相较于文本到自然图像的生成,文本到人脸生成是一个更具挑战性的任务,一方面,人脸具有更加细密的纹理和模糊的特征,难以建立人脸图像与自然语言的映射,另一方面,相关数据集要么是规模太小,要么直接基于属性标签用网络生成,目前为止,还没有大规模手工标注的人脸文本描述数据集,极大地限制了该领域的发展。此外,目前基于文本的人脸生成方法[1,2,3,4]都是基于一个文本输入,但一个文本不足以描述复杂的人脸特征,更重要的是,由于文本描述的主观性,不同人对于同一张图片的描述可能会相互冲突,因此基于多个文本描述的人脸生成具有很重大的研究意义。
方法
针对该问题,团队提出了一个基于多输入的文本人脸生成算法。算法采用三阶段的生成对抗网络框架,以随机采样的高斯噪声作为输入,来自不同文本的句子特征通过SFIM模块嵌入到网络当中,在网络的第二第三阶段分别引入了AMC模块,将不同文本描述的单词特征与中间图像特征通过注意力机制进行融合,以生成更加细密度的特。为了更好地在文本中学习属性信息,团队设计了一个属性分类器,并引入属性分类损失来优化网络参数。
图 2 模型框架示意图
此外,团队首次建立了一个大规模收工标注的数据集,首先在CelebAMask-HQ数据集中筛选了15010张图片,每个图片分别由十个工作人员手工标注十个文本描述,十个描述按照由粗到细的顺序分别描述人脸的不同部位。
实验
团队对提出的方法进行了定性和定量分析[5,6],实验结果表明,该方法不仅能生成高质量的图像,并且更加符合文本描述。
图 3 不同方法比较结果
图 4 不同数量输入的生成结果
表 1 不同方法的定量比较结果
表 2 消融实验结果:前三行分别表示网络去除SFIM,AMC,和属性分类损失
参考文献:
1. Osaid Rehman Nasir, Shailesh Kumar Jha, Manraj Singh Grover, Yi Yu, Ajit Kumar, and Rajiv Ratn Shah. 2019. Text2FaceGAN: face generation from fine grained textual descriptions. In IEEE International Conference on Multimedia Big Data (BigMM). 58–67.
2. Xiang Chen, Lingbo Qing, Xiaohai He, Xiaodong Luo, and Yining Xu. 2019. FTGAN: A fully-trained generative adversarial networks for text to face generation. arXiv preprint arXiv:1904.05729 (2019).
3. David Stap, Maurits Bleeker, Sarah Ibrahimi, and Maartje ter Hoeve. 2020. Conditional image generation and manipulation for user-specified content. arXiv preprint arXiv:2005.04909 (2020).
4. Weihao Xia, Yujiu Yang, Jing-Hao Xue, and Baoyuan Wu. 2021. TediGAN: Textguided diverse image generation and manipulation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2256–2265.
5. Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. 2018. Attngan: Fine-grained text to image generation with attentional generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 1316–1324.
6. Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip Torr. 2019. Controllable text-to-image generation. In Advances in Neural Information Processing Systems (NeuIPS). 2065–2075.
作者简介
孙哲南
孙哲南,男,研究员,1999年于大连理工大学获得学士学位,2002年于华中科技大学获得硕士学位,2006年于中国科学院自动化研究所获博士学位。目前在中国科学院自动化研究所模式识别国家重点实验室担任研究员。主要研究方向为生物特征识别、模式识别和计算机视觉。
李琦
李琦,男,副研究员,2011年于中国石油大学获得博士学位,2016年于中国科学院自动化研究所获得博士学位。目前在中国科学院自动化研究所模式识别国家重点实验室副研究员。主要研究方向为人脸识别,计算机视觉和机器学习。
赵健
赵健,北京图象图形学学会第七届理事会理事,2019年博士毕业于新加坡国立大学,现为军事科学院助理研究员,入选“中国科协青年人才托举工程”、“北京市科协青年人才托举工程”,担任VALSE SAC、CSIG青工委委员、CSIG-BVD委员、飞浆开发者技术专家、PRL/Electronics客座编辑、中国人工智能大赛专家委委员、ACM MM'21/CICAI'21分论坛主席;担任T-PAMI、IJCV、NeurIPS、CVPR等本领域主流国际期刊/会议的受邀审稿人。主要研究领域为人工智能、模式识别、计算机视觉。
孙建新
孙建新,男,博士研究生,2019年于东北大学获得学士学位,目前在中国科学院自动化研究所模式识别国家重点实验室攻读博士学位。主要研究方向为计算机视觉,模式识别和机器学习。
原文标题:Multi-caption Text-to-Face Synthesis: Dataset and Algorithm
原文链接:https://dl.acm.org/doi/10.1145/3474085.3475391