首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【人脸表情识别】基于回归模型的人脸表情识别方法

前面几篇专栏中,我们介绍了有关基于图片/视频的人脸表情识别的相关内容,这两个领域采用解决分类问题的方法来对表情进行识别。这篇文章,我们将介绍通过回归的方式来理解表情的方式——基于连续模型的人脸表情识别。

                                          作者&编辑 | Menpinland

1 基本概念

在之前人脸表情识别专栏的文章中,我们围绕着基于不同数据类型(图片/视频)的人脸表情识别进行讨论和分析。前面提到的人脸表情识别研究,数据的表情标签被定义为若干类基本的表情,基于图片/视频的人脸表情识别方法也都是围绕“表情分类”来开展相关的工作。这种通过把表情转换为离散标签并以分类的形式识别出表情类别是当前大部分人脸表情识别研究中最主流的一种研究方式。然而,人的情绪是非常复杂的,通过人脸传达出来的表情也很难被绝对地定义为某个具体的类别,因此简单的分类模式在实际场景中并不能很好地反映人的真实感情。针对这个问题,Du等人[1]提出了复合人脸表情(compound facial expressions )的概念,而Li等人[2]开源了含复合表情的自然状态下人脸表情数据集RAF-DB(如图1)。与此同时,Wang等人[3]和Liang[4]等人分别提出了不同细粒度人脸表情(fine-grained facial expressions)分类方式(如图2)并构建了相关的数据集。复合表情、细粒度表情概念的提出,确实有助于辅助计算机更加深刻地理解人的表情,例如区分“惊喜”和“惊吓”("happily surprised"-"fearfully surpreised","suprise"-"astonishment"),这在基于传统的表情分类方法中是难以做到。但是,即使定义再多的表情类别也都是有限的,而且用这种方式也没办法反映人某种情绪的强度,比如很开心跟有点开心就很难用分类的方法进行区分。因此,针对以上问题,许多研究者考虑采用连续模型来定义表情标签。

图1|RAF-DB中部分数据示例[1]

图2|不同细粒度人脸表情分类方式[2,3]

在基于连续模型的人脸表情识别领域中,二维连续模型[5]是最常用的定义表情的方式(如图)。它将表情定义为两个连续的尺度——效价度(Valence)和唤醒度(Arousal),其中效价度反映情绪的愉悦/难过程度,唤醒度反映情绪的兴奋/专注程度。这种表情的定义方式的优点在于能借助连续的数值区分不同表情细微的差别,从而帮助计算机更好地理解人类表情极其情绪。除了二维连续模型外,也有三维连续模型[6],它跟二维连续模型相比多了支配度(Dominance),在视觉情感分析(Visual emotion analysis,VEA)以及基于自然语言的情感分析中较为常用。但目前,基于连续模型的人脸表情相关研究并不多,其中最主要的原因在于标注连续的标签不仅对标注人员有更高的要求而且标注工作花费的时间也多得多。可喜的是,近几年越来越多相关数据集逐步开源,同时也有许多的会议主题、竞赛围绕着基于连续模型的人脸表情识别领域展开,未来这个领域的研究可能会更频繁出现在学术期刊/会议甚至我们日常生活的应用之中。

图3|二维连续情绪模型[7]

2 常用数据集

1.The REmote COLlaborative and Affective (RECOLA) database [8]

链接:https://diuf.unifr.ch/main/diva/recola/

---数据采集方式:46位母语为法语的志愿者在实验室环境下采集的多模态情感数据集,含音频、视频、心电图(electrocardiogram ,ECG)、皮肤电活动(electrodermal activity,EDA)数据

---数据集大小:视频数据总时长为9.5h,分辨率为1080*720

图4|RECOLA中数据标注截图[8]

2.AFEW‑VA Database [9]

链接:https://ibug.doc.ic.ac.uk/resources/afew-va-database/

---数据采集方式:对AFEW(自然状态下基于视频的人脸表情识别数据集)[10]中的部分数据进行重新标注

---数据集大小:600个视频数据,每个视频帧数长短不一,最短的在10帧左右,最长的超过120帧

图5|AFEW‑VA中某个样本示例[9]

3.AffectNet [11]

链接:http://mohammadmahoor.com/affectnet/

---数据采集方式:采集自互联网

---数据集大小:总计1800000张图片,其中450000是提供离散以及连续的标签,是目前自然条件下最大的表情识别图片数据集,也是提供二维连续模型标签中最大的图片数据集

图6|AffectNet中部分样本对应二维情绪模型分布图[11]

4.The OMG-Emotion Behavior Dataset [12]

链接:https://www2.informatik.uni-hamburg.de/wtm/OMG-EmotionChallenge/

---数据采集方式:YouTube上采集的视频

---数据集大小:视频总数567个,按照对话分割并标注的视频片段有7371个

图7|OMG-Emotion中样本标签分布[12]

5.Aff-Wild Database [7]

链接:https://ibug.doc.ic.ac.uk/resources/first-affect-wild-challenge

---数据采集方式:YouTube上采集的视频

---数据集大小:共298个视频,总时长超过30h

图8|Aff-WildA中某个样本示例[7]

3 实现方法

前文提到,基于连续模型的人脸表情识别目前研究的人员比较少,一些相关文章都是针对一些比赛或会议投稿的,这些方法的有效性以及泛化能力仍待商榷。具体实现方法可参考前面专栏中基于图片/视频的人脸表情识别方法,其中的一些方法只需要将输出从分类概率转换为连续值,更换回归任务的损失函数即可同样适用到基于连续模型的人脸表情识别之中。更多针对回归任务的深度学习方法以及优化策略,也可以参考前面提到的VEA以及基于自然语言的情感分析,此文不再详细讲述。

4 参考文献

[1] Du S, Tao Y, Martinez A M. Compound facial expressions of emotion[J]. Proceedings of the National Academy of Sciences, 2014, 111(15): E1454-E1462.

[2] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.

[3] Wang W, Sun Q, Chen T, et al. A fine-grained facial expression database for end-to-end multi-pose facial expression recognition[J]. arXiv preprint arXiv:1907.10838, 2019.

[4] Liang L, Lang C, Li Y, et al. Fine-grained facial expression recognition in the wild[J]. IEEE Transactions on Information Forensics and Security, 2020, 16: 482-494.

[5] Russell J A. A circumplex model of affect[J]. Journal of personality and social psychology, 1980, 39(6): 1161.

[6] Schlosberg H. Three dimensions of emotion[J]. Psychological review, 1954, 61(2): 81-88.

[7] Kollias D, Tzirakis P, Nicolaou M A, et al. Deep affect prediction in-the-wild: Aff-wild database and challenge, deep architectures, and beyond[J]. International Journal of Computer Vision, 2019, 127(6): 907-929.

[8] Ringeval F, Sonderegger A, Sauer J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]//2013 10th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2013: 1-8.

[9] Kossaifi J, Tzimiropoulos G, Todorovic S, et al. AFEW-VA database for valence and arousal estimation in-the-wild[J]. Image and Vision Computing, 2017, 65: 23-36.

[10] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE Annals of the History of Computing, 2012, 19(03): 34-41.

[11] Mollahosseini A, Hasani B, Mahoor M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.

[12] Barros P, Churamani N, Lakomkin E, et al. The OMG-emotion behavior dataset[C]//2018 International Joint Conference on Neural Networks (IJCNN). IEEE, 2018: 1-7.

总结

本文首先介绍了基于连续模型的人脸表情识别的相关概念,然后了解了目前基于连续模型的人脸表情识别领域最常用的几个数据集以及实现方法。后面的1篇专栏文章将会分享计算机视觉领域中围绕情绪识别主题的一些会议和相关竞赛。

有三AI秋季划-人脸图像组

人脸图像小组需要掌握与人脸相关的内容,学习的东西包括8大方向:人脸检测,人脸关键点检测,人脸识别,人脸属性分析,人脸美颜,人脸编辑与风格化,三维人脸重建。了解详细请阅读以下文章:

【CV秋季划】人脸算法那么多,如何循序渐进地学习好?

转载文章请后台联系

侵权必究

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210207A0AWBZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券