Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR2023|Micron-BERT: 基于BERT的人脸微表情识别

CVPR2023|Micron-BERT: 基于BERT的人脸微表情识别

作者头像
磐创AI
发布于 2023-08-29 00:33:20
发布于 2023-08-29 00:33:20
2.8K0
举报

导读

微表情识别是情感计算中最具挑战性的课题之一。它的目的是识别人类难以在短时间内(0.25到0.5秒)感知到的微小面部运动。然而,针对视觉问题,现有方法中的标准 BERT 只能从完整的图像或视频中学习,该架构不能准确地检测面部微表情的细节。

本文提出了一种新的面部微表情识别方法— Micron-BERT(µ-BERT)。该方法基于两个关键思想,首先,采用对角微注意力(DMA)来检测两帧之间的微小差异。其次,引入新的感兴趣区域(PoI)模块,以定位和突出微表情感兴趣区域,并同时减少噪声背景和干扰。通过将这些组件结合到端到端的深度网络中,提出的 µ-BERT 在各种微表情任务中显著优于以前的所有工作。

本文将对 μ-BERT 进行解读,团队还提供了预训练的 Micron-BERT 模型,未来还将开放完整的训练模型。μ-BERT可以在大规模未标记数据集(高达8百万张图像)上训练,并在未见过的面部微表情数据集上实现高精度的效果。要在微表情数据库上微调 Micron-BERT,请参考:https://github.com/uark-cviu/Micron-BERT/blob/main/micron_bert.py

基本概念

面部表情是针对给定刺激的有意识反应的复杂混合物。它们涉及到经验、行为和生理元素。

一般来说,面部表情问题可以分为两大类,宏表情(macro-expression),和微表情(micro-expression)。

两者之间的主要区别是面部表情强度和持续时间:持续时间小于0.5秒的表情,通常称为微表情(转瞬即逝);与之相对的,持续时间稍长的表情,在1s~5s之间,称为宏表情。能够持续5s~10S的宏表情非常罕见,但若真出现了,必然表示情绪相当强烈,可能伴有声音,比如笑、哭、咆哮等。

由于微表情很难通过人眼观察,通常来说,捕捉所需的视频帧需要一个每秒200帧/秒(FPS)的高速摄像机。

动机

BERT在视觉问题的局限性

首先,在视觉问题中,BERT的局限性主要在于其分词步骤。在自然语言处理领域,一个标记(token)通常对应一个单词。但在视觉问题中,许多图像或图像块可以共享相同的标记,只要它们具有相同的内容。这种多对一的映射关系会导致BERT在视觉问题中的应用受到限制。此外,标准BERT在视觉问题中只能从完整的图像或视频中学习,无法准确检测面部微表情的细节。因此,需要针对视觉问题进行改进,以更好地适应视觉任务的特点。

其次,标记器DALLE不够健壮,无法将类似的上下文映射到标记上。He 等人 [9] 提出了一种利用BERT框架的蒙面自动编码器(MAE)。它不是对图像进行标记,而是通过随机蒙版策略消除图像的块,并将这些蒙版块的上下文重建为原始内容。虽然这种方法可以避免使用标记化器,但它只考虑图像中的上下文。因此,它不适用于微表达,这需要理解来自连续视频帧的语义信息。因此,本文提出了µ-BERT来解决这些局限性。

本文贡献

本文提出一种新的微表情识别方法Micron-BERT(μ-BERT)。该方法基于两个关键思想:

  • 采用对角微注意力(Diagonal Micro Attention,DMA)来检测两个连续视频帧之间的人的面部表情的微小差异。该组件试图理解连续视频帧的语义信息,解决标记器 DALLE 无法将类似的上下文映射到标记上的问题。
  • 引入新的感兴趣区域(Patch of Interest,PoI)模块,以定位和突出微表情感兴趣区域,并同时减少噪声背景和干扰。该组件试图学习图像的关键局部特征,以扩展 BERT 在微表情识别问题中的应用。

通过将这些组件结合到端到端的深度网络中,提出的 μ-BERT 实现了 SOTA 结果,在各种微表情任务中显著优于以前的所有工作。

相关工作

计算机视觉领域,对ME的研究可以分为两个主要任务:spotting 和recognition。即微表情定位(Micro-Expression Spotting,MES)和微表情识别(Micro-Expression Recognition,MER)两类。

  • 微表情定位:确定微表情在视频中的位置
  • 微表情识别:确定检测到的微表情的情感类别

对于微表情定位,Li等人[16]采用了空间通道注意力网络来检测微表情动作单元。Tran等人[39]试图通过SMIC-E数据库和评估协议进行标准化。MESNet [43]引入了一种基于CNN的方法,包括(2+1)D卷积网络、剪辑建议和分类器。

对于微表情识别,Ling等人[11]提出了一种学习面部图形表示的新方法,使得这些微小的运动能够被观察到。Kumar和Bhanu [31]利用了地标点和它们的光流块(optical flow patch)之间的联系,并实现了对CASME II和SAMM(SOTA)的方法的改进。

本文方法

1. 将原始图像 It∈RHxWxC划分为若干个不重叠的块

其中,H、W、C分别为通道的高度、宽度和数量

2. µ-Encoder

每个块pi被投影到一个维数为d的隐藏向量(latent vector)中,表示为

,一个图像可以表示为:

我们把µ-Encoder看作由一系列连续的块的组成,记为 ε,每个块包含多层多头注意(MHA)和多层感知器(MLP),在输入MHA和MLP之前,进行层归一化(Layer Norm,LN):

其中,Le是 ε 中的块的数量。给定Zt,输出隐藏向量 Pt 的表示

Eqn.(4)表示将图像It表示为Zt,经过Encoder编码为隐藏向量 ε(Zt)

3. µ-Decoder

本文所提出的自编码器是对称的设计。这意味着解码器部分(表示为 D)与编码器 Ε 具有相似的结构。给定一个潜在向量Pt,解码信号 Qt 表示为:

添加一个线性层来将 Qt 插值到一个中间信号 yt

4. Blockwise Swapping 块交换

  • 随机交换两帧之间的部分块,得到一个新的特征It/s
  • 让模型能注意到变化,解码器能够将It/s重构回It

具体来说,Blockwise Swapping将两帧图像分成若干个块,然后随机交换这些块,从而生成一组新的图像对。这些新的图像对包含了原始图像中的微小运动信息,可以用来训练模型以更好地识别微表情。通过Blockwise Swapping,模型可以学习到更多的局部特征,从而提高对微表情的识别准确性。

5. 对角微注意力(DMA)

DMA通过计算两帧图像之间的光流向量,得到面部微小运动的信息。然后,它将这些向量用于注意力机制中,以帮助模型更好地关注面部微小运动的变化。通过DMA,模型可以学习到连续视频帧之间更多的微小运动变化,从而提高对微表情的识别准确性。

6. Patch of Interest (POI)

理想情况下,我们希望图 4 中交换的黄色块位于面部中心处,而不是那些背景部分。因此,本文引入感兴趣块(POI)来自动探索突出区域,而忽略图像中的背景斑块。

Agreement loss 通过比较两帧图像之间的上下文特征,来确定它们之间的相似性:

POI 可以从编码器 E 的最后一个注意层的注意图 A 中提取出来。我们衡量:

其中

权重越高表示这个块包含的上下文信息越多,与面部相关性越高

7. 损失函数

损失函数为:

其中,Lr 利用均方误差(MSE)函数将解码器 y‘t 的输出重建为原始图像 It

Lagg 为上下文协议损失,MSE 也被用于加强的上下文特征的相似性。

实验

实验结果

提出的µ-BERT与之前的方法和基线相比有了显著的改进。表格1-4是所提方法在四个数据集上达到了SOTA结果。

消融实验
  • 三种自监督方法(MoCo V3、BEIT和MAE)在 CASME 上进行微调前经过预训练,得到了更好的结果。
  • 仅使用 Blockwise Swapping 的方法比 MAE 在性能方面提高了2个百分点,Blockwise Swapping 的作用:
    • 强制模型学习图像内部的局部上下文特征
    • 帮助网络识别两帧之间的微小差异
  • 从表 6 可以看出 DMA 和 POI 组件都具有更大的贡献
    • DMA 通过关注不同帧之间的微小差异,告诉网络应该关注哪些图块。
    • POI 被设计为一个过滤器,它只允许属于该图像的面部块通过,只保留微表情相关的特征。与MB2相比,高达6%的改善表明了POI在µ-BERT的微表情任务中的重要作用。

结论

  1. 本文探索了如何用 BERT 预训练来学习面部微小的变化,提出了μ-BERT。
  2. 提出了一个对角注意力模块 DMA 来学习帧间的动作变化。
  3. 提出感兴趣块模块POI引导模型关注关键图块,忽略背景的噪声敏感性。

局限性

不同光照条件下的鲁棒性:本文已经证明 POI 模块对于消除背景影响的有效性,但是有的背景噪声对光照十分敏感。当没有动作发生,且图片受到光照的影响,这些噪声因素也可能作为微差异特征,这些微差异特征与任务无关。未来工作是探索在不同的照明条件下的健壮性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【技术综述】人脸表情识别研究
随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸识别技术正在经历前所未有的发展,关于人脸识别技术讨论从未停歇。目前,人脸识别精度已经超过人眼,同时大规模普及的软硬件基础条件也已具备,应用市场和领域需求很大,基于这项技术的市场发展和具体应用正呈现蓬勃发展态势。人脸表情识别(facial expression recognition, FER)作为人脸识别技术中的一个重要组成部分,近年来在人机交互、安全、机器人制造、自动化、医疗、通信和驾驶领域得到了广泛的关注,成为学术界和工业界的研究热点。本文将对人脸识别中的表情识别的相关内容做一个较为详细的综述。
用户1508658
2019/07/25
4.9K0
【技术综述】人脸表情识别研究
【深度学习 | 卷积&haar】面部表情识别系统|原理详解&附详细案例&源码
在微表情识别系统的研究中,对微表情的准确理解是至关重要的。本章将深入探讨微表情的定义、与常规表情的区别以及微表情的分类,为读者提供深入了解微表情的基础知识。
数字扫地僧
2024/04/16
1.7K3
【人脸表情识别】基于视频的人脸表情识别不得不读的论文
上一篇专栏文章我们介绍了基于视频的人脸表情识别的相关概念,了解了目前基于视频的人脸表情识别领域最常用的几个数据集以及经典的实现方法。本文将延续上一篇的内容,分享近几年该领域一些主流的基于深度学习的方法实现。
用户1508658
2021/02/05
2.1K0
【人脸表情识别】基于视频的人脸表情识别数据集与基本方法
前面几篇专栏中,我们介绍了有关基于图片的人脸表情识别的相关内容。尽管该领域目前已取得了想当大的成就,但在实际使用中,仅仅依赖于图片并不一定能准确反映人的情绪状态。在一些场景中,需要结合人表情的变化才能真正理解人的情绪,因此基于视频的人脸表情识别研究也显得尤为必要。接下来专栏的两篇文章,将为大家介绍当前基于视频的人脸表情识别的研究现状和最新进展。
用户1508658
2021/02/05
3K0
CVPR2020 | 抑制不确定性用于大规模人脸表情识别(附源代码)
今天我们推送一篇关于人脸识别的文献,目前被CVPR2020录为最佳人脸识别框架之一。这次“计算机视觉研究院”简洁给大家分析,后续我们会分享具体代码实现功能,有兴趣的同学请持续关注!
计算机视觉研究院
2020/04/14
1.6K1
CV领域研究"face"的真不少,不过研究识别的论文不如以前多了
人看人,首先看的是脸,计算机视觉领域研究人脸的人也非常多,甚至在学术领域出一本专门收录人脸图像处理、识别、生成方向论文的期刊,恐怕都是很有市场的。
CV君
2023/03/06
6360
CV领域研究"face"的真不少,不过研究识别的论文不如以前多了
【人脸表情识别】基于回归模型的人脸表情识别方法
前面几篇专栏中,我们介绍了有关基于图片/视频的人脸表情识别的相关内容,这两个领域采用解决分类问题的方法来对表情进行识别。这篇文章,我们将介绍通过回归的方式来理解表情的方式——基于连续模型的人脸表情识别。
用户1508658
2021/03/12
1.6K0
面由心生,由脸观心:基于AI的面部微表情分析技术解读
本文为大家带来的演讲主题是“面由心生,由脸观心”,将主要分享如何快速实时且精准检测并识别面部情绪。
用户1386409
2022/03/31
9760
面由心生,由脸观心:基于AI的面部微表情分析技术解读
人脸识别技术介绍和表情识别最新研究
人脸识别作为一种生物特征识别技术,具有非侵扰性、非接触性、友好性和便捷性等优点。早在二十世纪初期,人脸识别已经出现,于二十世纪中期,发展成为独立的学科。人脸识别真正进入应用阶段是在90年代后期。人脸识别属于人脸匹配的领域,人脸匹配的方法主要包括特征表示和相似性度量。
计算机视觉
2020/11/11
2.5K0
Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
大数据文摘
2019/05/13
7850
Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术
【人脸表情识别】基于图片的人脸表情识别,基本概念和数据集
大家好,欢迎来到我们人脸表情识别的专栏,这是专栏的第一篇文章,今天我们讨论的问题是关于表情识别的基本概念和数据集。
用户1508658
2021/01/06
3.9K0
改进表情识别方法:基于CBAM和GELU的优化方案
表情识别在计算机视觉和人机交互中具有广泛的应用前景。基于深度学习的表情识别系统可以帮助识别和分析人脸上的情绪状态,应用于智能安防、情感计算和社交机器人等领域。本文将介绍我们基于改进的MobileNetV3模型进行表情识别的工作。通过引入CBAM注意力机制和GELU激活函数,我们有效地提升了模型的性能和准确度。
Srlua
2024/11/13
2650
改进表情识别方法:基于CBAM和GELU的优化方案
复旦大学王龑团队发布《静态与动态情感的面部表情识别》综述
复旦大学,王龑博士后领衔,发布《静态与动态情感的面部表情识别》(A Survey on Facial Expression Recognition of Static and Dynamic Emotions)综述,对基于图像的静态面部表情识别(SFER)和基于视频的动态面部表情识别(DFER)方法进行了全面综述,从模型导向的发展到挑战聚焦的分类进行了系统分析。
TechLead
2024/09/06
2050
复旦大学王龑团队发布《静态与动态情感的面部表情识别》综述
处理表情识别中的坏数据:一篇CVPR 2020及两篇TIP的解读
真实场景下的表情识别一直是令众多研究者十分头疼的课题。这个任务中,尤为令人抓狂的是表情数据集中普遍存在着许多坏的数据(例如被遮挡的人脸,错误的标签或者是模糊不清的图像)。这些数据不仅使得模型难以拟合,还严重拉低了最后的精度。在今年的 CVPR 中,我们惊喜的发现了一篇专门解决这个问题的论文,这篇论文有效的抑制了那些不确定性的数据,并且防止了深度模型对这些坏数据的过拟合。顺藤摸瓜,我们也找到了在 2019 年的 IEEE transactions on image processing 上两篇能有效处理遮挡表情和姿势变化的论文。本篇提前看重点关注 CVPR 2020 中的这篇「Suppressing Uncertainties for Large-Scale Facial Expression Recognition」, 但在解读它之前,我们先有步骤的解读两篇 TIP 作为它的基础,最后详细介绍它的算法和思想。对比性的解读这三篇论文,也许能对研究者们自己的工作有所启发。
机器之心
2020/05/26
9390
深度卷积网络迁移学习的脸部表情识别
本次我想给大家分享一篇我阅读的一篇论文总结,希望可以给做人脸表情识别和深度学习的同学带了帮助,谢谢!也感谢“计算机视觉战队”平台可以给我这样一个机会。 这次看的这篇paper主要提出一个基于深度卷积网络迁移学习的有效脸部表情识别模型。 在MSRA-CFW数据库中通过1580类脸部识别的任务训练深度卷积网络(ConvNets),且从训练的深度模型迁移高层特征去识别脸部表情。主要根据四个面部表情数据库(CK+,JAFFE,KDEF和Pain expressionsform PICS)建立了一个面部表情数据库含
计算机视觉研究院
2018/04/17
2.1K0
深度卷积网络迁移学习的脸部表情识别
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。在论文接收率下降的同时,中国科技企业被录取论文数量却不降反增,百度作为 AI 代表企业今年中选22篇,比去年的17篇增加了5篇。
深度学习技术前沿公众号博主
2020/05/18
6000
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
人脸表情识别实战:你的喜怒哀乐飞桨统统get!
【飞桨开发者说】李增保,2019年于安徽工业大学取得学士学位,目前在东南大学攻读硕士研究生学位,主要的研究方向为分布式无人机集群协同控制、算法设计与优化等。
用户1386409
2020/06/10
2.7K0
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
公众号机器学习与AI生成创作
2022/05/27
9190
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
2020年13篇人脸算法综述,全部安排上
我们对2020年全部计算机视觉综述论文进行了分方向梳理,本文为人脸识别方向,包括人脸识别、检测、面部反欺骗、3D人脸重建、deepfake等方向。
AI算法与图像处理
2021/02/22
1.4K0
2020年13篇人脸算法综述,全部安排上
【CVPR2023】高保真自由可控的说话头视频生成
来源:专知本文为论文介绍,建议阅读5分钟本文提出一种新的模型,可以产生高保真的头部视频,可以自由控制头部姿态和表情。 说话头生成是根据给定的源身份和目标运动生成视频。然而,目前的方法面临着一些挑战,限制了生成视频的质量和可控性。首先,生成的人脸往往存在意想不到的变形和严重的失真。其次,驾驶图像没有明确地解缠运动相关信息,如姿态和表情,这限制了在生成过程中对不同属性的操作。第三,由于相邻帧之间提取的地标不一致,生成的视频往往存在闪烁伪影。本文提出一种新的模型,可以产生高保真的头部视频,可以自由控制头部姿态和
数据派THU
2023/05/11
3430
【CVPR2023】高保真自由可控的说话头视频生成
推荐阅读
相关推荐
【技术综述】人脸表情识别研究
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档