本技术方案涉及计算机视觉领域,介绍了一种利用快慢运动双分支网络进行微表情识别的新方法。该方法首先对微表情视频进行空间和时间归一化处理,然后分别提取视频中的快速和慢速运动特征;接着,设计了专门的网络结构来分析这些特征,以实现高精度的微表情识别。
背景技术
面部表情分为宏表情和微表情两类,它们的主要区别在持续时间和强度。宏表情是日常生活中最为常见和熟知的表情,当一个宏表情发生时,人们一般能够明显地观察到并分辨出其对应的情感类型。这是由于宏表情发生时,会覆盖大片的面部区域,例如嘴、眼睛、脸颊、下巴,并且持续时间长,通常为0.5至4秒,可以被他人轻松识别和解读。微表情是一种快速的、自发的、低强度的面部表情,通常出现在人们试图隐藏真实感受的时候,尤其是在高压、紧张、焦虑的情况下。微表情是无意识的局部运动,覆盖面部区域小,主要集中在嘴巴、眼部区域,持续时间短且运动强度低,其典型的持续时间在0.065到0.5秒之间,很难用肉眼识别。微表情的短暂性和隐蔽性使它难以被伪装,但其能反映出个体真实的情感状态或内心冲突,在情感表达上具有更高的可信度,可用于心理学、犯罪侦查学、教育学等领域。
微表情识别是一种面部识别技术,通过对微表情视频序列进行处理,进而实现三分类或者五分类。微表情识别可以划分为传统方法和深度学习方法,传统方法在可理解性方面具有优势,但在处理复杂的微表情特征和提高识别准确性方面存在局限。深度学习方法通过自动特征提取和复杂模式识别,在识别准确性和鲁棒性方面表现更优。
在一些研究中,比如“Gan Y S,Liong S T,Yau W C,et al.OFF-ApexNet onmicro-expression recognition system[J].Signal Processing:Image Communication,2019,74:129-139.”、“Liong S T,Gan Y S,See J,et al.Shallow triple stream three-dimensional cnn(ststnet)for micro-expression recognition[C]//2019 14th IEEEinternational conference on automatic face&gesture recognition(FG 2019).IEEE,2019:1-5.”和“Li H,Sui M,Zhu Z,et al.MMNet:Muscle Motion-guided Network forMicro-expression Recognition[J].In Proc.31st Int'l Joint Conf.ArtificialIntelligence(IJCAI)”,直接从微表情的起始和顶点帧中提取运动特征,展现了这种方法简单而有效的特点。然而,这种方法不可避免地忽略了从顶点到结束帧的运动信息细节。
“Zhi R,Xu H,Wan M,et al.Combining 3D convolutional neural networkswith transfer learning by supervised pre-training for facial micro-expressionrecognition[J].IEICE TRANSACTIONS on Information and Systems,2019,102(5):1054-1064.”和“Hong J,Lee C,Jung H.Late fusion-based video transformer forfacial micro-expression recognition[J].Applied Sciences,2022,12(3):1169.”从整个序列的相邻帧中提取运动信息,可以产生更丰富的运动信息,但这些方法并没有充分利用注释的顶点帧,会引入冗余的动作表示。此外,上述方法常常依赖于手工设计的光流特征,光流计算复杂度很高,需要对每两帧之间的像素变化进行计算,并进行匹配和插值来确定光流的方向和速度,这种复杂性使得基于光流的方法难以满足实时性的要求。
因此,本发明提出了一种融合微表情快运动、慢运动的双分支微表情分类网络,使用像素差表示微表情运动,并融合微表情整体运动和细节运动特征解决上述问题。
实现思路