本技术公开了一种基于小样本学习的视线估计方法,属于计算机视觉技术领域,旨在通过面部外观估计人的视线方向。主要包括以下发明内容:(1)提出一种基于条件神经过程的视线估计模型,提高了针对特定个体的视线估计精度;(2)提出一种基于注意力机制的标签‑特征融合模块,充分利用少量校准样本提供的先验信息,有效提升视线估计精度;(3)提出一种基于小样本学习的视线估计模型训练方式,在通用模型的基础上训练小样本学习模型,快速训练得到特定于人的视线估计模型。
背景技术
视线是人类交流时重要的非语言信息之一,蕴含了人类丰富的视觉注意力信息,是理解人类行为和意图的重要线索。视线估计是指对人类的眼动、视线等信息进行分析和处理,推断视线聚焦的方向或位置,进而辅助分析人的注意力和兴趣表现。视线估计作为理解人类认知和行为的关键途径,在现实场景中应用前景广泛,在智慧医疗领域,可通过判断人的注视行为模式来检测精神或心理类疾病;在交通安全领域,可用于检测驾驶员是否处于疲劳驾驶状态,从而降低交通事故风险;在人机交互领域,使用户可仅通过视线直接与计算机进行交互,为残疾人提供了便利。此外,视线估计在教育、商业和娱乐等领域也有着丰富的实用价值。
视线估计技术是利用某些技术手段对人类注视方向进行估计的过程。早期的视线估计技术大多需要借助附加传感器或红外摄像机等专用设备来进行检测,该方法能够达到较高的准确率,但繁琐的操作步骤和高昂的硬件成本使其难以普及应用。因此,人们提出了基于面部外观的视线估计方法,即仅通过单摄像头拍摄的人脸外观图像来推断人的视线方向,深度学习的高速发展大力推动了视线估计领域的发展,使视线的预测更为准确,近年来,研究者们基于深度学习方法在视线估计领域展开了广泛而深入的研究。文献“Zhang X,Sugano Y,Fritz M,et al.Appearance-based gaze estimation in the wild[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:4511-4520.”首次提出了基于CNN的视线估计方法,以从眼睛图像中回归出视线角度;文献“Krafka K,Khosla A,Kellnhofer P,et al.Eye tracking foreveryone[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:2176-2184.”提出一种以左右眼图像、面部图像及面部网格占比四项为输入,回归注视点二维坐标的方法。
但由于人与人之间存在眼球形状和面部外观上的差异,上述方法中提出的通用模型的精度难以进一步提升,研究者们发现为特定个体训练独立的模型可能有助于进一步提升视线估计的精度。但是训练模型需要大量的数据样本,而在现实场景中为每个目标个体收集数千个样本进行训练代价是十分昂贵的,并不适用于广泛推广,因此,部分研究者将小样本学习融入视线估计领域,即通过少量的标注样本训练学习模型,并假设该模型可以推广至其他人,这样通过少量具有标注的样本即可提高针对特定个体的视线估计精度。文献“Park S,Mello SD,Molchanov P,et al.Few-shot adaptive gaze estimation[C]//Proceedings of the IEEE/CVF international conference on computer vision.2019:9368-9377”首次将小样本学习融入视线估计领域,通过模型无关的元学习方法(MAML,Model-Agnostic Meta-Learning)来学习元模型,提高了视线估计的精度,但其预测精度还有进一步提升的空间;文献“Ma J,Zhang X,Wu Y,et al.Few-Shot Gaze Estimation withModel Offset Predictors[C]//ICASSP 2022-2022IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP).IEEE,2022:4893-4897”通过偏移量预测器,进一步提升了视线估计的精度,但其为每个个体单独训练偏移量预测器的方法,使得模型训练过程较为复杂。本发明提出一种基于小样本学习的视线估计方法,提出一种基于条件神经过程的视线估计方法,充分利用少量样本标签中的先验信息,在保证视线估计精度的同时,简化了模型训练方式。
实现思路