本技术涉及图像处理技术领域,具体为一种小型人脸检测方法、电子设备及存储介质,包括:选取人脸图像数据集,对所述人脸图像数据集中的图片进行预处理;将预处理后的图片输入至深度学习网络模型,所述深度学习网络模型包括Backbone网络、Neck网络和Head部分;设置适合所述深度学习网络模型的损失函数,训练并调整模型参数;将待检测的小型人脸图像输入至最优网络模型,输出小型人脸图像检测结果图,所述最优网络模型为将模型参数调整至最优后的深度学习网络模型;选择性状态空间模型的引入作为一种创新技术,在具有较强的全局特征提取能力的同时,有效地减轻了模型的计算负担。
背景技术
人脸检测是计算机视觉领域的一个重要研究方向,是目标检测中的一个种类。人脸检测的核心任务是从复杂的背景中准确检测并定位人脸。研究表明,人类大脑中存在专门处理人脸信息的模块,这一现象突显了人脸检测在认知及社会交往中的重要性。在现代社会中,随着人脸检测技术的迅速发展,其重要性日益凸显。人脸检测不仅是人脸图像分析应用的基础,也是多种计算机视觉任务的前置步骤。例如,经过适当调整的人脸检测算法可广泛应用于人脸识别与验证、监控场合的人脸跟踪、面部表情分析以及面部属性识别等多个领域。这些应用在安全监控、智能社交媒体、情感计算等方面发挥着重要作用。
小型人脸检测是一项具有挑战的任务。目前小型人脸检测有以下挑战:可利用特征少,小型人脸属于小目标检测领域,而小目标通常携带的信息较少,如纹理、形状、颜色等外观信息有限,且在图像中占用的像素数较少,经过多次下采样后小目标的分辨率进一步降低,特征信息逐步减弱,导致检测难度增大,通用的目标检测器对小目标的检测精度较低;现有数据集中小型人脸样本的比例较低,以Wider Face数据集为例,其中小型人脸的标注依赖人工完成,这可能导致标注准确性不足,进而影响模型对小型人脸特征的学习效果,造成检测精度的下降;样本不均衡问题也会显著影响性能,当前目标检测方法大多基于锚框机制,在每个目标生成多个锚框的过程中,仅保留一个正样本,其他则被视为负样本,这使得正样本数量稀缺,负样本数量庞大,从而加剧了样本不均衡问题,导致小型人脸检测的准确性降低;在定位方面,由于小型人脸的目标尺寸较小,其边界框的面积也相应较小,任何微小的偏差都可能导致框的回归出现显著误差,从而影响对目标的准确定位。
目前,基于深度学习的目标检测技术主要分为两种:第一种是基于候选区域的两阶段方法,以Fast R-CNN、Faster R-CNN为代表。第二种是单阶段方法,以SSD和YOLO系列算法为代表。当前的目标检测算法通常专注于一般场景下的检测,当特殊场景中分布密集的小型人脸时,由于小型人脸像素信息少,难以达到最佳检测效果。基于CNN的目标检测方法在提取特征时往往只关注局部信息,为了使模型具有更强的全局感知能力,可以引入基于Transformer的结构,扩展模型的感受野,实现性能的提升。然而,这种改进也会带来计算复杂度的提升,自注意力机制的复杂性显着增加了模型的计算开销。为了解决这个问题,选择性状态空间模型的引入作为一种创新技术,在具有较强的全局特征提取能力的同时,有效地减轻了模型的计算负担。考虑到yolo算法速度快、简单直观、泛化能力强,因此本发明以yolov8为基础进行创新设计。
实现思路