本技术涉及视觉语义理解领域,介绍了一种轻量化语义理解技术及其设备。该技术通过特征金字塔网络实现自顶向下的特征融合,旨在保护关键部位信息的同时,提升模型的效率和准确性。
背景技术
视觉语义理解是指将图像每个像素分配到对应的类别中,分割若干具有语义意义的区域,实现对图像的语义理解和分析。随着航空装备不断丰富和其应用场景的不断拓展,图像语义分割在军用和民用航空的应用价值和前景愈发明显,尤其是对目标关键部位的语义理解有更加迫切的需求。目标关键部位的语义理解可以实现更准确、更高效的目标识别和跟踪,锁定关键信息,帮助自动化系统高效地理解和分析图像数据,提高飞行器安全和效率。可见,目标关键部位的语义理解能够有力推动航空科学技术迈向智能化,同时拥有广泛和重要的应用前景。
目标关键部位语义理解是一种特殊的语义分割算法。它侧重于目标组件信息,它将一个目标分割成几个语义部分,以期为特定任务提供更精细的信息,比如自主机器人维修汽车引擎,它首先需要将车进一步分割为轮胎、引擎盖、车门等等。当前,多类别的对象级别语义分割得到了广泛的研究,但对象组件级别语义分割并未充分探讨,且现有工作主要针对一些具有精确定位的特定类别,如人和汽车。当前方法可以粗略地分为两类。第一类通常侧重于探索对象部分的内在关系和结构信息。例如,Liang等人提出了一种自监督方式损失函数来维持解析结构。Wang等人建立了一个分层树结构,根据基本边界标志的空间关系将它们构成组件。一些其他研究也借助于附加的结构信息,例如,人的姿势和3d信息。第二类侧重于提高图像或特征图中的解析分辨率。例如,Chieh等人提出了一种注意力模型来融合不同图像缩放比例的解析结果。Xia等人提出了一个两级网络来融合全局特征与检测到的局部特征。尽管以上模型是有效的,但是它们只适用于单种类情况。随着多种类语义组件标注的日益增多,Hariharan等人提出一种顺序地执行对象和组件分割,其中首先分割对象掩模,然后将部分标签分配给掩模内的像素。但预测的语义对象掩码误差可以传播到组件,最终组件分割效果一般。后来,Adobe公司利用两路全卷积神经网络实现多种类下同时预测目标类别和分割目标组件,虽然组件分割精度有所提升,但对于种类间存在外观和纹理相似的场景下,目标组件类别准确度不高。近期,Zhao等人提出一种带有边界感知和语义感知的联合解析结构,利用边界感知模块处理组件级别的歧义,利用语义感知模块解决类别歧义问题。虽然这个方法进一步提升了算法的精度,但遗憾的是此方法仍存在(将狗头部识别为马头部的)组件级别语义歧义问题,同时该算法并未针对多角度下采集数据特点做相应优化。
此外,传统的语义分割模型通常具有大量的参数和计算量,导致模型在移动设备或嵌入式设备上难以部署,同时推理速度慢,无法满足实时性的要求。随着人工智能技术的快速发展,越来越多的移动设备和嵌入式设备开始集成人工智能功能,例如手机、平板电脑、无人机、微型航天器等。这些设备的计算资源有限,无法支持传统语义分割模型的运行,因此,轻量化图像语义分割技术成为当前研究的热点之一。近年来,研究人员提出了多种轻量化图像语义分割技术,取得了显著的成果。例如,DeepLabV3+通过移除模型中冗余的参数或神经元,从而减少模型参数量和计算量,但这可能会导致模型在语义分割任务上的性能有所下降,尤其是在细节和边缘的分割上。XNOR-Net 和 BinaryConnect 等模型都采用了权重量化技术,将模型的权重从高精度浮点数转换为低精度整数,从而减少模型参数量和存储空间,但这会降低网络的表示能力,可能导致模型在复杂任务上的性能下降。MobileNet、ShuffleNet 等采用了网络结构搜索技术,自动搜索更轻量级的网络结构,但这可能会限制网络对复杂特征的学习能力,在模型泛化能力方面有所欠缺。以上语义分割方法的提出都极大程度上推动了语义理解模型轻量化的研究进展,但在处理复杂场景时,仍存在一些不足之处,因此,针对不同的数据集和应用场景,需要有针对性地进行定制化设计,以满足特定地任务需求。
在多视角环境下,采集的数据会出现诸如形状、旋转、光照以及尺度变化等情况,这将对多种类目标组件语义分割提出更高要求,致使现有方法还不能很好地解决目标关键部位的语义理解问题,主要难点在于:第一,多种类关键部位带来的类间语义歧义问题。早期研究主要针对特定单种类目标(比如人体)的关键部位分割,虽然近几年研究开始涉及多种类关键部位分割问题,但由于不同种类相同部位存在轮廓、纹理或颜色的相似性,这导致类别歧义成为一个比较棘手的问题,尤其是存在相似目标和遮挡的场景更为明显,也是导致语义理解方法鲁棒性不好的重要因素。第二,多视角数据带来的图像特征属性变化问题;比如尺度、旋转、光照变化和遮挡,甚至是多种特征变换的组合场景,致使图像特征属性变化,对现有基于常规视角数据集训练的语义分割算法的适用性和鲁棒性提出了挑战。由此可见,现有的目标关键部位的语义理解技术,由于存在多种类关键部位带来的类间语义歧义问题,导致输出结果稳定性较差,影响了语义理解的适用性和鲁棒性。
实现思路