本技术介绍了一种特征匹配网络,该网络采用高频低频分离技术和线性注意力优化,以提高图像配准的准确性。该网络首先接收图像对作为输入,然后通过降采样模块生成多尺度特征图,该模块能够独立处理图像的高频和低频信息。
背景技术
图像局部特征匹配旨在不同图像之间建立精确的特征对应关系,是许多3D计算机视觉任务的基石,包括三维重建、视觉定位、同时定位与地图构建等。然而由于尺度变化、视角多样性、光照条件、重复模式及纹理差异等因素的影响,不同图像对同一物理空间的描述可能存在显著差异。因此,实现局部特征匹配的准确性与可靠性依然是一个复杂且具有挑战性的任务。
传统的图像匹配过程通常分为三个基本步骤:特征检测、特征描述和特征匹配。对于特征检测和描述,传统方法主要依赖于低层次的图像特征,如梯度和灰度序列。尽管这些方法在理论上对某些形式的转换具有一定的鲁棒性,但其效果本质上受到研究人员先验知识的限制。近年来,随着计算机视觉和深度学习技术的发展,研究人员在图像匹配领域取得了一系列创新性成果,大致可分为基于检测器的方法和无检测器的方法。基于检测器的方法与传统方法在步骤上相似,其有效性高度依赖于关键点检测器和特征描述符的性能,但由于检测器的训练数据通常依赖于人工标注,其局限性也与传统方法相似。相比之下,无检测器方法通过利用图像上下文信息,避免了独立的关键点检测和特征描述阶段,提供了一种端到端的图像匹配解决方案。其中,LoFTR是一种基于Transformer的无检测器图像匹配方法,通过Transformer机制捕捉全局图像上下文信息,展现出卓越的匹配能力。然而,为了缓解Transformer的计算压力,在特征提取阶段,LoFTR所设计的由粗到细的二阶段网络结构以及线性注意力机制对图像匹配精度造成了较大的负面影响。在不牺牲LoFTR原有效率的前提下,如何进一步提升匹配性能,成为当前特征匹配领域亟待解决的问题。
有鉴于此,需要设计一种基于高低频解耦和优化线性注意力的特征匹配网络来克服上述缺陷。
实现思路