本技术揭示了一种融合图注意力机制与区域识别的视觉定位技术,应用于计算机视觉的视觉定位领域。该技术通过场景区域的分类方法,实现空间场景的建模和层次化分类,对数据进行有效处理,以提高定位精度和鲁棒性。
背景技术
重定位技术旨在解析在已知场景中与查询输入所对应的6-DoF(自由度)位姿,实现对于拍摄方位与角度的精确定位,是SLAM(同时定位与地图创建)系统中的关键模块。一些应用情况例如:自主运动机器人,自动驾驶以及AR(增强现实)与VR(虚拟现实)技术,对于定位可靠性与精度有着较高要求,重定位技术即成为了这些应用中基础且重要的组成部分。根据传感器的不同,重定位可以分为多种类别。其中,基于视觉的重定位,又称视觉重定位,凭借其传感器简单易得,信息丰富并可同时用于多项视觉任务等特点而得到广泛应用,成为计算机视觉领域的研究热点。
视觉重定位方法经历了从几何结构方法到图像检索方法,再到深度学习方法的发展历程,目前的视觉重定位过程可大致分为场景模型构建、图像场景匹配以及相机位姿解算三步。基于几何结构的方法预先存储场景的3D(三维)模型,然后通过寻找当前查询图像的空间点与3D场景模型中的空间点的视觉特征匹配建立对应关系,从而通过基于RANSAC(Random Sample Consensus,随机样本一致算法)的PnP(Perspective-n-Point)算法求解位姿。但是这种方法需要存储较大的3D模型,在某些情况下可能无法找到关键点或匹配描述符,例如运动模糊和无纹理区域。并且手工提取的特征跨场景的适应性不高,计算量较大。基于图像检索的方法将已知位姿的图像存储成数据库。对于给定查询图像,则在已知图像库中寻找与查询图像所相近的图像,查询图像的位姿可以通过最相近的图像来获得,也可以通过在此基础上计算二者之间的相对位姿得到更为精确的估计。由于查询图像与数据库图像之间通常存在一定的差异,它们在准确估计相机姿态方面受到限制。
绝对位姿回归方法是利用深度学习进行视觉重定位的一种较为直接且简单的方法,其旨在同时保持效率和可扩展性。其将已知图像作为训练集,将图像内容和相机姿态之间的关系编码在其参数中,从而学习图像内容与位姿之间的关系。在查询时,网络直接回归图像对应的6-DoF位姿。然而,当前的绝对位姿回归方法更类似于图像检索方法,并且未能超越基于图像检索的方法。场景坐标回归方法首先预测查询图像像素对应的3D坐标,从而构建2D-3D对应关系,然后与基于几何的方法类似,通过基于RANSAC的PnP算法计算位姿。随着深度学习的发展,人们开始利用深度学习来回归场景坐标,并逐步使用更简单易得的RGB图像作为查询图像。基于场景坐标回归的方法在准确性和计算效率之间提供了更好的权衡,成为视觉重定位方法中较为受欢迎的一类方法。然而,在较大场景中,视觉上相似的局部图像块的模糊性无法通过有限的感受野来解决。单纯地使用更大的感受野大小容易产生过拟合。此外,传统的基于CNN(Convolutional Neural Networks,卷积神经网络)的网络结构较为简单,不能针对性地学习节点间的关系,可能会导致缺乏对全局上下文和多个特征簇的独特性的理解。
综上所述,为适应不同规模的场景以及一些视觉特征的集中性,提出一种有效的重定位方法是有必要的。
实现思路