融合图注意力与区域识别的视觉定位技术
2025-02-12 08:07
No.1339145954531745792
技术概要
PDF全文
本技术揭示了一种融合图注意力机制与区域识别的视觉定位技术,应用于计算机视觉的视觉定位领域。该技术通过场景区域的分类方法,实现空间场景的建模和层次化分类,对数据进行有效处理,以提高定位精度和鲁棒性。
背景技术
重定位技术旨在解析在已知场景中与查询输入所对应的6-DoF(自由度)位姿,实现对于拍摄方位与角度的精确定位,是SLAM(同时定位与地图创建)系统中的关键模块。一些应用情况例如:自主运动机器人,自动驾驶以及AR(增强现实)与VR(虚拟现实)技术,对于定位可靠性与精度有着较高要求,重定位技术即成为了这些应用中基础且重要的组成部分。根据传感器的不同,重定位可以分为多种类别。其中,基于视觉的重定位,又称视觉重定位,凭借其传感器简单易得,信息丰富并可同时用于多项视觉任务等特点而得到广泛应用,成为计算机视觉领域的研究热点。 视觉重定位方法经历了从几何结构方法到图像检索方法,再到深度学习方法的发展历程,目前的视觉重定位过程可大致分为场景模型构建、图像场景匹配以及相机位姿解算三步。基于几何结构的方法预先存储场景的3D(三维)模型,然后通过寻找当前查询图像的空间点与3D场景模型中的空间点的视觉特征匹配建立对应关系,从而通过基于RANSAC(Random Sample Consensus,随机样本一致算法)的PnP(Perspective-n-Point)算法求解位姿。但是这种方法需要存储较大的3D模型,在某些情况下可能无法找到关键点或匹配描述符,例如运动模糊和无纹理区域。并且手工提取的特征跨场景的适应性不高,计算量较大。基于图像检索的方法将已知位姿的图像存储成数据库。对于给定查询图像,则在已知图像库中寻找与查询图像所相近的图像,查询图像的位姿可以通过最相近的图像来获得,也可以通过在此基础上计算二者之间的相对位姿得到更为精确的估计。由于查询图像与数据库图像之间通常存在一定的差异,它们在准确估计相机姿态方面受到限制。 绝对位姿回归方法是利用深度学习进行视觉重定位的一种较为直接且简单的方法,其旨在同时保持效率和可扩展性。其将已知图像作为训练集,将图像内容和相机姿态之间的关系编码在其参数中,从而学习图像内容与位姿之间的关系。在查询时,网络直接回归图像对应的6-DoF位姿。然而,当前的绝对位姿回归方法更类似于图像检索方法,并且未能超越基于图像检索的方法。场景坐标回归方法首先预测查询图像像素对应的3D坐标,从而构建2D-3D对应关系,然后与基于几何的方法类似,通过基于RANSAC的PnP算法计算位姿。随着深度学习的发展,人们开始利用深度学习来回归场景坐标,并逐步使用更简单易得的RGB图像作为查询图像。基于场景坐标回归的方法在准确性和计算效率之间提供了更好的权衡,成为视觉重定位方法中较为受欢迎的一类方法。然而,在较大场景中,视觉上相似的局部图像块的模糊性无法通过有限的感受野来解决。单纯地使用更大的感受野大小容易产生过拟合。此外,传统的基于CNN(Convolutional Neural Networks,卷积神经网络)的网络结构较为简单,不能针对性地学习节点间的关系,可能会导致缺乏对全局上下文和多个特征簇的独特性的理解。 综上所述,为适应不同规模的场景以及一些视觉特征的集中性,提出一种有效的重定位方法是有必要的。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
刘艳丽  王宜宁  邢冠宇
技术所属: 四川大学
相关技术
一种喷金质量检测方法及装置 一种喷金质量检测方法及装置
基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法 基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法
一种基于先验信息的肾细胞癌窦性侵犯预测方法 一种基于先验信息的肾细胞癌窦性侵犯预测方法
基于GAT与CNN的特征加权融合高光谱图像分类方法 基于GAT与CNN的特征加权融合高光谱图像分类方法
一种基于YOLOv5的多场景隧道事故判别方法、设备及可读介质 一种基于YOLOv5的多场景隧道事故判别方法、设备及可读介质
基于语料库的水印添加方法、装置、设备及介质 基于语料库的水印添加方法、装置、设备及介质
基于自驾车视觉感测的违规巡检系统及其方法 基于自驾车视觉感测的违规巡检系统及其方法
视线区域检测方法、系统、设备、介质和车辆 视线区域检测方法、系统、设备、介质和车辆
视频清晰度评估模型训练方法、设备及存储介质 视频清晰度评估模型训练方法、设备及存储介质
物品真伪的鉴别方法、装置、设备及存储介质 物品真伪的鉴别方法、装置、设备及存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利