融合图注意力与区域识别的视觉定位技术

123技术园

首页 / 技术内容

融合图注意力与区域识别的视觉定位技术

2025-02-12 08:07

No.1339145954531745792

技术概要

PDF全文

本技术揭示了一种融合图注意力机制与区域识别的视觉定位技术，应用于计算机视觉的视觉定位领域。该技术通过场景区域的分类方法，实现空间场景的建模和层次化分类，对数据进行有效处理，以提高定位精度和鲁棒性。

背景技术

重定位技术旨在解析在已知场景中与查询输入所对应的6-DoF(自由度)位姿，实现对于拍摄方位与角度的精确定位，是SLAM(同时定位与地图创建)系统中的关键模块。一些应用情况例如：自主运动机器人，自动驾驶以及AR(增强现实)与VR(虚拟现实)技术，对于定位可靠性与精度有着较高要求，重定位技术即成为了这些应用中基础且重要的组成部分。根据传感器的不同，重定位可以分为多种类别。其中，基于视觉的重定位，又称视觉重定位，凭借其传感器简单易得，信息丰富并可同时用于多项视觉任务等特点而得到广泛应用，成为计算机视觉领域的研究热点。视觉重定位方法经历了从几何结构方法到图像检索方法，再到深度学习方法的发展历程，目前的视觉重定位过程可大致分为场景模型构建、图像场景匹配以及相机位姿解算三步。基于几何结构的方法预先存储场景的3D(三维)模型，然后通过寻找当前查询图像的空间点与3D场景模型中的空间点的视觉特征匹配建立对应关系，从而通过基于RANSAC(Random Sample Consensus，随机样本一致算法)的PnP(Perspective-n-Point)算法求解位姿。但是这种方法需要存储较大的3D模型，在某些情况下可能无法找到关键点或匹配描述符，例如运动模糊和无纹理区域。并且手工提取的特征跨场景的适应性不高，计算量较大。基于图像检索的方法将已知位姿的图像存储成数据库。对于给定查询图像，则在已知图像库中寻找与查询图像所相近的图像，查询图像的位姿可以通过最相近的图像来获得，也可以通过在此基础上计算二者之间的相对位姿得到更为精确的估计。由于查询图像与数据库图像之间通常存在一定的差异，它们在准确估计相机姿态方面受到限制。绝对位姿回归方法是利用深度学习进行视觉重定位的一种较为直接且简单的方法，其旨在同时保持效率和可扩展性。其将已知图像作为训练集，将图像内容和相机姿态之间的关系编码在其参数中，从而学习图像内容与位姿之间的关系。在查询时，网络直接回归图像对应的6-DoF位姿。然而，当前的绝对位姿回归方法更类似于图像检索方法，并且未能超越基于图像检索的方法。场景坐标回归方法首先预测查询图像像素对应的3D坐标，从而构建2D-3D对应关系，然后与基于几何的方法类似，通过基于RANSAC的PnP算法计算位姿。随着深度学习的发展，人们开始利用深度学习来回归场景坐标，并逐步使用更简单易得的RGB图像作为查询图像。基于场景坐标回归的方法在准确性和计算效率之间提供了更好的权衡，成为视觉重定位方法中较为受欢迎的一类方法。然而，在较大场景中，视觉上相似的局部图像块的模糊性无法通过有限的感受野来解决。单纯地使用更大的感受野大小容易产生过拟合。此外，传统的基于CNN(Convolutional Neural Networks，卷积神经网络)的网络结构较为简单，不能针对性地学习节点间的关系，可能会导致缺乏对全局上下文和多个特征簇的独特性的理解。综上所述，为适应不同规模的场景以及一些视觉特征的集中性，提出一种有效的重定位方法是有必要的。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

刘艳丽王宜宁邢冠宇

技术所属：四川大学

相关技术

一种喷金质量检测方法及装置  一种喷金质量检测方法及装置 
 本申请公开了一种喷金质量检测方法及装置，方法包括:获取喷金机喷金后的芯子喷金端面图像，并进行去噪、增强和分割，得到多个喷金区域图像，提取喷金区域图像中的多类喷金特征，以对各类喷金特征进行检测得到检测结果，生成喷金区域图像的质量检测报告，以通过质量检测报告确定喷金区域图像对应的喷金质量是否合格，统计各个喷金区域图像的所有质量检测报告，以确定喷金机的喷金质量是否合格。可见，对喷金机喷金后的图像进行喷金特征识别，并进行合格检测，能够实现对喷金机的喷金质量检测，使得在检测到芯子不合格后能够及时应对或剔除芯子，确保喷金后的芯子表面基本一致，提高喷金材料的利用率以及电容器的质量和可靠性。
基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法  基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法 
 本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法，使用预训练视觉‑语言模型作为特征提取器，对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图；利用多层感知机生成查询级特征，通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示；然后进行知识蒸馏过程，将区域级特征表示的知识迁移到查询级特征表示上，还基于多模态对比学习方法，利用记忆块视觉原型和文本原型进行存储以及对比学习，使得相同特定类别特征彼此趋近，不同特定类别特征适当拉远，从而使原模型建立起更好的类内和类间关系，有效地提高了带有缺失标签场景下的多标签图像识别的准确性。
一种基于先验信息的肾细胞癌窦性侵犯预测方法  一种基于先验信息的肾细胞癌窦性侵犯预测方法 
 本发明属于图像分类技术领域，具体涉及一种基于先验信息的肾细胞癌窦性侵犯预测方法，包括:获取CT图像，根据CT图像构建肾细胞癌窦性侵犯预测数据集；对数据集中的数据进行特征提取，根据提取的特征图构建异构图；将异构图输入到训练后的先验驱动的图神经网络模型，得到肾细胞癌窦性侵犯预测结果；对预测结果进行评估；本发明通过扩散摄动策略以数据驱动的方式生成不同的潜在外观，并学习扰动不变特征，从而对跨数据集应用带来的网络性能衰减进行减益校正。
基于GAT与CNN的特征加权融合高光谱图像分类方法  基于GAT与CNN的特征加权融合高光谱图像分类方法 
 本发明公开了基于GAT与CNN的特征加权融合高光谱图像分类方法，首先对高光谱数据集划分数据为训练集、测试集和验证集；然后构建结合CNN和GAT的双分支特征加权融合网络模型；将划分的训练集输入到分类网络模型中，设置参数，进行训练得到训练指标；最后对分类结果的指标、数据、图像信息进行评估。本发明利用深度可分离卷积和GAT分别对像素信息与超像素数据的捕获能力，充分提取高光谱图像的欧式与非欧式特征信息，提高了分类数据的准确性和泛化能力。
一种基于YOLOv5的多场景隧道事故判别方法、设备及可读介质  一种基于YOLOv5的多场景隧道事故判别方法、设备及可读介质 
 本发明公开一种基于YOLOv5的多场景隧道事故判别方法、设备及可读介质，该方法步骤包括构建多场景隧道事故数据集，并对数据集进行标注，所述数据集包括火灾类、车辆碰撞类、行人占道类，并且考虑事故的发展阶段及严重程度进行细分、使用YOLOv5目标检测算法对标注好的数据集进行模型训练，得到能够识别火灾、车辆碰撞和行人占道的事故类型的模型、开发基于PyQt5的隧道事故判别软件平台，所述隧道事故判别软件平台集成图片检测、视频检测和摄像头实时检测功能，且在检测到事故时，软件平台自动发出警报等，本发明能够自动对隧道内监控录像进行识别，快速发现并判断出交通事故，自动发出警报信息，从而提高隧道运营管理的自动化水平。
基于语料库的水印添加方法、装置、设备及介质 基于语料库的水印添加方法、装置、设备及介质
本申请公开了一种基于语料库的水印添加方法、装置、设备及介质，涉及图像处理技术领域，公开了基于语料库的水印添加方法，包括:确定第一显示页面中的大模型导出图像，并确定所述大模型导出图像中待进行水印添加的水印位置，和所述水印位置处的当前水印元素；获取预设的语料库中与所述大模型导出图像对应的水印配置参数；根据所述水印配置参数和所述当前水印元素的水印尺寸确定至少一个第一水印；将所述至少一个第一水印添加至所述当前水印元素，得到添加有第一水印的大模型导出图像，并输出所述添加有第一水印的大模型导出图像。本申请可以提高水印添加效果，实现在不影响用户阅读效果的同时，保护数据隐私。
基于自驾车视觉感测的违规巡检系统及其方法 基于自驾车视觉感测的违规巡检系统及其方法
一种基于自驾车视觉感测的违规巡检系统及其方法，通过接收自驾车拍摄的路况影像以通过人工智能识别出其中包含的影像对象，以及持续侦测影像对象的移动状态以生成影像对象动态，当影像对象同时满足触发对象因子及至少其中一个关联对象因子时，将影像对象及其影像对象动态输入至基于人工智能的情境识别模型以输出相应的当前情境，并且在当前情境与违规情境样版比对相符时，输出违规情境样版对应的触发对象因子及关联对象因子相应的影像对象及相应的违规项目，用以达到提升判断违规行为的精确性及多样性的技术功效。
视线区域检测方法、系统、设备、介质和车辆 视线区域检测方法、系统、设备、介质和车辆
本公开涉及视线区域检测方法、系统、设备、介质和车辆，该方法包括:获取单目图像；获取立体参考模型，立体参考模型由一系列不同视角下的参考单目图像进行三维重建得到；基于所述单目图像和所述立体参考模型，确定与单目图像匹配的参考单目图像；基于匹配到的参考单目图像和单目图像，确定用户的头部姿态；基于所述头部姿态，确定用户的视线区域范围。根据本公开的技术方案，该视线区域检测方法的运算复杂度较低，有利于提高运算效率；同时，可适用于多种不同的场景，受场景限制较小，适用性较广，即应用场景对运算结果的影响较小，有利于较准确地确定用户的视线区域范围，即有利于实现对用户视线区域范围的准确检测。
视频清晰度评估模型训练方法、设备及存储介质 视频清晰度评估模型训练方法、设备及存储介质
本申请公开了一种视频清晰度评估模型训练方法、设备及存储介质，在该方案中，保持经过预训练的特征提取层的参数不变，利用训练视频集仅更新初始模型中的全连接层和特征映射层，用更新后的全连接层替换初始模型中的全连接层，用更新后的特征映射层替换初始模型中的特征映射层后，从而可得到更新后的初始模型；若更新后的初始模型中的全连接层和特征映射层收敛，则利用训练视频集对整个更新后的初始模型进行训练，从而得到视频清晰度评估模型。本申请能够提取出精度更高的视频特征，因此可提高视频清晰度评估结果的准确性，从而提高了模型评估精度，且有利于模型收敛，降低了模型训练成本。
物品真伪的鉴别方法、装置、设备及存储介质 物品真伪的鉴别方法、装置、设备及存储介质
本发明公开了一种物品真伪的鉴别方法、装置、设备及存储介质，属于图像处理技术领域，包括:获取目标物品的第一图像、第二图像以及第三图像；基于第一图像识别目标物品的第一特征，获取第一鉴别区域中每个子区域的第一密度，并划分第一特征的特征类型，基于特征类型判定目标物品是否为赝品或正品；当目标物品不为赝品时，在第一图像和第三图像中分别截取第二鉴别区域和第一标准区域，获取最优匹配块，计算第一属性值和第二属性值并进行修正获得第一修正值，基于第一修正值对最优匹配块中的像素位置进行修正组成第二标准区域，计算所有的第二鉴别区域与第二标准区域像素差值的平均值，判定目标物品的真伪。通过本发明提高了物品鉴别的精确度。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工