自适应位置编码与并行解码技术在3D视觉定位中的应用

123技术园

首页 / 技术内容

2025-02-12 12:34

No.1339213074535817216

技术概要

PDF全文

本技术介绍了一种结合自适应位置编码和并行解码技术的3D视觉定位方法及其系统。该方法涉及利用文本编码器对输入的自然语言文本进行处理，以获取文本令牌和特征，并进一步使用视觉编码器进行分析。

背景技术

多模态学习是增强人工智能对现实世界理解和认知的关键，其中最基本、最重要的模态是视觉和语言。其中，视觉定位(visual grounding)是一项新兴的视觉语言任务，需要模型基于自然语言描述来识别和定位场景中的目标物体。虽然2D图像上的视觉定位任务现已取得了显著的成果，但考虑到3D点云的稀疏和复杂结构，以及三维空间环境导致的语言描述多样性，3D视觉定位任务依旧面临巨大挑战。随着单模态的3D目标检测任务取得重大进展，现阶段3D视觉定位任务的主要目标是解决“分类正确但定位不正确”的问题，这需要模型更好地理解三维场景中的空间布局。一些方法尝试主要处理视觉特征，以更好地感知场景中检测到的物体之间的空间关系，如《Viewpoint-Aware Visual Grounding in 3D Scenes》(2024年国际计算机视觉与模式识别会议IEEE Conference on Computer Vision and Pattern Recognition)引入了一个根据场景信息预测描述者视角的模型。另一些方法着重处理自然语言描述来实现位置信息和语义信息的跨模态对齐。例如，《EDA:Explicit Text-Decoupling and Dense Alignmentfor 3D Visual Grounding》(2023年国际计算机视觉与模式识别会议IEEE Conference onComputer Vision and Pattern Recognition)通过解耦文本来实现语义理解和空间关系匹配；《ViewRefer:Grasp the Multi-view Knowledge for 3D Visual Grounding withGPT and Prototype Guidance》(2023年国际计算机视觉大会IEEE InternationalConference on Computer Vision)通过大语言模型的多样化语言知识将单个基础文本扩展为多个几何一致的描述。然而，目前的方法主要存在两个问题。一方面，由于现有的串行编码-解码器架构使用同一套注意力机制来处理识别和定位问题，物体属性特征(如形状和颜色)和空间环境特征耦合在一起。前者要求注意力图更加关注预测框附近的点，而后者要求它更加关注能够与目标物体形成描述中的空间关系的点，过去的串行结构无法解耦这两种注意力。另一方面，处理视觉特征的交叉注意力模块不使用文本携带的空间信息。没有自然语言描述的指导，查询只能粗略地学习相邻点的特征，这导致查询关注冗余和不相关的空间信息，从而引起注意力的分散。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

侯辰舒王闻箫何晓飞蔡登

技术所属：浙江大学

相关技术

一种自定义区域的地形晕渲图实时渲染方法及系统  一种自定义区域的地形晕渲图实时渲染方法及系统 
 本发明涉及数字地图渲染技术领域，尤其是指一种自定义区域的地形晕渲图实时渲染方法及系统，包括:获取需要进行地形表达的区域的原始DEM栅格数据，将其转化为Terrain‑RGB栅格数据后发布地图服务；构建自定义区域，获取自定义区域内的高程值列表，并根据高程值列表创建与自定义区域相适配的色带配置表；将色带配置表渲染为色带纹理图；根据当前地图的地图层级和窗口空间范围获取地形瓦片，将地形瓦片和色带纹理图传入地形瓦片着色器渲染程序，基于三维渲染引擎实现当前地图窗口空间中的自定义区域地形渲染。本发明实现了在电子地图中针对自定义区域进行地形晕渲图实时动态渲染，增强了电子地图表达效果和信息传递能力。
基于软件定义网络的流量探测系统及方法  基于软件定义网络的流量探测系统及方法 
 本发明公开了基于软件定义网络的流量探测系统及方法，属于机器学习技术领域，要解决的技术问题为:如何在权衡探测间隔和探测精度的的情况下实现灵活的网路流量监控。包括配置于SDN控制器的监测管理器、统计模块、数据保存模块、状态转化模块以及智能体模块；智能体模块依据监控过程中所产生的控制器负载、交换机资源消耗、信道开销以及网络中的流量速率，不停地与网络环境交互，在保证网络正常运行的情况下，对网络中的流量进行灵活监测并且权衡监测精度和探测间隔大小，用很低的成本对网络流量进行监测，即使在网络发生突变时，能实时调整探测间隔，为网络管理提供很好的支持，便于网络维护人员快速的处理网络中出现的异常。
车辆模型渲染方法、装置、存储介质及电子设备 车辆模型渲染方法、装置、存储介质及电子设备
本公开涉及车辆模型渲染方法、装置、存储介质及电子设备，其中，方法步骤包括:确定车辆模型；根据所述车辆模型，确定目标数据集；对所述目标数据集进行傅里叶变换处理，得到水下抖动数据集，其中，所述水下抖动数据集中的数据用于表征所述车辆模型处于模拟水位线下的、每个网格顶点数据变换之后的折射抖动幅度，不同距离的所述网格顶点数据在所述傅里叶变换之后的折射抖动幅度不同，所述距离为所述网格顶点数据与所述模拟水位线之间的距离；对所述水下抖动数据集进行渲染，得到车辆渲染模型。可以实时对车辆模型进行渲染，同时可以提高车辆模型的渲染效率。
一种显示面板的检测方法及检测系统 一种显示面板的检测方法及检测系统
本发明提供了一种显示面板的检测方法及检测系统，其中，该检测方法包括:获取所述显示面板在显示暗态画面时的暗态图像；根据所述暗态图像，检测出所述显示面板的亮点；获取所述显示面板在显示亮态画面时的亮态图像；根据所述亮态图像，检测出所述显示面板的暗点。用于提高对显示面板的亮暗点的检测效率。
一种基于点云信息的螺柱检测方法 一种基于点云信息的螺柱检测方法
本发明提供一种基于点云信息的螺柱检测方法，利用三维视觉传感器获取底面及螺柱侧表面点云，对螺柱侧表面点云进行预处理，剔除杂点，获取处理后的点云中各点的法向量；利用法向量计算余弦相似度，剔除非内外径上的螺纹点；利用所有内螺纹点、外螺纹点拟合圆柱，获取螺柱中轴线；计算中轴线与底面的夹角及交点坐标，作为螺柱位姿信息，本发明方法直接利用内螺纹点和外螺纹点拟合中轴线，计算准确、耗时短，此外，通过对点云的预处理，将点云中的噪声、杂点剔除，进一步保障了拟合结果的有效性，具有自动化程度高、抗干扰性强的特点。
基于深度学习网络的多IMU动作捕捉方法、系统及介质 基于深度学习网络的多IMU动作捕捉方法、系统及介质
本发明涉及人机交互装置技术领域，具体涉及一种基于深度学习网络的多IMU动作捕捉方法、系统及介质。本发明包括如下步骤:S1、多IMU动作的捕捉：预先在SMPL人体模型的关键部位佩戴多个IMU；通过Mujoco物理引擎对多变量特征施加高斯白噪声来模拟真实的IMU数据；S2、构建深度学习网络：深度学习网络输入多变量特征，通过正向TCN和反向TCN学习得到空间特征，再将空间特征融合，经过正向GRU和反向GRU得到时序特征，时序特征融合输入多头注意力层以得到人体姿态参数；S3、人体姿态的物理约束：利用PBDL损失函数，施加物理约束后的深度学习网络，实现对人体姿态的准确识别，符合自然世界的物理规律。
一种加工轨迹形变补偿方法及系统 一种加工轨迹形变补偿方法及系统
本发明提出一种加工轨迹形变补偿方法及系统，其中，加工轨迹形变补偿方法包括以下步骤:获得初始轨迹；获取图像；对获取的图像进行拼接及标定等预处理操作；设置多个锚定点测量盒，在对应范围内计算获得锚定点；在初始轨迹点位处进行轨迹点测量盒的生成，并设置好各轨迹点测量盒对应的轨迹点坐标计算方式；获得锚定点；根据所得锚定点坐标更新相应的被锚定的轨迹点测量盒的位置；在轨迹点测量盒的范围内按设定的方式计算坐标并更新至对应轨迹点，获得矫正轨迹；直接执行矫正轨迹；通过加工轨迹形变补偿系统的初始轨迹获取单元、图像获取单元、视觉处理单元、轨迹执行单元去完成以上步骤，便能够以较为简易的方式实现大型复杂轨迹的纠偏或定位。
基于遥感技术的森林积蓄量监测分析方法及系统 基于遥感技术的森林积蓄量监测分析方法及系统
本申请提供了一种基于遥感技术的森林积蓄量监测分析方法及系统。该基于遥感技术的森林积蓄量监测分析方法包括:通过无人机采集森林图像；对所述森林图像进行融合，生成融合图像；对所述融合图像进行增强，生成增强图像，提取所述增强图像中的森林特征和空间特征；根据所述森林特征和所述空间特征，确定该森林片区对应的积蓄参数；根据所述积蓄参数和历史积蓄参数进行对比，生成监测分析报告。该过程利用无人机高效采集森林图像，通过图像融合和增强技术提取关键森林特征和空间特征，以准确计算该区域的积蓄参数，并与历史数据进行对比，生成详尽的监测分析报告。提高了森林资源管理的准确性和实时性，为生态保护和可持续发展提供了科学依据。
油罐布局信息生成方法、装置、电子设备、介质 油罐布局信息生成方法、装置、电子设备、介质
本公开的实施例公开了油罐布局信息生成方法、装置、电子设备和介质。该方法的一具体实施方式包括:对目标合成孔径雷达图像进行图像剪裁，得到子图像集；对于子图像集对应的区域信息集中的每个区域信息，获取光学图像集；对于光学图像集组中的每个光学图像集，将光学图像集中的各个光学图像分别输入至油罐特征信息提取网络，得到特征图集；对于特征图集组中的每个特征图集，将特征图集中的各个特征图进行特征图融合，得到融合后特征图；对于所得到的融合后特征图集中的每个融合后特征图，生成第一油罐信息集中各个第一油罐信息的位置信息和各个第一油罐信息的半径信息；生成油罐布局信息。该实施方式可以准确、高效的生成油罐布局信息。
一种基于动态列车同步采样的图像校准系统 一种基于动态列车同步采样的图像校准系统
本发明涉及列车图像识别领域，具体是一种基于动态列车同步采样的图像校准系统，通过图像采集模块采集待测图像，并经过一级比对模块、二级比对模块和三级比对模块的检测比对，并通过校准分析模块对比对后的图像进行图像处理和校准，解决了现有技术中图像同步采样存在偏差、在后续列车检测过程中图像拼接和三维建模精度低，列车检测数据计算成本高的问题，通过使用精确校准后的图像，能够用于后续的异物检测、列车划痕检测和列车轨道缺陷检测等，达成了减少了数据检测成本，提高了检测效率，确保了列车运行的安全性和稳定性的有益效果。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工