基于条件多模态提示的机器人精细化目标定位方法及装置
2025-02-24 14:24
No.1343589312775856128
技术概要
PDF全文
本技术涉及计算机视觉技术领域,提供了一种基于条件多模态提示的机器人精细化目标定位方法及装置,该方法包括:对图像和文本分别进行多次交叉编码,得到目标视觉特征和目标语言特征;在每次交叉编码中,根据第i个视觉特征确定第一提示引导,结合第i个视觉特征得到第i+1个语言特征;根据第i个语言特征确定第二提示引导,并得到第i+1个视觉特征;将映射后的视觉特征和映射后的语言特征进行交叉注意力计算,得到新的视觉特征和新的语言特征,以供机器人调节运动姿态。本发明所述方法结合了早期和晚期融合的优势,能够根据自由形式的语言表达实现机器人的精确细粒度目标定位,提高了机器人精细化目标定位效率和准确率。
背景技术
随着人工智能和计算机视觉技术的快速发展,视觉定位技术已经取得了显著的进步,且广泛应用于自动驾驶、智能制造、机器人和无人机导航等领域。 通过视觉定位技术,机器人能够更自然地理解并响应用户的操作,这种自然性不仅体现在机器人对用户动作的准确捕捉上,还体现在机器人对用户意图的深入理解上,例如,机器人可以通过视觉定位技术来捕捉患者的运动轨迹,并根据患者的康复需求进行个性化的运动辅助。 相关技术中,通常采用两阶段(包括候选生成和跨模态匹配)视觉定位模型探索更有效的跨模态交互,或者在可解释推理方式中选择最佳匹配的候选,从而实现目标检测和定位,但两阶段视觉定位模型为串行架构,模型训练效率受限,且过于依赖候选生成阶段的训练效果,导致模型鲁棒性低;而采用一阶段视觉定位方法进行目标视觉定位时,先通过两类独立的编码器分别提取对应语言特征和视觉特征,再通过聚合模块将两类特征进行跨模态融合,融合后的特征表征能力有限,只能实现目标粗粒度定位(如输出为定位框),难以满足对机器人对目标精细化定位(如输出为像素级坐标)的要求。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张宇佳  吴君娴  李全明  孙世颖  赵晓光  陈程  耿超  王玉凯
技术所属: 中国科学院自动化研究所  北方工业大学
相关技术
一种基于点云信息的螺柱检测方法 一种基于点云信息的螺柱检测方法
基于深度学习网络的多IMU动作捕捉方法、系统及介质 基于深度学习网络的多IMU动作捕捉方法、系统及介质
一种加工轨迹形变补偿方法及系统 一种加工轨迹形变补偿方法及系统
基于遥感技术的森林积蓄量监测分析方法及系统 基于遥感技术的森林积蓄量监测分析方法及系统
油罐布局信息生成方法、装置、电子设备、介质 油罐布局信息生成方法、装置、电子设备、介质
一种基于动态列车同步采样的图像校准系统 一种基于动态列车同步采样的图像校准系统
一种基于图像分形维数的TBM破岩效率评价方法 一种基于图像分形维数的TBM破岩效率评价方法
一种用于肾病人员状态数据存储方法 一种用于肾病人员状态数据存储方法
一种建筑物立体毁伤检测方法 一种建筑物立体毁伤检测方法
一种不同软件之间的含油饱和度数据传递方法 一种不同软件之间的含油饱和度数据传递方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利