本技术涉及计算机视觉技术领域,提供了一种基于条件多模态提示的机器人精细化目标定位方法及装置,该方法包括:对图像和文本分别进行多次交叉编码,得到目标视觉特征和目标语言特征;在每次交叉编码中,根据第i个视觉特征确定第一提示引导,结合第i个视觉特征得到第i+1个语言特征;根据第i个语言特征确定第二提示引导,并得到第i+1个视觉特征;将映射后的视觉特征和映射后的语言特征进行交叉注意力计算,得到新的视觉特征和新的语言特征,以供机器人调节运动姿态。本发明所述方法结合了早期和晚期融合的优势,能够根据自由形式的语言表达实现机器人的精确细粒度目标定位,提高了机器人精细化目标定位效率和准确率。
背景技术
随着人工智能和计算机视觉技术的快速发展,视觉定位技术已经取得了显著的进步,且广泛应用于自动驾驶、智能制造、机器人和无人机导航等领域。
通过视觉定位技术,机器人能够更自然地理解并响应用户的操作,这种自然性不仅体现在机器人对用户动作的准确捕捉上,还体现在机器人对用户意图的深入理解上,例如,机器人可以通过视觉定位技术来捕捉患者的运动轨迹,并根据患者的康复需求进行个性化的运动辅助。
相关技术中,通常采用两阶段(包括候选生成和跨模态匹配)视觉定位模型探索更有效的跨模态交互,或者在可解释推理方式中选择最佳匹配的候选,从而实现目标检测和定位,但两阶段视觉定位模型为串行架构,模型训练效率受限,且过于依赖候选生成阶段的训练效果,导致模型鲁棒性低;而采用一阶段视觉定位方法进行目标视觉定位时,先通过两类独立的编码器分别提取对应语言特征和视觉特征,再通过聚合模块将两类特征进行跨模态融合,融合后的特征表征能力有限,只能实现目标粗粒度定位(如输出为定位框),难以满足对机器人对目标精细化定位(如输出为像素级坐标)的要求。
实现思路