本技术介绍了一种结合自适应位置编码和并行解码技术的3D视觉定位方法及其系统。该方法涉及利用文本编码器对输入的自然语言文本进行处理,以获取文本令牌和特征,并进一步使用视觉编码器进行分析。
背景技术
多模态学习是增强人工智能对现实世界理解和认知的关键,其中最基本、最重要的模态是视觉和语言。其中,视觉定位(visual grounding)是一项新兴的视觉语言任务,需要模型基于自然语言描述来识别和定位场景中的目标物体。虽然2D图像上的视觉定位任务现已取得了显著的成果,但考虑到3D点云的稀疏和复杂结构,以及三维空间环境导致的语言描述多样性,3D视觉定位任务依旧面临巨大挑战。
随着单模态的3D目标检测任务取得重大进展,现阶段3D视觉定位任务的主要目标是解决“分类正确但定位不正确”的问题,这需要模型更好地理解三维场景中的空间布局。一些方法尝试主要处理视觉特征,以更好地感知场景中检测到的物体之间的空间关系,如《Viewpoint-Aware Visual Grounding in 3D Scenes》(2024年国际计算机视觉与模式识别会议IEEE Conference on Computer Vision and Pattern Recognition)引入了一个根据场景信息预测描述者视角的模型。另一些方法着重处理自然语言描述来实现位置信息和语义信息的跨模态对齐。例如,《EDA:Explicit Text-Decoupling and Dense Alignmentfor 3D Visual Grounding》(2023年国际计算机视觉与模式识别会议IEEE Conference onComputer Vision and Pattern Recognition)通过解耦文本来实现语义理解和空间关系匹配;《ViewRefer:Grasp the Multi-view Knowledge for 3D Visual Grounding withGPT and Prototype Guidance》(2023年国际计算机视觉大会IEEE InternationalConference on Computer Vision)通过大语言模型的多样化语言知识将单个基础文本扩展为多个几何一致的描述。
然而,目前的方法主要存在两个问题。一方面,由于现有的串行编码-解码器架构使用同一套注意力机制来处理识别和定位问题,物体属性特征(如形状和颜色)和空间环境特征耦合在一起。前者要求注意力图更加关注预测框附近的点,而后者要求它更加关注能够与目标物体形成描述中的空间关系的点,过去的串行结构无法解耦这两种注意力。另一方面,处理视觉特征的交叉注意力模块不使用文本携带的空间信息。没有自然语言描述的指导,查询只能粗略地学习相邻点的特征,这导致查询关注冗余和不相关的空间信息,从而引起注意力的分散。
实现思路