本技术公开了一种基于双流特征融合的三维点云开放场景理解方法,属于多模态学习领域,包括数据准备,收集三维点云数据V,进行数据标注得到三维点云开放场景理解数据集A,将获得的三维点云开放场景理解数据集A进行数据集划分;构建三维点云开放场景监督信息,构建前景兴趣区和构建开放语义信息,融合双流特征信息;设计包含一个三维点云特征提取器E、预训练的文本特征提取器θ<subgt;text</subgt;与多模态判别器D的模型M;训练模型M得到模型M<supgt;*</supgt;;在模型M<supgt;*</supgt;上进行测试;本发明采用上述一种基于双流特征融合的三维点云开放场景理解方法,实现了在开集上的三维点云场景理解,显著提高了开集语义分割等任务的精度。
背景技术
三维点云相关的视觉任务存在着激光雷达设备采集数据成本高,大规模数据人工标注成本高,三维点云相关技术发展起步晚等特点,在计算机视觉领域的发展落后于二维图像领域。
而二维图像领域由于数据获取与标注成本低、发展历史久,近几年已经取得了快速的发展,近些年更是产生了一系列基于文本与图像数据对的多模态模型,通过文本与图像对的对齐与训练,实现了在二维图像领域的开放场景理解的相关任务,如开放词汇的图像分类、分割、目标检测等任务。
然而二维图像领域开放场景理解的成功建立在大量的文本与图像对的训练数据基础上,三维点云领域缺乏且难以获得如此大规模的数据,如何基于无标注三维点云数据,将开放场景理解的能力从二维图像领域迁移到三维点云领域成为了亟需解决的问题。
实现思路