本申请公开了一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品,涉及数据智能处理领域。该方法包括采用图像编码器和文本编码器,分别将图像和文本数据编码为向量,得到图像和文本向量;融合图像向量和文本向量,并基于融合结果生成知识图谱,得到嵌入式具身智能视觉语言大模型知识库;获取用户问题,并解析用户问题得到解析结果;基于解析结果在多模态知识库中检索得到多个物体以及图检索结果;将选取的多个物体与对应的图检索结果进行合并,得到三元组信息,并将三元组信息转化为物体的位置文本描述后,输入到多模态大语言模型中,输出与用户问题对应的答案。本申请能够提高生成回答的准确性,减少幻觉现象的发生。
背景技术
信息检索(Information Retrieval,IR)是计算机科学中的基础任务,对于从庞大的数据集中获取满足特定用户需求的相关信息至关重要。随着生成式人工智能的兴起,IR的重要性愈发显著。生成式人工智能模型依赖IR系统实现精确引用,减少生成内容中的不准确信息的风险。尽管IR在当今技术环境中的作用不可或缺,现有文献,特别是在多模态IR领域,仍然范围狭窄,主要集中于具有预定义格式的同质检索场景,通常限于单一领域。例如,MSCOCO数据集通过文本描述检索Flickr图像,而电子交换系统(Electronic datainterchange system,EDIS)通过新闻标题检索新闻头条图片。这种同质化设置无法满足用户多样的信息需求,而这些需求通常跨越不同领域和模态。
多模态检索系统必须发展以适应这些多样化需求。例如,某些用户可能通过文本查询搜索网络图像,而另一些用户可能使用一张连衣裙的照片并结合“相似款式”或“红色”等文本输入来寻找匹配的时尚产品。目前的多模态检索系统在应对这些多样化的用户需求方面存在不足,通常局限于对预训练模型【如CLIP(Contrastive Language-Image Pre-training)】的任务特定微调。因此,迫切需要构想和开发更灵活的通用神经检索器,能够跨越不同领域、模态和检索任务,更好地满足用户的多样化需求。
在计算机科学领域,另一项重要应用是检索增强生成(Retrieval-augmentedGeneration,RAG)。不同于生成模型创建新内容,RAG通过集成检索来定位大量资源中的相关现有对象,从而增强生成过程。这种方法在3D视觉-语言(3D-VL)学习中尤为重要,特别是用于具身智能场景任务中的地面场景理解。然而,3D场景固有的复杂性加剧了这一差距。3D场景中包含多种具有不同属性的物体实例,这些物体排列多样,彼此关系复杂。这些独特的3D场景特性不仅使得准确描述物体及其关系更加困难,还显著增加了全面描述场景所需的语言描述数量。
视觉语言学习在基于Transformer的预训练模型和大规模图像语言数据集的推动下取得了显著进展。这些进展突显了数据扩展的重要性,数据显示通过简化的对比预训练管道可以改善对齐并扩展开放词汇理解能力。尽管有这些进展,但由于缺乏配对的3D场景语言数据,将这些模型应用于场景理解仍然是一个重大挑战。目前的3D场景定位模型通常依赖于任务特定的知识和高级优化策略,这限制了它们的通用性。为了解决这一问题,研究人员开始采用预训练的2D视觉语言模型用于3D任务,但这些模型在捕捉3D数据固有的空间关系方面仍存在不足。这强调了语言与3D场景之间进行多层次对齐的需求,特别是针对3D特定信息。
已知研究中,混合检索的主要组件,即大语言模型(Large Language Model,LLM)和视觉语言预训练模型(Vision-and-Language Pretrained Model,VLPM),都存在幻觉问题。特别是,LLM倾向于生成非预期的文本幻觉,而VLPM可能在图像中生成不存在的对象,这被称为对象幻觉。已知的MLLM容易对在视觉指令数据集中频繁出现或共同出现的对象产生幻觉。
在传统的RAG场景里面,查询和段落通常被编码为单个向量。大多数稠密检索器未能明确发现并利用问题的关键实体。这往往导致过于笼统的知识,而缺乏具体的焦点。基于此,目前技术中亟需识别问题的关键实体,并专门检索与问题相关的、聚焦于这些实体的知识。笼统描述的只会给模型带来无关的噪声,从而影响生成结果。可见,本领域亟需一种良好的检索策略来避免可能的幻觉。
综上,3D视觉语言对齐过程中面临的对象类别属性多样、关系复杂。3D视觉语言图像文本匹配稀缺,3D场景本身检索复杂性、数据重复性缺乏统一对齐3D多模态知识库方法。
实现思路