一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品

123技术园

首页 / 技术内容

2025-02-21 19:15

No.1342575512312356864

技术概要

PDF全文

本申请公开了一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品，涉及数据智能处理领域。该方法包括采用图像编码器和文本编码器，分别将图像和文本数据编码为向量，得到图像和文本向量；融合图像向量和文本向量，并基于融合结果生成知识图谱，得到嵌入式具身智能视觉语言大模型知识库；获取用户问题，并解析用户问题得到解析结果；基于解析结果在多模态知识库中检索得到多个物体以及图检索结果；将选取的多个物体与对应的图检索结果进行合并，得到三元组信息，并将三元组信息转化为物体的位置文本描述后，输入到多模态大语言模型中，输出与用户问题对应的答案。本申请能够提高生成回答的准确性，减少幻觉现象的发生。

背景技术

信息检索（Information Retrieval，IR）是计算机科学中的基础任务，对于从庞大的数据集中获取满足特定用户需求的相关信息至关重要。随着生成式人工智能的兴起，IR的重要性愈发显著。生成式人工智能模型依赖IR系统实现精确引用，减少生成内容中的不准确信息的风险。尽管IR在当今技术环境中的作用不可或缺，现有文献，特别是在多模态IR领域，仍然范围狭窄，主要集中于具有预定义格式的同质检索场景，通常限于单一领域。例如，MSCOCO数据集通过文本描述检索Flickr图像，而电子交换系统（Electronic datainterchange system，EDIS）通过新闻标题检索新闻头条图片。这种同质化设置无法满足用户多样的信息需求，而这些需求通常跨越不同领域和模态。多模态检索系统必须发展以适应这些多样化需求。例如，某些用户可能通过文本查询搜索网络图像，而另一些用户可能使用一张连衣裙的照片并结合“相似款式”或“红色”等文本输入来寻找匹配的时尚产品。目前的多模态检索系统在应对这些多样化的用户需求方面存在不足，通常局限于对预训练模型【如CLIP（Contrastive Language-Image Pre-training）】的任务特定微调。因此，迫切需要构想和开发更灵活的通用神经检索器，能够跨越不同领域、模态和检索任务，更好地满足用户的多样化需求。在计算机科学领域，另一项重要应用是检索增强生成（Retrieval-augmentedGeneration，RAG）。不同于生成模型创建新内容，RAG通过集成检索来定位大量资源中的相关现有对象，从而增强生成过程。这种方法在3D视觉-语言（3D-VL）学习中尤为重要，特别是用于具身智能场景任务中的地面场景理解。然而，3D场景固有的复杂性加剧了这一差距。3D场景中包含多种具有不同属性的物体实例，这些物体排列多样，彼此关系复杂。这些独特的3D场景特性不仅使得准确描述物体及其关系更加困难，还显著增加了全面描述场景所需的语言描述数量。视觉语言学习在基于Transformer的预训练模型和大规模图像语言数据集的推动下取得了显著进展。这些进展突显了数据扩展的重要性，数据显示通过简化的对比预训练管道可以改善对齐并扩展开放词汇理解能力。尽管有这些进展，但由于缺乏配对的3D场景语言数据，将这些模型应用于场景理解仍然是一个重大挑战。目前的3D场景定位模型通常依赖于任务特定的知识和高级优化策略，这限制了它们的通用性。为了解决这一问题，研究人员开始采用预训练的2D视觉语言模型用于3D任务，但这些模型在捕捉3D数据固有的空间关系方面仍存在不足。这强调了语言与3D场景之间进行多层次对齐的需求，特别是针对3D特定信息。已知研究中，混合检索的主要组件，即大语言模型（Large Language Model，LLM）和视觉语言预训练模型（Vision-and-Language Pretrained Model，VLPM），都存在幻觉问题。特别是，LLM倾向于生成非预期的文本幻觉，而VLPM可能在图像中生成不存在的对象，这被称为对象幻觉。已知的MLLM容易对在视觉指令数据集中频繁出现或共同出现的对象产生幻觉。在传统的RAG场景里面，查询和段落通常被编码为单个向量。大多数稠密检索器未能明确发现并利用问题的关键实体。这往往导致过于笼统的知识，而缺乏具体的焦点。基于此，目前技术中亟需识别问题的关键实体，并专门检索与问题相关的、聚焦于这些实体的知识。笼统描述的只会给模型带来无关的噪声，从而影响生成结果。可见，本领域亟需一种良好的检索策略来避免可能的幻觉。综上，3D视觉语言对齐过程中面临的对象类别属性多样、关系复杂。3D视觉语言图像文本匹配稀缺，3D场景本身检索复杂性、数据重复性缺乏统一对齐3D多模态知识库方法。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

李明益刘辉韩立金

技术所属：北京理工大学

相关技术

FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
本申请实施例提供一种FPGA实现硬件逻辑实时仿真的方法及装置，方法包括:将待仿真的算法模型封装成可复用的可编程阵列逻辑器件的算法IP核,并在算法IP核中定义算法模型的输入输出端口和参数接口；通过可编程阵列逻辑器件的预设设计工具将顶层设计文件进行综合布局布线，生成对应的可在可编程阵列逻辑器件上直接运行的比特流文件,并将比特流文件下载至目标硬件平台启动运行；本申请能够有效提升仿真效率和准确性。
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
本发明公开了一种基于API和数据库的动态标定方法，在MPU端设计外部服务接口API，将MCU端的标定参数转化为MPU端外部接口API，让外部系统获取和修改标定参数；在MPU端通过特定的配置服务将外部系统提供的参数转化为数据库中的标定参数；MPU端数据库中标定参数被外部接口API修改后，MCU端对应的标定参数被同时修改。外部系统通过外部上位机或文件提供动态编写和验证功能，实现外部系统对标定参数的修改。本发明的技术方案可以方便地扩展和升级，支持更多的标定参数类型和格式，支持多个数据库和API接口，以及支持更多的外部系统和平台。
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
本发明公开了一种虚拟机的沙箱引擎更新方法、装置、设备和介质，由于该方法在虚拟机恢复到快照文件对应的状态后，通过对全局数据指针和检测函数的更新，就可以实现对沙箱引擎的更新，因此无需重新制作快照文件和沙箱环境，对沙箱引擎进行更新时需要制作的更新包较小，更新效率高。
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
本申请实施例提供一种频域响应仿真与测量数据处理方法及装置，方法包括:选择与试验测点相对应的位置作为与物理三维模型对应的仿真模型节点的选取位置，在仿真模型中将仿真有限元距离试验测点相对于相邻点间距离低于阈值时，将距离试验测点最近的有限元节点作为与试验测点相匹配的空间点，得到对应的空间分布比对结果；通过预设模态匹配算法对仿真结果数据与现场实测频率响应数据进行模态相关性分析，得到仿真结果数据与现场实测数据的模态匹配关系，根据模态匹配关系得到频域响应比对结果；根据空间分布比对结果和频域响应比对结果修正物理三维模型的仿真参数；本申请提高数据处理和比对的准确性，实现仿真数据与试验测量数据的实时整合和分析。
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
本公开提供了一种服务数据节点迁移方法、装置、电子设备及存储介质，所述方法包括:通过多个接口节点中第一接口节点的第一检测器，获得多个服务数据节点中与第一接口节点绑定的第一服务数据节点运行异常的检测结果；通过第一接口节点的第一检测器，响应于第一服务数据节点运行异常的检测结果，向服务控制节点发送服务迁移请求；通过服务控制节点，响应于服务迁移请求，解除第一接口节点与第一服务数据节点之间的绑定关系，将第一接口节点中的各服务迁移至多个接口节点中的第二接口节点，第二接口节点与多个服务数据节点中的一个具有绑定关系。借此，本申请可在检测接口节点的服务数据节点出现运行异常时，自动触发服务数据节点的迁移处理，确保服务的连续性和可用性。
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
本发明实施例公开了一种配送控制方法、装置、服务器、智能柜及机器人。所述方法在获取用于表征目标订单配送需求的配送需求信息后，响应于配送需求信息为机器人配送，向机器人发送取件消息，响应于接收到机器人发送的开门请求，控制智能柜打开目标柜格的第一柜门，以使所述配送物品转移到所述机器人的物品暂存格中。其中，所述目标柜格中存储有与目标订单对应的配送物品。通过所述配送控制方法可以降低配送成本，同时提高配送效率并改善用户体验。
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
本发明提供一种适用于硬件电路的高精度压缩方法、装置及电子设备，应用于图像处理技术领域，该方法包括:获取目标图像；将所述目标图像输入卷积神经网络模型；输出所述目标图像对应的图像类别；其中，该卷积神经网络模型是基于不同类别的图像训练得到的、经过压缩的神经网络模型，该卷积神经网络模型的每个卷积层中包括至少一组卷积核参数为卷积核共享参数。
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
本发明涉及目标智能识别域，具体是融合多源信息的打击目标智能识别方法和系统，该方法通过构建城市区域的实时三维模型获取遮挡区域的分布信息，通过数据融合方法得到打击目标的特征信息，通过空间对比分析预测打击目标进入的遮挡区域；通过动态滤波算法预测所述打击目标在所述遮挡区域的预测移动轨迹；通过所述预测移动轨迹和打击目标的特征信息得到打击目标在遮挡区域的实时位置；获取打击目标离开遮挡区域时的检测数据并通过特征匹配算法得到识别结果，当所述识别结果为无法确认打击目标时，则目标识别系统触发矫正机制。以解决打击目标进入隐蔽区域后，难以进行持续追踪并精确锁定目标，导致打击精度下降或丢失目标的问题。
水利对象关联关系建立方法 水利对象关联关系建立方法
本发明提供水利对象关联关系建立方法，从目标数据源获取建立水利对象关联关系的原始基础数据，所述原始基础数据至少包括:江河湖泊描述数据、水利工程描述数据、水利管理描述数据；对所述建立水利对象关联关系的原始基础数据进行预处理，以生成有效基础数据，所述预处理包括：去重、缺失值填补、错误值修正；通过对所述有效基础数据进行本体编码，以将不同类型的有效基础数据映射到同一标准下并使得关联与同一水利对象的不同类型的原始基础数据之间建立关联关系并生成有效基础数据之间的实体互联图谱；基于预先建立的水利对象拓扑关系，根据有效基础数据之间的实体互联图谱进行实体以及实体间功能关系的迭代，以建立水利对象关联关系。
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
本公开提供了一种问题解答方法、装置、介质和电子设备，所述方法包括:获取第一客户终端传送的第一解答请求；对所述问题音频进行音频语义分析，从所述问题音频中获得至少两个问题关键词；基于所述至少两个问题关键词对知识集进行匹配搜索，获得第一搜索结果；响应于不存在所述第一搜索结果，至少基于所述问题音频生成第二解答请求；将所述第二解答请求传送至第二客户终端，以便获得响应所述第二解答请求的解答信息，并传送至所述第一客户终端。从而降低了答疑教师的工作量，使复习者提出的问题能够及时解答，提高了答疑效率，也提高了复习者的复习效率。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工