本申请公开了一种智能体及其室内导航方法、设备、介质及产品,涉及导航控制领域。该方法包括:采用视觉语言模型,并利用检索增强生成策略构建室内场景多模态知识库;获取用户指令和室内环境图像;基于用户指令和室内环境图像从室内场景多模态知识库检索得到位置信息;基于位置信息匹配导航策略算法并更新验证室内场景多模态知识库,匹配信息准确性。本申请能够理解包括自然语言和图像在内的多模态指令并进行精确导航。
背景技术
随着大型的视觉语言模型(Visual Language Model,VLM)的快速发展,使得VLM在各种实际应用中的潜力受到越来越多的关注。当前针对将VLM应用于的未知环境导航,尤其是在室内零样本导航中构建一个能够理解包括自然语言和图像在内的多模态指令并进行反馈导航策略依旧难以实现。
实现思路