本技术公开了基于对比‑生成式预训练模型的遥感问答系统,首先搜集分类、语义分割、目标检测、图文检索和图像文本生成等任务的遥感图像作为原始数据,并统一转换为图文对形式。通过分割处理计算类别面积占比,检测目标类别及其位置信息,并通过CLIP模型进行零样本分类。接着,将多源信息输入多模态大语言模型,根据问题生成图像的文本描述,完成遥感全局视觉问答数据集的构造。同时,基于标注框裁切图片并送入多模态大语言模型,以获得遥感局部视觉问答数据集。然后,分由粗到精两阶段预训练对比‑生成式模型,使其具备全局‑局部级遥感知识与视觉问答能力。最后通过构建用户友好的系统界面,实现与用户的问答交互。
背景技术
基础模型在人工智能中变得越来越重要。与为特定任务或领域量身定制的小型专业模型相比,“一对一”式通用基础模型通常在广泛的下游任务中表现出卓越的性能和泛化能力。近年来,出现了许多基础模型,例如用于计算机视觉的SimCLR、MAE、Florence、SAM、用于自然语言处理的BERT模型和GPT、系列,以及用于视觉语言学习的CLIP和Flamingo等。此外,遥感领域也正朝着遥感卫星图像基础模型方向进一步探索。迄今为止,遥感基础模型的设计灵感主要来自于计算机视觉领域中自监督学习(SSL)的成功,特别是掩码图像建模(MIM)方法,尤其是SatMAE、Scale MAE、ViTAE、Billion Scale MAE、RingMo、GFM等方法已经在大型Vision Transformers模型和大规模卫星图像数据集上使用了MIM的方法,并且有着良好的性能。
然而,最近的研究表明,作为大多数当前遥感基础模型基础的MIM方法主要学习低级视觉特征,缺乏学习高级语义的能力。例如,Kong等人证明了MIM预训练本质上是学习遮挡不变的视觉特征。Park等人表明,MIM方法更擅长学习高频纹理特征,而不是捕捉更广阔的全局特征。虽然MIM学习到的低级特征有利于通用领域中的视觉识别任务(例如,ImageNet中的自然图像),但是却无法保证低级特征是否同样适用于遥感领域。此外,所有这些基础模型都需要标注的数据以及额外的微调阶段,以适应不同的下游任务(例如,场景分类)。由于缺乏视觉和语言的联合建模,它们无法像CLIP模型那样进行零样本推理。并且,最近的研究表明多模态在构建地理空间人工智能(GeoAI)基础模型方面发挥着关键作用。遥感视觉语言基础模型可以为遥感场景中许多基于CLIP的视觉语言应用铺平道路,如开放词汇目标检测、零样本图像分割、文本到图像的生成和多模式大型语言模型等等。因此,学习具有丰富卫星遥感图像视觉概念语义的鲁棒特征,对遥感视觉语言基础模型着手进行研究有着重要意义。此外,基于对比-生成式预训练模型的遥感问答系统可以提高遥感数据的可操作性和应用价值,有助于更好地理解和管理地球上的各种资源和环境,从而在决策制定和问题解决方面提供更强大的工具和洞察力。这对于遥感领域的科研、商业和政府应用都具有巨大的潜力。
实现思路