本技术公开了一种基于去偏变分推断提示调优的图像识别方法,属于人工智能和计算机视觉领域。本发明将CLIP作为基准框架,该基准框架包括一个图像分支、一个文本分支;本发明基于图像分支,设计一种基于风格扰动的图像编码器,获得去偏的视觉特征;基于去偏的视觉特征和文本分支,设计一种基于去偏变分推断的文本编码器,获得去偏的文本特征;并通过设计的一种基于变分推断的损失函数,将训练集数据通过基于变分推断的损失函数最小化优化模型参数,得到参数最优的模型;将测试图像数据输入参数最优的模型得到图像识别结果。本发明为数据稀缺或受限场景提供了一种通用的小样本图像识别方法,在有限数据下仍能保持较高的识别准确率和泛化性能。
背景技术
视觉—语言预训练模型(Vision-Language Pre-trained Models,VLPMs)在开放集视觉概念理解和零样本学习中具有强大的表现,已被广泛应用于数据稀缺或数据受限的下游场景。其中,对比语言—图像预训练模型(Contrastive Language-Image Pre-Training,CLIP)是目前主流VLPMs的基础框架之一。然而,由于CLIP是基于大量公开自然场景数据集实现模型训练,导致主流模型在特定领域应用时面临领域偏移问题,即下游场景数据与预训练数据存在分布偏移现象,限制了VLPMs的泛化性能。提示调优(PromptTuning, PT)作为一种通过调整或学习输入prompt来引导模型适应特定任务的高效方法,已成为将CLIP迁移至下游场景的主流手段之一。即:在无需改变VLPMs参数的前提下,通过调整或学习prompt的方式来提升CLIP在特定任务上的表现。尽管PT在小样本下游任务中取得显著成效,但其泛化性能仍受两方面限制,具体如下:
其一,图像丰富的上下文信息迫使可学的文本prompt学习到特定任务描述,阻碍了视觉语言模型对新类的泛化能力。例如,当训练数据使用停在地面飞机图像数据时,CLIP极易学到“这是一架停在草地上的飞机”的特定prompt。然而,当测试数据包含在空中作业飞机数据时,模型极易因与训练数据存在上下文语义偏差进而导致泛化性能差现象。其二,主流视觉语言模型提示调优是基于有偏点估计优化模型参数,阻碍了视觉语言模型对未见提示的泛化能力。具体而言,现有方法通常将PT视为点估计问题,依赖经验风险最小化方式进行参数优化,导致模型对任务特定描述的过拟合,忽略了数据中的偏差和不确定性,导致模型在分布偏移的场景下泛化能力受限。
本发明针对上述问题发明了一种基于去偏变分推断提示调优的图像识别方法,旨在为数据稀缺或数据受限等场景提供一套通用的小样本学习方法,提升视觉语言模型的泛化性能。
实现思路