一种基于去偏变分推断提示调优的图像识别方法
2025-02-24 14:05
No.1343584625213317120
技术概要
PDF全文
本技术公开了一种基于去偏变分推断提示调优的图像识别方法,属于人工智能和计算机视觉领域。本发明将CLIP作为基准框架,该基准框架包括一个图像分支、一个文本分支;本发明基于图像分支,设计一种基于风格扰动的图像编码器,获得去偏的视觉特征;基于去偏的视觉特征和文本分支,设计一种基于去偏变分推断的文本编码器,获得去偏的文本特征;并通过设计的一种基于变分推断的损失函数,将训练集数据通过基于变分推断的损失函数最小化优化模型参数,得到参数最优的模型;将测试图像数据输入参数最优的模型得到图像识别结果。本发明为数据稀缺或受限场景提供了一种通用的小样本图像识别方法,在有限数据下仍能保持较高的识别准确率和泛化性能。
背景技术
视觉—语言预训练模型(Vision-Language Pre-trained Models,VLPMs)在开放集视觉概念理解和零样本学习中具有强大的表现,已被广泛应用于数据稀缺或数据受限的下游场景。其中,对比语言—图像预训练模型(Contrastive Language-Image Pre-Training,CLIP)是目前主流VLPMs的基础框架之一。然而,由于CLIP是基于大量公开自然场景数据集实现模型训练,导致主流模型在特定领域应用时面临领域偏移问题,即下游场景数据与预训练数据存在分布偏移现象,限制了VLPMs的泛化性能。提示调优(PromptTuning, PT)作为一种通过调整或学习输入prompt来引导模型适应特定任务的高效方法,已成为将CLIP迁移至下游场景的主流手段之一。即:在无需改变VLPMs参数的前提下,通过调整或学习prompt的方式来提升CLIP在特定任务上的表现。尽管PT在小样本下游任务中取得显著成效,但其泛化性能仍受两方面限制,具体如下: 其一,图像丰富的上下文信息迫使可学的文本prompt学习到特定任务描述,阻碍了视觉语言模型对新类的泛化能力。例如,当训练数据使用停在地面飞机图像数据时,CLIP极易学到“这是一架停在草地上的飞机”的特定prompt。然而,当测试数据包含在空中作业飞机数据时,模型极易因与训练数据存在上下文语义偏差进而导致泛化性能差现象。其二,主流视觉语言模型提示调优是基于有偏点估计优化模型参数,阻碍了视觉语言模型对未见提示的泛化能力。具体而言,现有方法通常将PT视为点估计问题,依赖经验风险最小化方式进行参数优化,导致模型对任务特定描述的过拟合,忽略了数据中的偏差和不确定性,导致模型在分布偏移的场景下泛化能力受限。 本发明针对上述问题发明了一种基于去偏变分推断提示调优的图像识别方法,旨在为数据稀缺或数据受限等场景提供一套通用的小样本学习方法,提升视觉语言模型的泛化性能。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
郭峰  左琳  郑志坤  彭浩然  陈中舒  陈彪
技术所属: 电子科技大学
相关技术
一种基于点云信息的螺柱检测方法 一种基于点云信息的螺柱检测方法
基于深度学习网络的多IMU动作捕捉方法、系统及介质 基于深度学习网络的多IMU动作捕捉方法、系统及介质
一种加工轨迹形变补偿方法及系统 一种加工轨迹形变补偿方法及系统
基于遥感技术的森林积蓄量监测分析方法及系统 基于遥感技术的森林积蓄量监测分析方法及系统
油罐布局信息生成方法、装置、电子设备、介质 油罐布局信息生成方法、装置、电子设备、介质
一种基于动态列车同步采样的图像校准系统 一种基于动态列车同步采样的图像校准系统
一种基于图像分形维数的TBM破岩效率评价方法 一种基于图像分形维数的TBM破岩效率评价方法
一种用于肾病人员状态数据存储方法 一种用于肾病人员状态数据存储方法
一种建筑物立体毁伤检测方法 一种建筑物立体毁伤检测方法
一种不同软件之间的含油饱和度数据传递方法 一种不同软件之间的含油饱和度数据传递方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利