多标签图像识别技术:文本-区域匹配策略应对标签缺失
2025-02-12 14:27
No.1339241568351297536
技术概要
PDF全文
本技术介绍了一种多标签图像识别方法,特别针对标签缺失的情况。该方法利用预训练的视觉-语言模型作为特征提取器,通过交叉注意力机制对视觉特征和查询向量进行处理,以生成准确的识别结果。
背景技术
多标签图像识别是计算机视觉领域的一项基本任务,旨在同时识别一张图像中的多种目标,应用十分广泛,一直是一项研究热点。然而构建完整标签的数据集是一项十分费事耗力的工作,这阻碍了多标签图像学习的应用和推广。一种新的设定——带有缺失标签的多标签图像识别近来得到了越来越大的关注。对数据集图像,只有部分标签被注释,这虽然降低了标注成本,也导致了传统的多标签图像识别方法在这种设定下的失效,由此带来了新的挑战。 现有的利用已知标签,而把未知标签视为负标签的方法和利用图学习来进行语义迁移的方法,尽管解决了一定的问题,但仍取得不了令人满意的效果。随着视觉语言模型的兴起,一切基于提示调优的方法被研究人员所使用,取得了识别性能上的提升。 然而,当下提示调优方法仍存在很多局限性:1)“文本-逐空间点匹配”方法,过于强调特征图细节,忽略了视觉特征内部之间的丰富结构信息,会引入不相关的噪声,从而影响最终识别;2)“文本-图像匹配”方法,将文本与整张图像进行匹配,会使得文本难以区别不同的视觉概念,而多标签图像识别中会包含多个目标和多样场景,会导致匹配不佳;3)“文本-文本匹配”方法,会因为训练数据和测试数据之间的差异,而导致在测试图像上的性能不佳。 当下的提示调优方法往往丢弃了未知注释中的有价值信息,在进行损失计算的时候,会屏蔽位置标签,这对模型的准确识别是不利的。此外,目前的提示调优方法,在联合嵌入空间中,未能有效地对齐视觉和文本表示,这种模态之间的差异性,也阻碍了视觉和文本的匹配。 总的来说,现有的有缺失标签场景下的多标签图像识别方法存在着以下不足:1)传统识别方法难以取得有效的结果;2)提示调优方法尽管有效,但基于“文本-逐空间点匹配”、“文本-图像匹配”和“文本-文本匹配”的方法存在着各自的缺点;3)当下提示调优方法不能很好地利用未知标签信息和不能有效地对齐视觉和文本特征。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
赵海峰  马磊磊  徐硕  曹明伟
技术所属: 安徽大学
相关技术
基于计算机视觉的矿下钻机钻杆计数方法 基于计算机视觉的矿下钻机钻杆计数方法
基于人工智能的视频检测方法 基于人工智能的视频检测方法
一种高压输电网的闪放电监测方法 一种高压输电网的闪放电监测方法
虚拟模型的摆放方法及装置 虚拟模型的摆放方法及装置
医学图像的分割方法和计算机可读存储介质 医学图像的分割方法和计算机可读存储介质
图像生成方法及装置、电子设备和存储介质 图像生成方法及装置、电子设备和存储介质
一种基于OpenGL ES架构的图片处理方法 一种基于OpenGL ES架构的图片处理方法
一种电单车及其侦测旁车摆放姿势的方法、存储介质 一种电单车及其侦测旁车摆放姿势的方法、存储介质
一种喷金质量检测方法及装置 一种喷金质量检测方法及装置
基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法 基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利