本技术介绍了一种多标签图像识别方法,特别针对标签缺失的情况。该方法利用预训练的视觉-语言模型作为特征提取器,通过交叉注意力机制对视觉特征和查询向量进行处理,以生成准确的识别结果。
背景技术
多标签图像识别是计算机视觉领域的一项基本任务,旨在同时识别一张图像中的多种目标,应用十分广泛,一直是一项研究热点。然而构建完整标签的数据集是一项十分费事耗力的工作,这阻碍了多标签图像学习的应用和推广。一种新的设定——带有缺失标签的多标签图像识别近来得到了越来越大的关注。对数据集图像,只有部分标签被注释,这虽然降低了标注成本,也导致了传统的多标签图像识别方法在这种设定下的失效,由此带来了新的挑战。
现有的利用已知标签,而把未知标签视为负标签的方法和利用图学习来进行语义迁移的方法,尽管解决了一定的问题,但仍取得不了令人满意的效果。随着视觉语言模型的兴起,一切基于提示调优的方法被研究人员所使用,取得了识别性能上的提升。
然而,当下提示调优方法仍存在很多局限性:1)“文本-逐空间点匹配”方法,过于强调特征图细节,忽略了视觉特征内部之间的丰富结构信息,会引入不相关的噪声,从而影响最终识别;2)“文本-图像匹配”方法,将文本与整张图像进行匹配,会使得文本难以区别不同的视觉概念,而多标签图像识别中会包含多个目标和多样场景,会导致匹配不佳;3)“文本-文本匹配”方法,会因为训练数据和测试数据之间的差异,而导致在测试图像上的性能不佳。
当下的提示调优方法往往丢弃了未知注释中的有价值信息,在进行损失计算的时候,会屏蔽位置标签,这对模型的准确识别是不利的。此外,目前的提示调优方法,在联合嵌入空间中,未能有效地对齐视觉和文本表示,这种模态之间的差异性,也阻碍了视觉和文本的匹配。
总的来说,现有的有缺失标签场景下的多标签图像识别方法存在着以下不足:1)传统识别方法难以取得有效的结果;2)提示调优方法尽管有效,但基于“文本-逐空间点匹配”、“文本-图像匹配”和“文本-文本匹配”的方法存在着各自的缺点;3)当下提示调优方法不能很好地利用未知标签信息和不能有效地对齐视觉和文本特征。
实现思路