本技术属于计算机视觉与人工智能技术领域,公开了一种基于层次特征融合的组合式零样本图像分类方法。本发明方法针对组合式零样本图像分类的技术难点,创新性地提出了基于层次特征融合的解决方案。通过选取CLIP模型视觉编码器中不同深度的特征,并对其进行层次融合,有效提取多层次、多尺度的视觉信息,融合后的特征进一步用于视觉与语义的跨模态交互,显著提升了模型对复杂组合的理解能力。此外,本发明通过引入特定损失项,有效分离属性和对象特征,避免特征混叠问题。在组合式零样本图像分类任务中,本发明方法展现出优异的泛化能力和识别效果,能够显著提升模型对未知复杂组合图像的分类性能。
背景技术
国内外现有的组合式零样本图像分类方法,主要分为四大类。第一类方法是基于单概念分类器的模型,该方法将属性和对象视为同等重要的概念,通过学习各个概念的分类器并将属性和对象组合起来,以识别集成的概念,即新的属性-对象对,但这类方法存在明显的缺点,其将属性和对象一概而论,忽略了属性在视觉上与对象高度相关且依赖于上下文的事实,因此往往表现不佳。第二类方法是基于图像-组合兼容模型,该方法将属性-对象对作为一个整体来处理,并直接学习它们与图像之间的兼容性特征表示,由于引入了深度学习技术,此类方法在模型性能上已显示出一些改进,然而这类方法仍然没有明确区分属性和对象,属性和对象仍然相互交织并影响彼此。第三类方法是基于属性-对象显式解耦模型,其通常采用空间嵌入方法来显式解耦属性和对象,不再将属性和对象视为相同的概念,而是在嵌入空间中成功地将属性和对象解耦,同时强调它们的差异和联系,这种方法已经带来了性能的提升,然而在嵌入过程中不可避免地会发生信息丢失,一些细微但至关重要的特征或关系可能会变得模糊或丢失,使得模型难以准确地表示所有属性-对象组合。第四类方法是基于CLIP的模型,CLIP由OpenAI团队于2021年提出,其为多模态信息融合处理提供了崭新的思路与范式。
然而,尽管CLIP在预训练阶段展现出颇为可观的学习能效与泛化特性,并且能够广泛适配一般性多模态数据处理诉求,但当直接部署应用于特定下游任务时,其局限性就会凸显出来。以组合式零样本图像分类任务为例,该任务要求模型能够精准识别未曾在训练集中出现过的图像类别组合,由于CLIP原始模型未针对此类特定场景细致优化,难以适配其特殊的数据分布与任务要求,致使模型性能不尽人意。
为化解这一困境,学界与业界涌现出一系列改进方案,核心策略是对CLIP生成的嵌入向量进行针对性微调。从原理上讲,微调旨在重塑模型所生产的文本嵌入,使其契合具体任务目标,借此提升模型在特定场景下的表现。但是现有微调方法存在明显缺陷,该方法过于侧重视觉编码器与文本编码器输出端的优化,忽略了特征编码过程蕴含的关键信息。视觉编码器各层级在特征提取、变换环节蕴含丰富且极具价值的中间特征,这些特征未得到妥善挖掘与有效利用,直接削弱了模型向未知组合场景泛化的能力,致使模型在遇到全新图像-文本组合时,分类准确性与稳定性欠佳,无法充分满足实际应用严苛的性能标准。
实现思路