本技术涉及一种基于开放词汇分割的图像全景分割模型的训练方法和装置,获取训练样本集及预设的点网格;训练样本集中包括至少一个图像、所述至少一个图像中每个图像对应的像素级的类别标签;基于预设的点网格、至少一个图像和每个图像对应的像素级的类别标签,确定预设的点网格中每个点对应的查询嵌入向量;基于至少一个图像以及每个点对应的查询嵌入向量,结合预训练好的特征提取及掩码生成模型,生成每个点对应的预测掩码区域向量;基于至少一个图像以及每个点对应的预测掩码区域向量,结合预设的余弦相似度损失函数,更新多尺度特征适配器的参数。无须耗费大量的人工注释成本,也能完成图像全景分割并提高图像分割的分割性能。
背景技术
为了克服封闭词汇分割的限制,人们提出了开放词汇分割。开放词汇分割使用自然语言表示的类别名字的文本嵌入作为标签嵌入,而不是从训练数据集中学习它们。通过这样做,模型可以对更宽泛的词汇进行分类,从而提高处理更广泛类别的能力。为了确保提供有意义的嵌入,通常使用预训练的文本编码器。这个编码器可以有效地捕捉单词和短语的语义含义,这对于开放词汇分割非常关键。多模态模型,例如(Contrastive language-image Pre-Training,CLIP)已经展现出在开放词汇分割方面的潜力,因为它们能够从大规模互联网数据中学习对齐的图像文本特征表示。
目前通常依赖于图像-掩模-文本三元组进行基于开放词汇分割的图像语义分割,但这种方法需要耗费大量的人工精力对掩模和文本之间的对应关系进行标注,会导致昂贵的注释成本。
尽管现有技术中已经提出了一些弱监督方法,例如通过文本监督来降低注释成本,但监督的不完整性严重限制了通用性和性能。其中,文本监督只利用图像和文本对进行语义分割,在捕获复杂的空间细节方面存在不足,这对于密集预测来说不是最佳的。此外,文本监督这种类型的监督缺乏位置信息,使得模型难以区分具有相同语义类的不同实例。这些问题严重限制了现有弱监督方法的多功能性和分割性能。
因此,现有技术中在基于开放词汇分割的图像分割过程中,需要昂贵的注释成本,同时限制了图像分割的多功能性和分割性能。
实现思路