本技术公开了一种弱监督语义分割方法及相关装置,本发明在生成语义分割伪标签时,根据前景辅助文本特征和图像X特征的相似度,为前景类别名称筛选出的相似单词,构建前景文本提示,帮助视觉语言预训练模型对像素的激活,解决了目标像素激活不充分的问题,根据图像X的常见背景类别名称特征和图像X特征的相似度,筛选出的常见背景类别名称,构建背景文本提示,使视觉语言预训练模型对共现背景的敏感度提高,解决了共现背景的问题。
背景技术
图像语义分割是计算机视觉领域中的一个基础性研究方向,该任务的目的是为给定图像的每一个像素预测一个类别标签,从而得到像素级标签。得益于深度学习算法的发展,语义分割近年来也取得了很大的进展,然而语义分割训练需要大量的像素级注释,获取这些像素注释是一项费力且耗时的工作,这会产生较高的人工和时间成本。
弱监督语义分割的出现解决了上述问题,因为弱监督语义分割仅依赖弱标注的标签训练分割模型,常见的一些弱标注包括边界框、涂鸦、点和图像等标注,其中图像级标注相比于其他方式更容易获得,同时,由于图像级标注仅给出了图像中存在的具体目标类别信息而并未指出目标类别的具体位置,这使得基于图像级标注的弱监督语义分割方法十分具有挑战性,因此在弱监督语义分割任务的过程中一直以来会面临着两个问题:
1)共现背景问题;在弱监督语义分割使用的训练数据集中,会出现目标对象与某些背景元素同时频繁出现的情况,例如铁轨与火车,船与湖面等,这种情况可能会导致模型在进行分割任务时,将这些常见的背景元素误认为是目标对象的一部分,从而影响分割精度;
2)目标像素激活不充分问题;在训练过程中,用于表示目标对象的像素未能被充分地识别和激活,这会影响到伪标签的质量,随之导致最终分割结果中,目标对象被错误地分割。
实现思路