本技术公开了跨令牌引导Transformer的弱监督定位方法,包括如下步骤:采集图像并对图像进行预处理;构建由依次连接的多个基础Transformer块和多个位置Transformer块组成的Transformer编码器,将预处理后的图像依次经过基础Transformer块和位置Transformer块进行处理;将每个位置Transformer块的中间量取出并平均,得到平均后的中间量;构建滤波调节模块FRM,将平均后的中间量输入到滤波调节模块进行优化,得到最终定位图;本发明通过编码器有效缓解了目标区域周围的上下文偏差问题,通过滤波调节模块进一步提高了定位图的清晰度和语义一致性。
背景技术
近年来,随着计算机性能的迅猛提升以及大数据技术的快速发展,视觉信息数据呈现出爆炸式增长的趋势。多媒体数据形式多样,包括静态图像、动态图像、视频文件和音频文件等,这些数据正以前所未有的速度在社交媒体和互联网中传播。作为计算机视觉领域中的核心技术之一,目标检测技术得到了广泛应用,覆盖了目标跟踪、行为识别、人机交互、自动驾驶及人脸识别等多个重要领域。由于人类超过80%的信息是通过视觉获取,基于视觉信息处理的相关技术已成为人工智能领域中的关键研究方向之一。其中,人脸识别、视频监控、目标检测、图像内容审查以及生物特征识别等技术逐步成为研究热点,并在医疗健康、智能交通、智慧城市管理和公共安全等实际场景中得到广泛应用,如医学影像诊断、姿态估计、车站安检、自动驾驶辅助系统和视频监控中的行为分析等。
弱监督目标定位(Weakly Supervised Object Localization, WSOL)旨在利用图像级标签训练模型,定位目标对象。现有技术大多基于类激活图(Class ActivationMapping, CAM),该方法生成的定位图往往仅关注目标的显著区域,而难以完整覆盖整个目标对象。尽管后续方法通过数据增强、对抗学习和引入视觉 Transformer 等策略,试图改善目标激活不完整的问题,但由于受限于上下文建模能力和特征纠缠,这些方法在定位性能上仍存在不足,尤其是最新提出的空间令牌方法,虽然有效缓解了分类与定位间的优化冲突,但定位图中仍常见弥散激活现象,这种问题主要源于上下文元素的纠缠,导致目标区域受到共现背景的干扰,降低了定位的准确性和可靠性。
实现思路