本技术介绍了一种在新场景中自适应评估目标检测性能的方法。该技术通过结合光照、色偏和散度估计来量化背景差异(S1),计算训练场景与应用场景间的背景差异指标,以实现性能评估的自适应调整。
背景技术
随着视频监控的广泛应用,每天有海量的视频数据被产生,视频监控系统逐渐朝着智能化方向发展,如目标检测等高层计算机视觉任务作为人工的辅助,发挥着越来越大的作用。目标检测算法是获取图像中目标的大小、位置和类别的一种算法。现有的目标检测算法大多使用深度学习算法。但是,深度学习算法具有较强的场景依赖性,当将训练好的深度学习模型应用于新的场景时,往往会出现性能下降的情况,这种现象被称为领域迁移。领域迁移在视频监控应用场景中尤为突出,因为监控场景的复杂性和多样性使得训练场景的数据分布和应用场景的数据分布存在较大的差异。这就限制了智能化算法的有效应用场景。因此,人们致力于通过域自适应和迁移学习等技术手段,提高模型的泛化能力,进而提升深度学习算法在新场景下的性能。
现有的域自适应方法包括基于对抗特征学习的域自适应、基于伪标签自训练的域自适应和基于图像翻译的域自适应。基于对抗特征学习的域自适应使用域判别器对目标检测模型进行对抗训练,使模型能够学习到域不变特征。基于伪标签自训练的域自适应利用源域训练的检测器模型在目标域中生成的高置信度预测结果训练目标域的模型。基于图像翻译的域自适应使用非配对图像转换模型,将目标图像映射到类似于源图像的图像空间中,减少了图像风格的分布偏移,由于检测器更容易在类似源域的目标图像上表现良好,进而提升了模型在目标域上的性能。
可以看出,现有的域自适应方法主要通过调整深度学习算法模型使得模型适应新的场景,而对训练场景和应用场景之间的域差异的度量考虑不足。当训练场景和应用场景之间不存在域差异的时候,无需使用域自适应方法调整模型。此外,缩小域差异应该是模型调整或者参数自适应调整的一个优化目标,因此对场景间域差异的准确度量是一个重要问题。
实现思路