本技术介绍了一种视频行人重识别方法,该方法特别强调长短期时间关系的重要性。该方法首先将训练数据输入到Transformer网络中,借助其卓越的建模能力,以捕捉行人在视频中的时间特征。
背景技术
近年来,随着智能监控等领域的广泛应用,行人重识别引起了越来越多的关注。根据查询的类型,行人重识别可以分为基于图像和基于视频两类方式,与基于图像的行人识别相比,基于视频的行人识别具有更加丰富的时间和空间信息,这些信息可以用于减少视觉模糊性,从而提高行人重识别的鲁棒性和准确性;基于视频的行人重识别更贴近实际应用场景,并且具有更高的实用价值,虽然视频行人重新识别技术已经取得了显著进展,但是目前大多数方法并没有充分利用视频数据中丰富的时空线索,这限制了它们的鲁棒性和准确性。
针对空间线索的提取,现有的方法主要采用注意力机制、基于局部特征和多尺度等技术进行特征增强;虽然这些方法取得了不错的效果,但它们的本源仍存在一定局限性,这些方法所提取的特征信息准确性取决于其感受野范围,而常规的方形卷积并不能很好地适应非方形的特征区域。
实现思路