本技术介绍了一种创新的跨模态行人搜索方法,该方法依托于大规模预训练模型,融合了计算机视觉、自然语言处理和机器学习技术。该方法首先对特定的跨模态行人搜索数据集进行比例划分,进而实现高效的行人识别和检索。
背景技术
随着视频监控市场规模的持续扩张,以及深度学习技术的不断发展,视频监控也逐渐智能化。面向监控场景下的行人搜索在智慧安防、智慧城市等诸多场景中起着重要的作用。行人搜索是在给定某个行人的相关信息的条件下,从多个非重叠摄像头对指定行人进行搜索。现有的行人搜索方法需要给定一张行人的图像,但在无法获取目标行人的图像的条件下,只有目击证人或知情者的语言描述时,此类方法便无法使用。
基于属性的跨模态行人搜索则可以通过行人的属性(如年龄、性别、穿着等)实现对指定行人图像的快速搜索,在智能安防领域有着巨大的应用潜力。具体而言,该搜索方式为输入查询的属性,将其向量化后,与图像数据库中的图像向量计算跨模态的相似度并排序,实现对图像的搜索。由于跨模态行人搜索是通过深度学习技术实现的,极大的解决了通过人工搜索的繁重劳动,有效的提高了海量监控视频的智能处理能力。同时,该搜索方式拓宽了查询输入的模态限制,解决了行人检索中只能采用图像输入的局限性,满足用户多样化的应用需求。
现有的关于跨模态行人搜索的研究主要分为两类。第一类方法将行人图像通过属性识别,得到图像对应的属性,并将其保存在数据库中。在应用时,通过比较给定查询输入的属性和数据库中属性的相似度,实现对图像的搜索。然而此类方法受限于较低的属性识别准确率,导致搜索时的准确率也较低。第二类方法将属性和图像分别通过特征提取表示为单一的特征向量,并在公共的嵌入空间中对齐。在应用时,直接计算属性和图像向量之间的余弦相似度,实现对图像的搜索。然而此类方法仅采用了单模态预训练的先验知识,缺乏多模态的对应信息,由于属性和图像模态存在语义鸿沟,限制了此类方法的性能。
实现思路