跨模态行人搜索:利用大规模预训练模型的创新方法
2025-02-13 08:14
No.1339510023675715584
技术概要
PDF全文
本技术介绍了一种创新的跨模态行人搜索方法,该方法依托于大规模预训练模型,融合了计算机视觉、自然语言处理和机器学习技术。该方法首先对特定的跨模态行人搜索数据集进行比例划分,进而实现高效的行人识别和检索。
背景技术
随着视频监控市场规模的持续扩张,以及深度学习技术的不断发展,视频监控也逐渐智能化。面向监控场景下的行人搜索在智慧安防、智慧城市等诸多场景中起着重要的作用。行人搜索是在给定某个行人的相关信息的条件下,从多个非重叠摄像头对指定行人进行搜索。现有的行人搜索方法需要给定一张行人的图像,但在无法获取目标行人的图像的条件下,只有目击证人或知情者的语言描述时,此类方法便无法使用。 基于属性的跨模态行人搜索则可以通过行人的属性(如年龄、性别、穿着等)实现对指定行人图像的快速搜索,在智能安防领域有着巨大的应用潜力。具体而言,该搜索方式为输入查询的属性,将其向量化后,与图像数据库中的图像向量计算跨模态的相似度并排序,实现对图像的搜索。由于跨模态行人搜索是通过深度学习技术实现的,极大的解决了通过人工搜索的繁重劳动,有效的提高了海量监控视频的智能处理能力。同时,该搜索方式拓宽了查询输入的模态限制,解决了行人检索中只能采用图像输入的局限性,满足用户多样化的应用需求。 现有的关于跨模态行人搜索的研究主要分为两类。第一类方法将行人图像通过属性识别,得到图像对应的属性,并将其保存在数据库中。在应用时,通过比较给定查询输入的属性和数据库中属性的相似度,实现对图像的搜索。然而此类方法受限于较低的属性识别准确率,导致搜索时的准确率也较低。第二类方法将属性和图像分别通过特征提取表示为单一的特征向量,并在公共的嵌入空间中对齐。在应用时,直接计算属性和图像向量之间的余弦相似度,实现对图像的搜索。然而此类方法仅采用了单模态预训练的先验知识,缺乏多模态的对应信息,由于属性和图像模态存在语义鸿沟,限制了此类方法的性能。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
郭彩丽  王鑫  杨洋  王彦君
技术所属: 北京邮电大学
相关技术
一种自定义区域的地形晕渲图实时渲染方法及系统 一种自定义区域的地形晕渲图实时渲染方法及系统
基于软件定义网络的流量探测系统及方法 基于软件定义网络的流量探测系统及方法
车辆模型渲染方法、装置、存储介质及电子设备 车辆模型渲染方法、装置、存储介质及电子设备
一种显示面板的检测方法及检测系统 一种显示面板的检测方法及检测系统
一种基于点云信息的螺柱检测方法 一种基于点云信息的螺柱检测方法
基于深度学习网络的多IMU动作捕捉方法、系统及介质 基于深度学习网络的多IMU动作捕捉方法、系统及介质
一种加工轨迹形变补偿方法及系统 一种加工轨迹形变补偿方法及系统
基于遥感技术的森林积蓄量监测分析方法及系统 基于遥感技术的森林积蓄量监测分析方法及系统
油罐布局信息生成方法、装置、电子设备、介质 油罐布局信息生成方法、装置、电子设备、介质
一种基于动态列车同步采样的图像校准系统 一种基于动态列车同步采样的图像校准系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利