大语言模型驱动的视频语义检索技术与系统
2025-02-11 16:30
No.1338910003968614400
技术概要
PDF全文
本技术属于文本视频检索技术领域,特别是一种利用大语言模型进行语义驱动的视频检索技术与系统。该技术包括步骤:获取查询文本和候选视频集合;构建文本视频检索模型;将候选视频集合输入模型进行语义匹配,以实现高效准确的视频检索。
背景技术
随着互联网的普及和数字媒体技术的发展,视频已成为信息传播的重要载体,视频内容的数量呈爆炸式增长,如何满足高效信息检索的需求成为了一个亟待解决的问题。文本视频检索(Text to Video Retrieval)是一种结合了自然语言处理和计算机视觉的跨模态匹配任务,目的是在大规模视频数据集中根据文本查询快速定位、检索相关视频片段。 受益于预训练图片-文本模型(Contrastive Language Image Pre-training,CLIP)在图片检索任务上的优异表现,一些技术将CLIP迁移到视频检索任务上并取得了良好的检索结果。作为代表性的技术,CLIP4Clip模型将CLIP的图片编码器和文本编码器迁移到视频检索任务上,实现了端到端的视频检索。首先,该技术通过对视频帧进行均匀取样并输入到图片编码器中提取帧级特征,使用文本编码器编码文本描述,获得文本特征;然后使用包含若干层Transformer模块的网络结构对帧级特征进行时序建模并进行平均池化获得视频特征;最后,计算视频特征与文本特征的余弦相似度进行跨模态匹配,使用对比学习损失训练模型。后续许多优秀的技术,例如Cap4Video、HBI和DRL等也在此基础上进行改进,例如辅助信息增强、辅助信号监督和细粒度交互等。 但是,现有的文本视频检索技术中的跨模态匹配过程是“tokens to tokens”形式的,即将文本分割成单词、子词或字符等文本词元,将视频分割成视频帧或视频块作为视频词,再对文本词元和视频词元分别进行特征提取,将它们转换为固定维度的特征向量进行关联和对齐,例如视频帧级特征与文本词级特征对齐、视频补丁级特征与文本词级特征对齐以及视频级特征与文本全局特征对齐。无论哪一种对齐方式,都是对模态间的语义相关性进行度量,而忽略了跨模态的语义推理过程,使得文本视频检索缺少可解释性,难以完成一些需要深度理解多模态语义信息的复杂检索任务,从而限制了文本视频检索的准确性。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张东霖  王治文  饶铮  吴小俊
技术所属: 江南大学
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利