本技术属于文本视频检索技术领域,特别是一种利用大语言模型进行语义驱动的视频检索技术与系统。该技术包括步骤:获取查询文本和候选视频集合;构建文本视频检索模型;将候选视频集合输入模型进行语义匹配,以实现高效准确的视频检索。
背景技术
随着互联网的普及和数字媒体技术的发展,视频已成为信息传播的重要载体,视频内容的数量呈爆炸式增长,如何满足高效信息检索的需求成为了一个亟待解决的问题。文本视频检索(Text to Video Retrieval)是一种结合了自然语言处理和计算机视觉的跨模态匹配任务,目的是在大规模视频数据集中根据文本查询快速定位、检索相关视频片段。
受益于预训练图片-文本模型(Contrastive Language Image Pre-training,CLIP)在图片检索任务上的优异表现,一些技术将CLIP迁移到视频检索任务上并取得了良好的检索结果。作为代表性的技术,CLIP4Clip模型将CLIP的图片编码器和文本编码器迁移到视频检索任务上,实现了端到端的视频检索。首先,该技术通过对视频帧进行均匀取样并输入到图片编码器中提取帧级特征,使用文本编码器编码文本描述,获得文本特征;然后使用包含若干层Transformer模块的网络结构对帧级特征进行时序建模并进行平均池化获得视频特征;最后,计算视频特征与文本特征的余弦相似度进行跨模态匹配,使用对比学习损失训练模型。后续许多优秀的技术,例如Cap4Video、HBI和DRL等也在此基础上进行改进,例如辅助信息增强、辅助信号监督和细粒度交互等。
但是,现有的文本视频检索技术中的跨模态匹配过程是“tokens to tokens”形式的,即将文本分割成单词、子词或字符等文本词元,将视频分割成视频帧或视频块作为视频词,再对文本词元和视频词元分别进行特征提取,将它们转换为固定维度的特征向量进行关联和对齐,例如视频帧级特征与文本词级特征对齐、视频补丁级特征与文本词级特征对齐以及视频级特征与文本全局特征对齐。无论哪一种对齐方式,都是对模态间的语义相关性进行度量,而忽略了跨模态的语义推理过程,使得文本视频检索缺少可解释性,难以完成一些需要深度理解多模态语义信息的复杂检索任务,从而限制了文本视频检索的准确性。
实现思路