本技术公开了一种基于微调预训练大模型的音视频事件定位方法,包括:1获取视频数据,并将视频画面帧数据和音频数据分离;2通过预训练大模型的编码层分别对帧数据和音频数据进行特征提取;3通过查询提示词聚合单一模态内的特征,提取事件特征;4通过全局提示词提供下游任务的上下文信息,将音频特征和视频帧特征进行融合;5构建事件定位模块,将得到的特征转换为视频事件分类以及定位结果。本发明通过引入可学习的提示词,将预训练大模型的能力迁移到音视频事件定位任务中,从而在极低的可训练参数量条件下完成音视频事件定位任务。
背景技术
听觉和视觉是人类感知真实世界的重要途经,视频内容中包含听觉模态和视觉模态中的重要事件信息。音视频事件定位任务需要同时处理来自音频模态和视觉模态的信息,目的是分类和定位视频中的事件。近年来,音视频事件定位任务作为视频理解方向的一个基础任务,得到了越来越多的关注。
现有的主流音视频事件定位方法采用了基本相同的策略:先利用两个分别在图像数据集和音频数据集的模型作为视频帧图像特征编码器和音频特征编码器,再对编码好的视频帧特征和音频特征进行处理,得到音视频事件定位结果。这样的方法将视频帧和音频独立地编码成特征,尽管这样的处理策略取得了不错的结果,但也存在不可避免的限制。首先,基于在单一模态数据集上预训练的编码器,融合从原始输入中分别提取得到的视觉和音频特征的方法可以被是为一种后期融合。这些方法缺少在特征提取阶段,对两种模态信息之间做早期交互的能力。其次,在单一模态数据集上预训练的编码器不参与到模型的训练过程,导致提取到的特征可能包含与音视频事件定位无关的信息,从而导致次优的性能表现。
基于transformer的大尺度视觉预训练模型,例如Vision Transformer,能够学习到有效的图像特征表示,具体做法是将图像视为一个小图像块序列,将每个小图像块转换为一维的特征,再利用标准的transformer编码器进行处理。近年来,在音视频数据集上训练transformer模型,并将其运用到音视频处理领域下游任务的方法取得了不错的表现。然而,由于transformer模型的大参数量,从头训练一个transformer模型需要大量的计算资源。为了利用预训练transformer模型的能力,同时避免训练完整模型所需的大量计算开销,前人提出了提示微调这一方法。提示微调方法在模型的训练过程中,将预训练模型的参数冻结,即不更新预训练模型的参数,只训练连续的提示向量。具体来说,提示微调在transformer模型的输入端引入可学习的连续向量,称为提示向量,在训练过程中只更新提示向量的参数。现有的方法中主要关注于增强原模型的少样本学习能力,难以运用在音视频事件定位任务中。
实现思路