一种基于微调预训练大模型的音视频事件定位方法

123技术园

首页 / 技术内容

2025-02-24 18:34

No.1343652359280271360

技术概要

PDF全文

本技术公开了一种基于微调预训练大模型的音视频事件定位方法，包括:1获取视频数据，并将视频画面帧数据和音频数据分离；2通过预训练大模型的编码层分别对帧数据和音频数据进行特征提取；3通过查询提示词聚合单一模态内的特征，提取事件特征；4通过全局提示词提供下游任务的上下文信息，将音频特征和视频帧特征进行融合；5构建事件定位模块，将得到的特征转换为视频事件分类以及定位结果。本发明通过引入可学习的提示词，将预训练大模型的能力迁移到音视频事件定位任务中，从而在极低的可训练参数量条件下完成音视频事件定位任务。

背景技术

听觉和视觉是人类感知真实世界的重要途经，视频内容中包含听觉模态和视觉模态中的重要事件信息。音视频事件定位任务需要同时处理来自音频模态和视觉模态的信息，目的是分类和定位视频中的事件。近年来，音视频事件定位任务作为视频理解方向的一个基础任务，得到了越来越多的关注。现有的主流音视频事件定位方法采用了基本相同的策略：先利用两个分别在图像数据集和音频数据集的模型作为视频帧图像特征编码器和音频特征编码器，再对编码好的视频帧特征和音频特征进行处理，得到音视频事件定位结果。这样的方法将视频帧和音频独立地编码成特征，尽管这样的处理策略取得了不错的结果，但也存在不可避免的限制。首先，基于在单一模态数据集上预训练的编码器，融合从原始输入中分别提取得到的视觉和音频特征的方法可以被是为一种后期融合。这些方法缺少在特征提取阶段，对两种模态信息之间做早期交互的能力。其次，在单一模态数据集上预训练的编码器不参与到模型的训练过程，导致提取到的特征可能包含与音视频事件定位无关的信息，从而导致次优的性能表现。基于transformer的大尺度视觉预训练模型，例如Vision Transformer，能够学习到有效的图像特征表示，具体做法是将图像视为一个小图像块序列，将每个小图像块转换为一维的特征，再利用标准的transformer编码器进行处理。近年来，在音视频数据集上训练transformer模型，并将其运用到音视频处理领域下游任务的方法取得了不错的表现。然而，由于transformer模型的大参数量，从头训练一个transformer模型需要大量的计算资源。为了利用预训练transformer模型的能力，同时避免训练完整模型所需的大量计算开销，前人提出了提示微调这一方法。提示微调方法在模型的训练过程中，将预训练模型的参数冻结，即不更新预训练模型的参数，只训练连续的提示向量。具体来说，提示微调在transformer模型的输入端引入可学习的连续向量，称为提示向量，在训练过程中只更新提示向量的参数。现有的方法中主要关注于增强原模型的少样本学习能力，难以运用在音视频事件定位任务中。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

查正军傅雪阳黄隆焯

技术所属：中国科学技术大学

相关技术

基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品  基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品 
 本发明公开了一种基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品。所述方法包括:响应于流程模拟事件被触发，获取流程模拟自定义脚本；其中，所述流程模拟自定义脚本为用户在所述流程模拟软件的自定义模块中编写的流程模拟脚本；判断所述流程模拟软件中是否存储有与所述流程模拟自定义脚本对应的CPU控制指令；若所述流程模拟软件中存储有与所述流程模拟自定义脚本对应的CPU控制指令，则调用所述CPU控制指令，生成流程模拟结果。本方案在基于流程模拟软件进行流程模拟时，可有效提升代码的执行性能，快速获取流程模拟结果。
气动进给清灰装备控制方法及系统  气动进给清灰装备控制方法及系统 
 本发明涉及数据处理技术领域，本发明涉及气动进给清灰装备控制方法，包括:首先，通过获取气动进给清灰装备中多个锯齿在不同时刻下的扭矩数据，并将同一时刻下多个锯齿的扭矩数据组合为一个扭矩序列，从而形成第一扭矩序列组；接着，计算当前扭矩序列与下一扭矩序列之间的关联度，利用皮尔逊相关系数及扭矩的最大最小值的乘积进行分析；若关联度低于设定关联度阈值，则剔除对应的扭矩序列，获得第二扭矩序列组；然后，针对第二扭矩序列组计算异常值，当异常值超过异常阈值时，系统将自动触发最大气动功率进行清灰。本发明解决了面对复杂操作环境下清灰效果不佳的问题。
一种基于自学习的数据挖掘方法及系统  一种基于自学习的数据挖掘方法及系统 
 本发明公开了一种基于自学习的数据挖掘方法及系统，收集不同生鲜产品在各个新鲜度阶段的时间序列图像数据，从中提取出静态特征和动态特征，通过分析这些特征，定义标签，该标签将静态特征与动态特征关联起来，以形成一个综合性的描述；根据动态特征的变化规律，将具有相似变化模式的产品归入同一相似组；在此基础上，利用这些标签和相似组数据训练自学习挖掘模型，专注于提升对相似组产品的识别能力；将挖掘结果反馈至系统的动态时空图中，实现对图中节点属性的更新，从而持续优化识别算法。本发明不仅能够有效克服动态特征变化带来的识别难题，还能通过静态特征提供稳定的识别基准，进而显著提升生鲜产品在不同新鲜度下识别的准确性和可靠性。
一种基于商密SM9的前向安全标识签名方法  一种基于商密SM9的前向安全标识签名方法 
 本发明公开了一种基于商密SM9的前向安全标识签名方法，包括密钥生成中心、签名者、验证者。密钥生成中心跟签名者、验证者之间是完全信任的。其中密钥生成中心初始化系统参数，并根据用户标识ID为签名者颁发初始密钥。签名者向密钥生成中心发出密钥更新请求，从而获得更新后的密钥。签名者输入系统主公钥、消息以及t时段下的密钥执行签名算法生成消息签名，并将消息、签名以及自身的用户标识ID发送给验证者。验证者输入系统主公钥以及接收到的参数执行签名验证算法，验证成功则输出1，验证失败则输出0。本发明通过引入密钥更新机制，即使在私钥泄露的情况下，也能确保过去生成的签名不被伪造的签名机制。
面向深度强化学习的电网运行环境推演方法  面向深度强化学习的电网运行环境推演方法 
 本发明提供一种面向深度强化学习的电网运行环境推演方法，涉及数据处理技术领域，基于电网中设备的属性对电网运行环境进行分类得到发电侧设备、储电侧设备以及用电侧设备；根据各设备的历史电力数据进行深度学习训练，分别得到发电子神经网络、储电子神经网络以及用电子神经网络；根据发电侧设备、储电侧设备以及用电侧设备的数据关联关系对发电子神经网络、储电子神经网络以及用电子神经网络组装，得到总神经推演网络；获取推演目标所对应的变量推演参数输入至总神经推演网络得到预测推演结果；将预测推演结果与实际发生结果比对得到多维度训练数据，基于多维度训练数据对总神经推演网络中神经元的权重以及激励函数训练更新处理。
一种基于知识图谱的多模态习题表征方法  一种基于知识图谱的多模态习题表征方法 
 本发明公开了一种基于知识图谱的多模态习题表征方法，涉及多模态表征技术领域，包括:获取多模态信息的数学习题信息以及相关知识点，提取多模态习题涉及的所有元素；提取多模态习题的图像和文本特征；基于表层理解规则，明确习题文本和图片中各元素之间的空间关系，并构建表示表层信息的知识图谱；基于隐层理解的规则，将习题涉及的相关定理和公式转化为形式化语言，并构建表示隐层信息的知识图谱；将表示表层信息和表示隐层信息的知识图谱融合为表示完整的习题信息的知识图谱；基于表示不同习题信息的知识图谱节点和边，计算习题之间的相似度和困难度及文本知识图谱和图像知识图谱的匹配度；基于自动解题模型，获得习题的深度表征。
一种非结构化文本类信息融合方法及装置  一种非结构化文本类信息融合方法及装置 
 本申请公开了一种非结构化文本类信息融合方法及装置，方法包括首先对不同格式的文本信息中的各种信息标签进行提取，提取出对应的键值对标签；根据标签对文本信息进行信息提取，并将提取出来的信息存表落库；将根据信息不同划分为多个不同的数据流，然后进行标准化、进行修复和规则转换，重新融合到标准数据流中；从每个数据源中提取主键ID信息，并根据主键ID信息建立每个数据源之间的关联性。最后建立每个信息源的主键关联性，同时设置不同数据源的信息使用优先级，将多个数据源形成为统一整体。可以高效的完成对多个存在较大的关联性的文本数据源的融合，融合后生成一个标准化好的新数据源。
基于生成对抗网络数据解耦的数据平衡去毒方法  基于生成对抗网络数据解耦的数据平衡去毒方法 
 本发明涉及机器学习领域，具体为基于生成对抗网络数据解耦的数据平衡去毒方法，对数据集进行降维映射和聚类分析，得到若干数据聚类；对每个数据聚类加入对抗扰动，生成对抗数据聚类；对每个对抗数据聚类进行转移率计算和中毒样本去除，得到去毒数据聚类，并将所有去毒数据聚类组合为去毒数据集；对去毒数据集进行数据解耦和平衡处理，得到平衡数据集；基于平衡数据集，对待去毒模型进行微调训练，从而得到去毒模型。本发明能够减少训练数据的中毒样本，避免模型训练过程中学习拟合后门触发器的特征，提高模型后门攻击防御效果的稳定性和模型在实际应用中的可靠性。
一种地脚螺栓防松设计方法及系统  一种地脚螺栓防松设计方法及系统 
 本发明涉及多目标优化控制技术领域，公开了一种地脚螺栓防松设计方法及系统，包括提取地脚螺栓的基础尺寸参数，基于基础尺寸参数构建螺栓初始实体模型；提取地脚螺栓的精细几何参数，生成带有精细螺纹特征的完整螺栓实体模型；对螺栓实体模型划分有限元网格，生成有限元模型；构建防松性能目标函数和重量目标函数，建立多目标优化模型，并求解得到最优解；收集常用金属的物理力学性能数据，搜索最优材料组合，生成地脚螺栓的优化模型；通过优化迭代循环，直至多目标优化模型的函数值达到收敛条件，输出最终的防松地脚螺栓设计方案。本发明提供了一种高效、精确的地脚螺栓防松方案，实现了防松性能和重量的优化平衡。
一种弹性组合定步长仿真方法及系统  一种弹性组合定步长仿真方法及系统 
 本申请提供了一种弹性组合定步长仿真方法及系统，涉及工业互联网数值仿真计算领域，方法包括:获取信息物理系统模型；将信息物理系统模型编译成标准状态方程形式的数学模型；设置定步长仿真算法；设置基础仿真步长；设置仿真采用的定步长模式；定步长模式包括：分时段自定义步长模式和自适应步长模式；通过设置的定步长仿真算法、基础仿真步长以及定步长模式，生成仿真配置文件；通过仿真配置文件、结合数学模型，执行单步积分，完成仿真。本申请的技术方案可支持，分时段跨区间自定义步长离线仿真，同时支持基于事件触发的自适应定步长在线仿真。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工