一种基于多层神经网络的多声音事件检测方法
2025-02-27 21:05
No.1344777418631815168
技术概要
PDF全文
一种基于多层神经网络的多声音事件检测方法,涉及声音事件检测领域。本技术提出基于融合经验模态分解算法、胶囊网络,注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中,首先使用AMM‑EMD算法进行预处理,丰富声音事件特征信息,并引入并行卷积结构提取高级特征信息;再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力,对高级特征进一步处理;同时,利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验,利用F1和ER评价声音事件检测效果,本发明提出的模型均比其他基线模型有所改善,F1和ER均有提高。
背景技术
声音事件检测(Sound Event Detection,SED)是一种通过在声音信号中准确标记出每个声音事件的起始和偏移时间信息及其类型的任务。音频数据的易采集性和信息丰富性为实时处理和构建听觉场景提供了可能,使得这项技术的应用极为广泛。SED在安全监控、生物监控、设备异常监控、野生动物监测、城市环境声音分析设备和智能家庭监控设备等领域有巨大的潜力。 SED可以分为单声音事件检测和多声音事件检测两种。单声音事件检测一般是指音频信号中只有一种声音事件出现,这种单声音事件检测模型只能检测出音频流中较为明显的声音,而其他声音则被忽略;多声音事件检测是指在音频流的同一时刻可能出现两种以上的声音事件,多声音事件检测模型需要检测每种声音事件的类型及其开始时间和结束时间,从检测结果中可以清楚地观察到声音事件的开始时刻、结束时刻和重叠程度等信息。SED发展迅速,但还是面临着诸多挑战,尤其是在复杂场景下,多声音事件检测性能不太理想。因此,如何进一步提升复杂场景下多声音事件检测性能,将成为多声音事件检测技术的重要挑战。 在过去,许多工作已经在SED中完成。用于SED的分类器包括如隐马尔可夫模型(Hidden Markov Model,HMM)、非负矩阵分解(Non-negative Matrix Factorization,NMF)、支持向量机(Support Vector Machine,SVM)、多层感知机(Multi-LayerPerceptron,MLP)和高斯混合模型(Gaussian Mixture Model,GMM)。尽管它们的性能很有前景,但这些分类方法中的大多数都是为单音声音事件检测的任务和和小规模数据集而开发的。 近年来,随着训练数据量的增加,用于分类的模型也逐渐变得更加复杂。随着深度学习技术的发展,基于深度学习的模型无需复杂的特征提取方法即可自动从音频中学习高级表示,成为SED的主流。最早,研究者们使用该技术在强标注数据集上进行实验,提出多种解决方法。使用的模型从单一模型:前馈神经网络(Feedforward Neural Network,FNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等发展到混合模型:卷积循环神经网络(Convolution Recurrent Neural Network,CRNN)等,模型的性能也有了很大提升。 在应用于实际场景时,SED系统的性能受到数据集标注的限制。强标注数据集需要标记每个声音事件的类型、开始时间和偏移时间,但其获取成本高且数据量有限。相比之下,弱标注数据集只需提供声音事件的类别标签,易于获取和标注,为SED提供了大量的训练数据,缓解了数据不足的问题。针对弱标注数据集构建深度学习模型,提高SED的性能,成为当前研究的一个重要方向。 对于弱标记SED,多实例学习(Multi Instance Learning,MIL)是一个流行的框架。在弱标记SED中,音频片段被分成许多帧,每帧被视为一个实例,整个片段被视为一个包。我们只知道包的标签,但不知道每个实例的标签。在这种方法中,神经网络预测每帧中每个声音事件发生的概率。然后,通过池化函数将帧级概率聚合为片段级概率。基于卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)及其组合的方法在弱标记SED任务中表现出最先进的性能。一种带有可学习门控线性单元(Gated Linear Units,GLUs)的CRNN被用于弱标记SED。通过GLUs,网络可以专注于声音事件,忽略无关的声音。双向长短期记忆网络(BLSTM)也被应用于弱标记学习。由于使用弱标记数据,无法进行准确的误差计算来更新BLSTM的参数。作者引入了连接时序分类(CTC)来计算损失。同时,自适应池化操作被证明在弱标记SED任务中比常用的池化操作(如最大池化或平均池化)表现更好。Cakir等人基于CNN网络架构上提出用CRNN的方法在SED任务中取得了先进的结果。CRNN是由CNN和循环神经网络(Rerrent Neural Network,RNN)组成的混合模型,其中CNN能够提取高级特征,且具有平移不变性,但无法获取长时间的上下文信息,而RNN能够学习长时间上下文,但无法捕获频域的不变性。二者相辅相成,CRNN经常被用于完成SED任务。 最近,胶囊网络(Capsule Network,CapsNet)也被引入到SED中,以处理重叠事件的检测。Cakir等人则设计了CapsNet和RNN结合的CapsNet-RNN模型,以增强局部和整体的关系。带有注意机制的深度学习模型已广泛应用于许多领域,注意力机制通过提取更相关的高级特征并忽略与事件无关的信息(如背景噪声),有效地降低了网络的计算复杂度。同时,CapsNet通过其动态路由算法和投票机制,能够解决声音重叠问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
兰朝凤  杨宇晨  谢运祥  陈英淇  郭锐  赵世龙
技术所属: 哈尔滨理工大学
相关技术
一种游戏事件提示方法 一种游戏事件提示方法
语音生成方法、装置、设备、存储介质及产品 语音生成方法、装置、设备、存储介质及产品
深度学习辅助的枪声检测与定位方法 深度学习辅助的枪声检测与定位方法
一种基于多层神经网络的多声音事件检测方法 一种基于多层神经网络的多声音事件检测方法
一种基于模态自适应学习的多模态课堂情感识别方法及系统 一种基于模态自适应学习的多模态课堂情感识别方法及系统
一种基于BERT预训练语言模型的语音指令识别方法 一种基于BERT预训练语言模型的语音指令识别方法
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 基于梯度类激活映射的水下目标噪声源分类模型可解释性方法
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利