一种基于多层神经网络的多声音事件检测方法,涉及声音事件检测领域。本技术提出基于融合经验模态分解算法、胶囊网络,注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中,首先使用AMM‑EMD算法进行预处理,丰富声音事件特征信息,并引入并行卷积结构提取高级特征信息;再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力,对高级特征进一步处理;同时,利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验,利用F1和ER评价声音事件检测效果,本发明提出的模型均比其他基线模型有所改善,F1和ER均有提高。
背景技术
声音事件检测(Sound Event Detection,SED)是一种通过在声音信号中准确标记出每个声音事件的起始和偏移时间信息及其类型的任务。音频数据的易采集性和信息丰富性为实时处理和构建听觉场景提供了可能,使得这项技术的应用极为广泛。SED在安全监控、生物监控、设备异常监控、野生动物监测、城市环境声音分析设备和智能家庭监控设备等领域有巨大的潜力。
SED可以分为单声音事件检测和多声音事件检测两种。单声音事件检测一般是指音频信号中只有一种声音事件出现,这种单声音事件检测模型只能检测出音频流中较为明显的声音,而其他声音则被忽略;多声音事件检测是指在音频流的同一时刻可能出现两种以上的声音事件,多声音事件检测模型需要检测每种声音事件的类型及其开始时间和结束时间,从检测结果中可以清楚地观察到声音事件的开始时刻、结束时刻和重叠程度等信息。SED发展迅速,但还是面临着诸多挑战,尤其是在复杂场景下,多声音事件检测性能不太理想。因此,如何进一步提升复杂场景下多声音事件检测性能,将成为多声音事件检测技术的重要挑战。
在过去,许多工作已经在SED中完成。用于SED的分类器包括如隐马尔可夫模型(Hidden Markov Model,HMM)、非负矩阵分解(Non-negative Matrix Factorization,NMF)、支持向量机(Support Vector Machine,SVM)、多层感知机(Multi-LayerPerceptron,MLP)和高斯混合模型(Gaussian Mixture Model,GMM)。尽管它们的性能很有前景,但这些分类方法中的大多数都是为单音声音事件检测的任务和和小规模数据集而开发的。
近年来,随着训练数据量的增加,用于分类的模型也逐渐变得更加复杂。随着深度学习技术的发展,基于深度学习的模型无需复杂的特征提取方法即可自动从音频中学习高级表示,成为SED的主流。最早,研究者们使用该技术在强标注数据集上进行实验,提出多种解决方法。使用的模型从单一模型:前馈神经网络(Feedforward Neural Network,FNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等发展到混合模型:卷积循环神经网络(Convolution Recurrent Neural Network,CRNN)等,模型的性能也有了很大提升。
在应用于实际场景时,SED系统的性能受到数据集标注的限制。强标注数据集需要标记每个声音事件的类型、开始时间和偏移时间,但其获取成本高且数据量有限。相比之下,弱标注数据集只需提供声音事件的类别标签,易于获取和标注,为SED提供了大量的训练数据,缓解了数据不足的问题。针对弱标注数据集构建深度学习模型,提高SED的性能,成为当前研究的一个重要方向。
对于弱标记SED,多实例学习(Multi Instance Learning,MIL)是一个流行的框架。在弱标记SED中,音频片段被分成许多帧,每帧被视为一个实例,整个片段被视为一个包。我们只知道包的标签,但不知道每个实例的标签。在这种方法中,神经网络预测每帧中每个声音事件发生的概率。然后,通过池化函数将帧级概率聚合为片段级概率。基于卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)及其组合的方法在弱标记SED任务中表现出最先进的性能。一种带有可学习门控线性单元(Gated Linear Units,GLUs)的CRNN被用于弱标记SED。通过GLUs,网络可以专注于声音事件,忽略无关的声音。双向长短期记忆网络(BLSTM)也被应用于弱标记学习。由于使用弱标记数据,无法进行准确的误差计算来更新BLSTM的参数。作者引入了连接时序分类(CTC)来计算损失。同时,自适应池化操作被证明在弱标记SED任务中比常用的池化操作(如最大池化或平均池化)表现更好。Cakir等人基于CNN网络架构上提出用CRNN的方法在SED任务中取得了先进的结果。CRNN是由CNN和循环神经网络(Rerrent Neural Network,RNN)组成的混合模型,其中CNN能够提取高级特征,且具有平移不变性,但无法获取长时间的上下文信息,而RNN能够学习长时间上下文,但无法捕获频域的不变性。二者相辅相成,CRNN经常被用于完成SED任务。
最近,胶囊网络(Capsule Network,CapsNet)也被引入到SED中,以处理重叠事件的检测。Cakir等人则设计了CapsNet和RNN结合的CapsNet-RNN模型,以增强局部和整体的关系。带有注意机制的深度学习模型已广泛应用于许多领域,注意力机制通过提取更相关的高级特征并忽略与事件无关的信息(如背景噪声),有效地降低了网络的计算复杂度。同时,CapsNet通过其动态路由算法和投票机制,能够解决声音重叠问题。
实现思路