一种基于多层神经网络的多声音事件检测方法

123技术园

首页 / 技术内容

2025-02-27 21:05

No.1344777418631815168

技术概要

PDF全文

一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本技术提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。

背景技术

声音事件检测(Sound Event Detection,SED)是一种通过在声音信号中准确标记出每个声音事件的起始和偏移时间信息及其类型的任务。音频数据的易采集性和信息丰富性为实时处理和构建听觉场景提供了可能，使得这项技术的应用极为广泛。SED在安全监控、生物监控、设备异常监控、野生动物监测、城市环境声音分析设备和智能家庭监控设备等领域有巨大的潜力。 SED可以分为单声音事件检测和多声音事件检测两种。单声音事件检测一般是指音频信号中只有一种声音事件出现，这种单声音事件检测模型只能检测出音频流中较为明显的声音，而其他声音则被忽略；多声音事件检测是指在音频流的同一时刻可能出现两种以上的声音事件，多声音事件检测模型需要检测每种声音事件的类型及其开始时间和结束时间，从检测结果中可以清楚地观察到声音事件的开始时刻、结束时刻和重叠程度等信息。SED发展迅速，但还是面临着诸多挑战，尤其是在复杂场景下，多声音事件检测性能不太理想。因此，如何进一步提升复杂场景下多声音事件检测性能，将成为多声音事件检测技术的重要挑战。在过去，许多工作已经在SED中完成。用于SED的分类器包括如隐马尔可夫模型(Hidden Markov Model,HMM)、非负矩阵分解(Non-negative Matrix Factorization,NMF)、支持向量机(Support Vector Machine,SVM)、多层感知机(Multi-LayerPerceptron,MLP)和高斯混合模型(Gaussian Mixture Model,GMM)。尽管它们的性能很有前景，但这些分类方法中的大多数都是为单音声音事件检测的任务和和小规模数据集而开发的。近年来，随着训练数据量的增加，用于分类的模型也逐渐变得更加复杂。随着深度学习技术的发展，基于深度学习的模型无需复杂的特征提取方法即可自动从音频中学习高级表示，成为SED的主流。最早，研究者们使用该技术在强标注数据集上进行实验，提出多种解决方法。使用的模型从单一模型：前馈神经网络(Feedforward Neural Network,FNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等发展到混合模型：卷积循环神经网络(Convolution Recurrent Neural Network,CRNN)等，模型的性能也有了很大提升。在应用于实际场景时，SED系统的性能受到数据集标注的限制。强标注数据集需要标记每个声音事件的类型、开始时间和偏移时间，但其获取成本高且数据量有限。相比之下，弱标注数据集只需提供声音事件的类别标签，易于获取和标注，为SED提供了大量的训练数据，缓解了数据不足的问题。针对弱标注数据集构建深度学习模型，提高SED的性能，成为当前研究的一个重要方向。对于弱标记SED，多实例学习(Multi Instance Learning,MIL)是一个流行的框架。在弱标记SED中，音频片段被分成许多帧，每帧被视为一个实例，整个片段被视为一个包。我们只知道包的标签，但不知道每个实例的标签。在这种方法中，神经网络预测每帧中每个声音事件发生的概率。然后，通过池化函数将帧级概率聚合为片段级概率。基于卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)及其组合的方法在弱标记SED任务中表现出最先进的性能。一种带有可学习门控线性单元(Gated Linear Units,GLUs)的CRNN被用于弱标记SED。通过GLUs，网络可以专注于声音事件，忽略无关的声音。双向长短期记忆网络(BLSTM)也被应用于弱标记学习。由于使用弱标记数据，无法进行准确的误差计算来更新BLSTM的参数。作者引入了连接时序分类(CTC)来计算损失。同时，自适应池化操作被证明在弱标记SED任务中比常用的池化操作(如最大池化或平均池化)表现更好。Cakir等人基于CNN网络架构上提出用CRNN的方法在SED任务中取得了先进的结果。CRNN是由CNN和循环神经网络(Rerrent Neural Network,RNN)组成的混合模型，其中CNN能够提取高级特征，且具有平移不变性，但无法获取长时间的上下文信息，而RNN能够学习长时间上下文，但无法捕获频域的不变性。二者相辅相成，CRNN经常被用于完成SED任务。最近，胶囊网络(Capsule Network,CapsNet)也被引入到SED中，以处理重叠事件的检测。Cakir等人则设计了CapsNet和RNN结合的CapsNet-RNN模型，以增强局部和整体的关系。带有注意机制的深度学习模型已广泛应用于许多领域，注意力机制通过提取更相关的高级特征并忽略与事件无关的信息(如背景噪声)，有效地降低了网络的计算复杂度。同时，CapsNet通过其动态路由算法和投票机制，能够解决声音重叠问题。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

兰朝凤杨宇晨谢运祥陈英淇郭锐赵世龙

技术所属：哈尔滨理工大学

相关技术

一种游戏事件提示方法  一种游戏事件提示方法 
 本发明提供了一种游戏事件提示方法，其中方法包括读取UI界面，UI界面包括显示组件；根据显示组件和UI界面构建红点树结构；将红点树结构中的树节点与游戏事件绑定；获取显示模式，若显示模式为提示模式，则对发生事件的树节点关联的界面元素进行红点提示。通过红点树结构组织UI界面中的不同显示组件，可以体现不同显示组件之间的关联关系。由于树节点具有根节点，当树节点发生事件时，该树节点的根节点也发生事件。基于树节点和根节点之间的关联关系，对发生事件的树节点对应的界面元素，以及该树节点的根节点对应的界面元素一起添加提示点，从而提高向游戏界面中的界面元素添加提示点的效率，且防止漏添加提示点。
语音生成方法、装置、设备、存储介质及产品  语音生成方法、装置、设备、存储介质及产品 
 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括:提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。
深度学习辅助的枪声检测与定位方法  深度学习辅助的枪声检测与定位方法 
 本发明涉及一种深度学习辅助的枪声检测与定位方法，属于声音定位技术领域，包括枪声检测阶段和声源到达方向(DOA)估计阶段；在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类，对于属于枪声的声音信号，再进入DOA估计阶段，利用CNN定位枪声的声源到达方向；本发明将接收信号的多声道语谱图作为输入特征，具有灵活、成本低的特点，可以从更长期的角度获取接收到的声音信号的更多信息，也更好地利用基于CNN的深度学习网络，而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
一种基于多层神经网络的多声音事件检测方法  一种基于多层神经网络的多声音事件检测方法 
 一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本发明提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。
一种基于模态自适应学习的多模态课堂情感识别方法及系统  一种基于模态自适应学习的多模态课堂情感识别方法及系统 
 本发明属于但不限于情感识别技术领域，公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统，通过构建多模态数据采集系统，实时采集课堂教学过程中的文本、音频和视频等多模态数据，并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异，提出基于自适应模态评分(AMS)的多模态数据融合方法，并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制，模拟教师对课堂上学生情感状态的多维度感知，增强了情感识别系统的可解释性。该系统通过多模态数据的融合，将来自文本、音频和视频的数据特征进行加权融合，形成完整的情感特征表示。
一种基于BERT预训练语言模型的语音指令识别方法  一种基于BERT预训练语言模型的语音指令识别方法 
 本发明涉及语音识别技术领域，公开了一种基于BERT预训练语言模型的语音指令识别方法，该方法包括:接收待识别语音，并通过自动语音识别模型将待识别语音转化为文本序列；微调BERT预训练语言模型，并利用微调后的BERT预训练语言模型对文本序列进行文本分类，得到待识别语音对应的指令类别；利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩，得到序列分类模型；利用序列分类模型对文本序列进行特征提取，得到待识别语音对应的指令类别标签，本发明考虑到音频数据较文本数据更难获取的情况，选用BERT预训练语言模型，提高分类准确性，利用知识蒸馏进行模型压缩，识别到待识别语音指令类别标签，为人机交互提供数据支撑。
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统  复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 
 本发明涉及水声信号处理技术领域，特别涉及一种复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统，构建包含真实鲸目动物嘀嗒声信号和仿嘀嗒声水声仿生通信信号的训练集，将训练集中每个信号音频样本分为固定帧子信号样本；提取每一帧子信号的七类特征，构建融合特征向量，再将所有子信号的融合特征向量组成融合特征图像；搭建水声仿生通信信号识别模型，并使用训练集进行模型优化；将待识别信号样本分为固定帧子信号样本后，得到融合特征图像，并输入训练好的水声仿生通信信号识别模型中得到识别结果。本发明能够在小样本长度和复杂水声信道环境下实现仿嘀嗒声水声仿生通信信号的精确识别。
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法  基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 
 一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理，再对于每一种类的音频，需要提取其每一帧的MFCC倒谱，将提取的倒谱堆叠后输入TDNN网络，得到每一种类音频的声纹特征。第二部分：先对声纹数据进行归一化处理；再运用有标签的归一化后声纹数据作为特征空间训练分类模型C＆lt;subgt;y＆lt;/subgt;；最后在达到训练精度要求后保存模型参数。第三部分：首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小，依次来作为其贡献度的指标；接下来，使用类激活映射方法，对特定卷积层输出的特征图的梯度进行全局平均池化，并生成热图；最后将两种方法所得结果结合起来，生成细粒度的可解释性结果。
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括:接收车辆转发的当前语音请求，在根据当前语音请求未能确定出与当前语音请求相对应的车辆控制指令的情况下，根据大语言模型、当前语音请求及目标语言风格信息，确定目标引导信息及将目标引导信息反馈以引导用户完成语音交互。如此，本申请的服务器可在未能确定出与语音请求相对应的车辆控制指令的情况下，根据当前语音请求、目标语言风格信息及大语言模型，确定用于引导用户对语音请求进行调整，且与目标语言风格匹配的目标引导信息，及通过目标引导信息引导用户对语音请求进行调整以完成语音交互，使得用户对于车辆语音交互功能及车辆的使用体验能得到保障。
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
本发明的实施例提供了一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质，方法包括:获取语音识别模型中的正确文本和错误文本；对正确文本进行分词，得到多个正确词汇，将错误文本进行分词得到多个错误词汇；针对每个错误词汇，确定语音识别模型将正确词汇替换为该错误词汇的第一次数以及该错误词汇在错误文本中出现的第二次数；确定错误词汇对应的错误文本的成句的第一概率和正确词汇对应的正确文本的成句的第二概率；确定正确词汇替换为错误词汇的概率；在正确词汇替换为错误词汇的概率大于预设概率阈值时，将错误词汇添加至语音识别模型的语料中。无需进行人工对语料进行识别并扩充，节约成本。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工