音频强化方法及相关设备

123技术园

首页 / 技术内容

音频强化方法及相关设备

2025-02-24 20:06

No.1343675374747525120

技术概要

PDF全文

本申请适用于音频处理技术领域，提供了一种音频强化方法及相关设备，所述方法包括:根据预设音频数据集构建训练集和测试集；通过所述训练集和测试集，对基于WavLM‑large模型和WWF模型构建的预设语音增强模型进行训练，得到目标语音增强模型；将待测音频数据集输入所述目标语音增强模型，得到强化音频数据集。解决了音频检测领域在数据量小且缺少成对干净语音场景下的降噪问题，消除了待测音频数据集的噪声及“Clever Hans”效应，避免了去噪导致的待测音频数据集中有效特征丢失问题。

背景技术

阿尔茨海默病(AD)已成为一个普遍的健康问题，主要表现为认知功能的进行性下降，严重影响患者的日常生活。目前，现有药物治疗尚无法根治阿尔茨海默病，这突显了早期诊断和干预的重要性。然而，现行的临床检查方法往往昂贵且耗时，给患者及其家庭带来了巨大的社会和经济负担。研究表明，语言功能障碍(如言语不流畅和语速缓慢)可作为阿尔茨海默病早期阶段的潜在症状。Bertini等人提出了一种基于语音的辅助阿尔茨海默检测系统，并且得到了优秀的准确率结果。然而，在实际应用场景下，室内广泛存在的环境噪声无疑会对语音的平稳性及其他质量产生影响，进而影响语音特征提取的准确性，最终会影响基于语音进行的阿尔茨海默病相关研究结果的准确性。比如，阿尔茨海默病检测领域使用最广泛的公开数据集Pitt语料库被最近Liu提出的研究证明其存在的背景噪声对阿尔茨海默病检测结果产生显著影响，产生了所谓的“Clever Hans”效应，影响了现有基于Pitt语料库训练得到的阿尔茨海默病检测系统结果的准确性。因此，对阿尔茨海默检测领域中从不同音频采集环境下收集到的语音进行语音增强，是提高阿尔茨海默病检测系统性能的关键之一。语音增强的目的是从带噪声的语音中提取出纯净的语音，同时保证语音的质量和可懂度。近年来，语音增强领域普遍采用基于监督学习的方法，这需要大量的干净语音与嘈杂语音配对数据。Ronneberger提出的UNet模型作为一种传统的有监督语音增强方法，其独特的U型架构和跳跃连接能够有效保留语音信号的高频部分和非线性特性，从而实现卓越的语音增强效果。在后续的研究中，Defossez等人提出利用瓶颈层中的长短期记忆(LSTM)网络来模拟时间信息。同时，Kong等人将自注意力机制引入UNet的瓶颈层，并将该模型命名为CleanUNet，该模型在常用的语音增强数据集上取得了先进的结果。然而，现有的语音增强技术未能充分满足阿尔茨海默病检测领域的降噪需求，主要面临以下问题：首先，阿尔茨海默病检测领域的数据量小且缺少成对干净语音限制了现有语音增强模型的训练能力；其次，Python中现成的语音增强技术库可能会删除用于检测阿尔茨海默病相关的信息，从而影响后续诊断的准确性。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

潘怡霖张娅婷鲁明羽

技术所属：大连海事大学

相关技术

一种游戏事件提示方法  一种游戏事件提示方法 
 本发明提供了一种游戏事件提示方法，其中方法包括读取UI界面，UI界面包括显示组件；根据显示组件和UI界面构建红点树结构；将红点树结构中的树节点与游戏事件绑定；获取显示模式，若显示模式为提示模式，则对发生事件的树节点关联的界面元素进行红点提示。通过红点树结构组织UI界面中的不同显示组件，可以体现不同显示组件之间的关联关系。由于树节点具有根节点，当树节点发生事件时，该树节点的根节点也发生事件。基于树节点和根节点之间的关联关系，对发生事件的树节点对应的界面元素，以及该树节点的根节点对应的界面元素一起添加提示点，从而提高向游戏界面中的界面元素添加提示点的效率，且防止漏添加提示点。
语音生成方法、装置、设备、存储介质及产品  语音生成方法、装置、设备、存储介质及产品 
 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括:提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。
深度学习辅助的枪声检测与定位方法  深度学习辅助的枪声检测与定位方法 
 本发明涉及一种深度学习辅助的枪声检测与定位方法，属于声音定位技术领域，包括枪声检测阶段和声源到达方向(DOA)估计阶段；在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类，对于属于枪声的声音信号，再进入DOA估计阶段，利用CNN定位枪声的声源到达方向；本发明将接收信号的多声道语谱图作为输入特征，具有灵活、成本低的特点，可以从更长期的角度获取接收到的声音信号的更多信息，也更好地利用基于CNN的深度学习网络，而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
一种基于多层神经网络的多声音事件检测方法  一种基于多层神经网络的多声音事件检测方法 
 一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本发明提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。
一种基于模态自适应学习的多模态课堂情感识别方法及系统  一种基于模态自适应学习的多模态课堂情感识别方法及系统 
 本发明属于但不限于情感识别技术领域，公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统，通过构建多模态数据采集系统，实时采集课堂教学过程中的文本、音频和视频等多模态数据，并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异，提出基于自适应模态评分(AMS)的多模态数据融合方法，并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制，模拟教师对课堂上学生情感状态的多维度感知，增强了情感识别系统的可解释性。该系统通过多模态数据的融合，将来自文本、音频和视频的数据特征进行加权融合，形成完整的情感特征表示。
一种基于BERT预训练语言模型的语音指令识别方法  一种基于BERT预训练语言模型的语音指令识别方法 
 本发明涉及语音识别技术领域，公开了一种基于BERT预训练语言模型的语音指令识别方法，该方法包括:接收待识别语音，并通过自动语音识别模型将待识别语音转化为文本序列；微调BERT预训练语言模型，并利用微调后的BERT预训练语言模型对文本序列进行文本分类，得到待识别语音对应的指令类别；利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩，得到序列分类模型；利用序列分类模型对文本序列进行特征提取，得到待识别语音对应的指令类别标签，本发明考虑到音频数据较文本数据更难获取的情况，选用BERT预训练语言模型，提高分类准确性，利用知识蒸馏进行模型压缩，识别到待识别语音指令类别标签，为人机交互提供数据支撑。
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统  复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 
 本发明涉及水声信号处理技术领域，特别涉及一种复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统，构建包含真实鲸目动物嘀嗒声信号和仿嘀嗒声水声仿生通信信号的训练集，将训练集中每个信号音频样本分为固定帧子信号样本；提取每一帧子信号的七类特征，构建融合特征向量，再将所有子信号的融合特征向量组成融合特征图像；搭建水声仿生通信信号识别模型，并使用训练集进行模型优化；将待识别信号样本分为固定帧子信号样本后，得到融合特征图像，并输入训练好的水声仿生通信信号识别模型中得到识别结果。本发明能够在小样本长度和复杂水声信道环境下实现仿嘀嗒声水声仿生通信信号的精确识别。
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法  基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 
 一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理，再对于每一种类的音频，需要提取其每一帧的MFCC倒谱，将提取的倒谱堆叠后输入TDNN网络，得到每一种类音频的声纹特征。第二部分：先对声纹数据进行归一化处理；再运用有标签的归一化后声纹数据作为特征空间训练分类模型C＆lt;subgt;y＆lt;/subgt;；最后在达到训练精度要求后保存模型参数。第三部分：首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小，依次来作为其贡献度的指标；接下来，使用类激活映射方法，对特定卷积层输出的特征图的梯度进行全局平均池化，并生成热图；最后将两种方法所得结果结合起来，生成细粒度的可解释性结果。
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括:接收车辆转发的当前语音请求，在根据当前语音请求未能确定出与当前语音请求相对应的车辆控制指令的情况下，根据大语言模型、当前语音请求及目标语言风格信息，确定目标引导信息及将目标引导信息反馈以引导用户完成语音交互。如此，本申请的服务器可在未能确定出与语音请求相对应的车辆控制指令的情况下，根据当前语音请求、目标语言风格信息及大语言模型，确定用于引导用户对语音请求进行调整，且与目标语言风格匹配的目标引导信息，及通过目标引导信息引导用户对语音请求进行调整以完成语音交互，使得用户对于车辆语音交互功能及车辆的使用体验能得到保障。
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
本发明的实施例提供了一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质，方法包括:获取语音识别模型中的正确文本和错误文本；对正确文本进行分词，得到多个正确词汇，将错误文本进行分词得到多个错误词汇；针对每个错误词汇，确定语音识别模型将正确词汇替换为该错误词汇的第一次数以及该错误词汇在错误文本中出现的第二次数；确定错误词汇对应的错误文本的成句的第一概率和正确词汇对应的正确文本的成句的第二概率；确定正确词汇替换为错误词汇的概率；在正确词汇替换为错误词汇的概率大于预设概率阈值时，将错误词汇添加至语音识别模型的语料中。无需进行人工对语料进行识别并扩充，节约成本。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工