本申请适用于音频处理技术领域,提供了一种音频强化方法及相关设备,所述方法包括:根据预设音频数据集构建训练集和测试集;通过所述训练集和测试集,对基于WavLM‑large模型和WWF模型构建的预设语音增强模型进行训练,得到目标语音增强模型;将待测音频数据集输入所述目标语音增强模型,得到强化音频数据集。解决了音频检测领域在数据量小且缺少成对干净语音场景下的降噪问题,消除了待测音频数据集的噪声及“Clever Hans”效应,避免了去噪导致的待测音频数据集中有效特征丢失问题。
背景技术
阿尔茨海默病(AD)已成为一个普遍的健康问题,主要表现为认知功能的进行性下降,严重影响患者的日常生活。目前,现有药物治疗尚无法根治阿尔茨海默病,这突显了早期诊断和干预的重要性。然而,现行的临床检查方法往往昂贵且耗时,给患者及其家庭带来了巨大的社会和经济负担。研究表明,语言功能障碍(如言语不流畅和语速缓慢)可作为阿尔茨海默病早期阶段的潜在症状。Bertini等人提出了一种基于语音的辅助阿尔茨海默检测系统,并且得到了优秀的准确率结果。然而,在实际应用场景下,室内广泛存在的环境噪声无疑会对语音的平稳性及其他质量产生影响,进而影响语音特征提取的准确性,最终会影响基于语音进行的阿尔茨海默病相关研究结果的准确性。比如,阿尔茨海默病检测领域使用最广泛的公开数据集Pitt语料库被最近Liu提出的研究证明其存在的背景噪声对阿尔茨海默病检测结果产生显著影响,产生了所谓的“Clever Hans”效应,影响了现有基于Pitt语料库训练得到的阿尔茨海默病检测系统结果的准确性。因此,对阿尔茨海默检测领域中从不同音频采集环境下收集到的语音进行语音增强,是提高阿尔茨海默病检测系统性能的关键之一。
语音增强的目的是从带噪声的语音中提取出纯净的语音,同时保证语音的质量和可懂度。近年来,语音增强领域普遍采用基于监督学习的方法,这需要大量的干净语音与嘈杂语音配对数据。Ronneberger提出的UNet模型作为一种传统的有监督语音增强方法,其独特的U型架构和跳跃连接能够有效保留语音信号的高频部分和非线性特性,从而实现卓越的语音增强效果。在后续的研究中,Defossez等人提出利用瓶颈层中的长短期记忆(LSTM)网络来模拟时间信息。同时,Kong等人将自注意力机制引入UNet的瓶颈层,并将该模型命名为CleanUNet,该模型在常用的语音增强数据集上取得了先进的结果。然而,现有的语音增强技术未能充分满足阿尔茨海默病检测领域的降噪需求,主要面临以下问题:首先,阿尔茨海默病检测领域的数据量小且缺少成对干净语音限制了现有语音增强模型的训练能力;其次,Python中现成的语音增强技术库可能会删除用于检测阿尔茨海默病相关的信息,从而影响后续诊断的准确性。
实现思路