本技术介绍了一种创新的语音增强技术,涉及一种方法、装置、设备和存储介质。该技术通过将含噪声的语音信号输入到一个预先训练好的复合式对抗增强网络模型中,以实现语音信号的增强处理,输出更清晰的语音结果。
背景技术
语音增强是指干净语音在现实生活中受到来自各种噪声干扰时,需要通过一定的方法将噪声滤除,以提升语音的质量和可懂度的技术。
对于说话人语音来说,其主要能量集中于低频范围(0Hz-1500Hz),高频部分(大于1500Hz)包含的能量相对较少。尽管说话人语音中的高频部分能量较低,但是却包含了说话人音色、音调等重要的声纹信息。相对能量较高的低频部分,能量较低的高频内容更容易被噪声淹没。
常规的语音增强方案,通常是基于信号处理的语音增强方法和基于深度学习的语音增强算法,这些方法对高信噪比的语音信号进行增强的效果较好,但是对于低信噪比的语音信号,这些方法在对噪声进行去除时,会将语音信号的高频部分连同噪声一起去除,从而使语音信号丢失重要的声纹信息,造成听感上的语音失真。
实现思路