本技术方案涉及一种深度学习训练方法及语音降噪技术,包括计算机程序产品、设备和存储介质。该方法通过位宽截断优化神经网络参数,实现高效训练与降噪。
背景技术
在一些语音采集的场景,语音采集设备采集的语音数据中可能夹杂着较多的环境噪声,收音效果非常差,需要对采集的语音数据进行降噪处理。传统的语音降噪技术要么通过改进硬件电路实现降噪,要么通过信号处理的方式实现降噪,但是通过改进硬件电路实现降噪的方式只能抑制特定频率范围的噪声,而通过信号处理实现降噪的方式只能抑制稳态的噪声,无法抑制一些瞬时的、突发的噪声(比如,汽车鸣笛等)。
随着AI技术的发展,该技术逐渐应用到语音降噪领域,目前通过预训练的神经网络进行语音降噪可以达到非常好的降噪效果,这种方式可以抑制各种各样的噪声(比如,稳态的、瞬态的、与语音本身相关的噪声),并极大程度地保留语音本身的信息。然而,由于神经网络本身网络结构较复杂,网络参数较多,并且对于录音等对语音质量要求很高的领域,对音频流的要求也更高(通常采样率48 kHz,位宽24bit),从而导致在利用神经网络对语音数据进行降噪处理的过程中,涉及到的数据量非常大,需占用较大的内存,且计算量较大,对处理设备的硬件性能要求较高,使得基于神经网络的语音降噪方法难以应用到一些低性能的语音采集设备中。
实现思路