本技术介绍了一种创新的维纳增益优化方法,该方法涉及维纳增益的估计和应用。通过使用波束形成器的输出信号进行信号处理,该方法能够有效地实现维纳增益的估计,并将其应用于后置滤波器中,以提升信号处理的性能。
背景技术
随着智能设备的普及和远程工作模式的兴起,远程语音通信和人机交互系统的需求日益增长。然而,在这些系统中,由于声源信号在传播过程中不可避免地会经过墙壁、地板或天花板等硬表面的反射,导致接收到的观测信号中包含了大量的晚期反射,即混响成分。此外,声源信号还会受到背景噪声的干扰。这些混响成分以及背景噪声严重降低了语音的质量及可懂度,对语音识别、声源定位等信号处理算法的性能造成了显著影响,限制了用户体验的提升。
维纳波束形成器是声信号处理领域广泛应用的一种时空滤波技术,用于在噪声和混响的干扰下提取目标声源信号。这种维纳波束形成器可以分解为最小方差无失真响应(MVDR)波束形成器和维纳增益的组合。因此,为了确保维纳波束形成器的最佳性能,必须仔细设计MVDR波束形成器和维纳增益。
大量文献研究专注于MVDR波束形成器的设计,旨在实现高信噪比(SNR)增益,同时确保其在实际应用中的鲁棒性。为此,提出了多种技术,包括对角加载的MVDR波束形成器(diagonal-loading MVDR beamformer)、最坏情况下的MVDR波束形成器(worst-case MVDRbeamformer)以及简化的MVDR波束形成器(simplified MVDR beam former),其中噪声场被建模为空间白噪声或散射噪声。
同样,最佳维纳增益的设计也得到了广泛的关注,其在单通道和多通道语音增强中都扮演了重要角色。然而,传统的维纳增益公式通常基于信噪比(SNR)或相干扩散比(CDR)。其中,基于信噪比(SNR)的方法主要致力于抑制背景加性噪声,这种方法的关键在于准确估计信噪比,因为更精确的SNR估计能够有效减少语音增强过程中的失真。相比之下,基于相干扩散比(CDR)的方法则以混响抑制为核心目标,其关键在于获得CDR的准确估计,为了估算CDR,晚期混响信号通常被假设为非相干性的散射噪声(diffuse noise)。具体而言,需要计算与传感器之间的距离和感兴趣频率相对应的相干系数。通过利用阵列观测的协方差矩阵模型以及噪声相干矩阵的先验信息,可以推导出CDR估计器。最初,CDR估计器是为二元阵列开发的,后来扩展到包含两个以上传感器的阵列。
然而,现有的CDR估计器无法同时考虑噪声和混响,这使得它们在背景噪声和混响共存的实际环境中效果不佳。
实现思路