本技术涉及语音增强技术领域,公开了一种用于语音增强的多自注意力域方法及系统,包括:采集含有噪音的语音信息;构建MSAF模型的网络架构;将所述语音信息并行输入到N个自注意力模块中;将每个自注意力模块的输出与一个可训练的从高斯分布中随机采样的系数相乘,得到最终输出的增强后干净的语音。通过融合不同位置自注意力层的自注意力模块,能够从多个维度学习到含有噪声的语音中的干净语音特征,从而实现更优的语音增强效果。在提高语音质量方面具有可比性,并且在分段SNR和语音清晰度方面优异。
背景技术
近年来,越来越多与语音相关的应用开始流行,包括通过语音命令控制智能设备、支持各种场景下的语音搜索、实时会议记录等。现实场景,这会影响语音相关应用程序的性能。语音增强(SE)用于衰减语音信号中的噪声,从而减少噪声对语音相关应用的影响。
最近,基于SEGAN的变体在各个方面对SEGAN进行了改进。就输入类型而言,原始波形和谱图已被利用。然而,这些 SEGAN 变体仍然严重依赖卷积层。感受野,作为卷积运算限制了 SEGAN 和 SEGAN 变体捕获输入序列的远程依赖性的能力。 为了解决这个问题,曾提出过一些方案。研究结果表明,在所有客观评价指标中, SASEGAN 的性能受到自注意力层位置的影响。
实现思路