本技术涉及一种技术,旨在识别和定位多个声源中的特定目标声源,该技术适用于至少一个目标空间区域中的多个空间区域。该方法通过处理器接收多个声源信号,并利用先进的算法进行分析,以精确识别和定位目标声源。
背景技术
音频提取的问题通常使用诸如单麦克风稳态噪声抑制或多麦克风设置等技术来解决,以从目标信号中去除不想要的信号。所提取的需要的信号用于语音增强、语音识别、音频转录和许多其他基于音频的应用。
在短时傅里叶变换(short-time Fourier transform,STFT)域中表现出高度稀疏的信号,例如语音或音乐,可以借助时频(time-frequency,TF)掩码有效地分离,该掩码可以识别其中目标信号占主导地位的STFT点(bins)。为了获得这种掩码,通常采用深度学习方法。TF掩码是用于语音增强和定位的音频处理中的已知工具,其允许监督学习。TF掩码包括关于目标源在短时傅里叶变换(STFT)域中每个时间和频率的活动的信息。通常,TF掩码的每个元素都是介于0和1之间的一个数字。TF掩码也可以是复数。TF掩码可用于恢复目标源的相应的干净源信号,例如,通过掩码和参考麦克风信号的逐元素相乘,然后进行逆变换。正如所解释的,TF掩码识别由感兴趣信号主导的短时傅里叶变换(STFT)点(bins),并且可以通过利用光谱时间相关性和空间信息来获得。使用深度学习方法可以利用这一点。除了估计TF掩码之外,其他已知的方法是估计感兴趣信号的STFT点(bins),估计感兴趣的时域信号或估计应用于多通道麦克风录音的多通道波束成形器权重。
为了将深度神经网络(deep neural network,DNN)应用于该项任务,选择可以识别目标分量的判别特征是一个关键方面。对于单个麦克风捕获,可以通过利用语音的频谱时间特性中的典型结构来分离例如语音和背景噪声。然而,当目标和干扰属于同一类型(例如,将两个不同的说话者分离)时,这种方法将会失败。当多个麦克风捕获可用时,可以额外利用空间信息来区分具有相似光谱时间属性的源。
无论使用哪种信息,明确定义目标分类都至关重要,这样DNN才能学会正确抑制不想要的分量,同时保留目标。例如,对于语音与背景噪声的分离,可以基于频谱时间(语音/非语音)和/或空间(局部/扩散)信号特性进行区分。在神经网络的训练过程中,可以将这些判别特性结合起来。
对于多个局部声源的分离,可以基于源的位置进行区分,这可以例如就对应的到达方向(directions of arrival,DOA)进行描述。然而,由于任一源(例如,同时说话的多个谈话者中的一个)可被认为是目标,因此需要用户输入来解决目标观察方向上的这种模糊性。通常的方法是训练网络以从各个方向提取信号分量。然后可以通过选择多个输出流(例如,目标跟踪波束中的所有流)中的一个或多个输出流的组合来获得想要的信号。在这种方法中,在没有每个流的相关性的先验知识的情况下,生成所有流的最优结果,然后只使用这些流的小部分重建目标信号,即DNN输出包含了大量冗余。因此,这种方法无法有效地使用可用的计算资源。另一种方法是针对固定的、先验已知的空间角度训练神经网络。然而,这种方法无法在运行时选择角度或空间,因此并不灵活。通常也考虑单个角度。
“使用全频带和子频带空间特征的神经网络进行基于掩码的源分离”由A·博伦德(A.Bohlender)、A·斯普里耶(A.Spriet)、W·提利(W.Tirry)和N·马杜(N.Madhu)在《欧洲信号处理国际会议(EUSIPCO)》,2021年中发表,其公开了使用深度神经网络架构(由卷积层(convolutional,CNN)和循环层组成)估计TF掩码,如图1所示。图1所示的CNN的输入由N个麦克风信号的相位谱图组成。由于同时估计了所有到达方向(DOA)的掩码,因此对于总共有I个DOA的离散网格来说,每个TF点(bin)的输出大小等于I。因此,每个返回的I个TF掩码对应一个特定的方向。为了提取单个目标,只需要与目标源DOA对应的掩码即可,可以丢弃所有其他估计的掩码。因此,该方法的计算能力没能得到有效利用,因为计算了不会使用的TF掩码。此外,性能可能不太理想,因为所有角度都需要同时到达最低性能。
“基于时频掩蔽的卷积递归神经网络在线多通道语音增强”由S·查克拉巴蒂(S.Chakrabarty)和E.A.P·哈贝茨(E.A.P.Habets)在《IEEE信号处理专题》第13卷,第4期,第787-799页,2019年8月,DOI:10.1109/JSTSP中发表,其公开了一种与图1所示类似的用于掩码估计的CNN架构。但是,仅单个TF掩码返回,因为此方法仅考虑将单个局部语音源与分散且不相关的背景噪声分离。在这种情况下,仅区分局部和非局部信号分量就足够了,目标源的特定位置不起作用。然而,这种方法不适合分离多个局部源。
“多通道语音增强的基于特征向量的语音掩码估计”由L·比芬博格(L.Pfeifenberger)、M·泽勒和F·彭科夫(F.Pernkopf)在《IEEE/ACM音频、声学、语言信号处理》,第27卷,第12期,第2162-2172页,2019年12月,DOI:10.1109/TASLP.2019.2941592中发表,其公开了使用神经网络架构进行TF掩码估计,其中神经网络的输出包括总共三个掩码,分别对应于目标源、干扰源和背景噪声。通过对明确定义的场景训练网络,可以解决关于哪个源被视为目标的模糊性。图2示出了一种可能的训练场景的示例,其中一个源的位置被限制在特定区域D1,而另一个源的位置被限制在不同的区域D2。但是,这种方法并不通用,因为目标DOA范围必须事先指定,并且在训练神经网络后无法由用户控制,因为它对源的位置和移动做出假设,以明确定义哪个源是目标,哪个是干扰源。
“利用从空间特征预测的时频掩模进行远距离语音分离”是由P·佩尔蒂莱和J·尼库宁(J.Nikunen)在《语音通信68(2015)》,第97–106页中发表,其公开了一种方法,其中特别考虑了基于其DOA分离多个源的问题。采用一个简单的前馈神经网络。输入特征基于麦克风信号的相位谱图以及DOA。为了获得适合与麦克风信号相位一起使用的DOA表示,首先计算由沿指定的DOA的理想平面波传播产生的“理论”通道间相位差。然后,作为神经网络的输入,为观察方向和非观察方向确定分数(每个TF点(bin))。通过平均或聚合几个方向的输入分数,该方法可以扩展为允许指定DOA的目标范围。或者,聚合可以基于多个DOA的独立获得的输出。然而,后者由于其计算复杂性而效率不高,而前一种方法也并未达到最佳标准,因为神经网络必须达成妥协才能为所有可能的感兴趣的空间角度提供合适的性能。
“具有位置引导语音提取网络的多通道重叠语音识别”由Z·陈(Z.Chen),X·肖(X.Xiao),T·吉冈(T.Yoshioka),H·埃尔多安(H.Erdogan),J·李(J.Li)和Y·龚(Y.Gong)在《2018IEEE口语技术研讨会(SLT)》,2018年,第558-565页,DOI:10.1109/SLT.2018.8639593中发表,“基于方向信息的端到端多通道目标语音分离”由R·顾(R.Gu)和Y·邹(Y.Zou)在《arXiv预印本arXiv:2001.00391》,2020年中发表,两者皆公开了将目标的定义合并到输入特征中,因而缺乏通用性并降低了效率。三种不同类型的输入特征得到了使用,即空间特征(通道间相位差)、频谱特征(波束成形的麦克风信号)和所谓的角度特征(麦克风信号频谱和转向矢量间的余弦距离),其中两个(部分)基于目标说话者的位置。将观察方向加入光谱和角度特征中,以定义目标。所谓的角度特征是一个分数,其量化了麦克风信号与指定的观察方向的对应程度。此外,为了获得特定于该方向的光谱特征,在目标方向上引导波束成形器。因此,这些方法在计算上也是复杂的。此外,由于其必须适用于用户定义的角度,因此需要对用户定义的角度的性能进行折衷,以在所有考虑的角度上实现良好的性能。
实现思路