多声源环境中目标声源定位与识别技术

123技术园

首页 / 技术内容

多声源环境中目标声源定位与识别技术

2025-02-02 08:17

No.1335524420420378624

技术概要

PDF全文

本技术涉及一种技术，旨在识别和定位多个声源中的特定目标声源，该技术适用于至少一个目标空间区域中的多个空间区域。该方法通过处理器接收多个声源信号，并利用先进的算法进行分析，以精确识别和定位目标声源。

背景技术

音频提取的问题通常使用诸如单麦克风稳态噪声抑制或多麦克风设置等技术来解决，以从目标信号中去除不想要的信号。所提取的需要的信号用于语音增强、语音识别、音频转录和许多其他基于音频的应用。在短时傅里叶变换(short-time Fourier transform，STFT)域中表现出高度稀疏的信号，例如语音或音乐，可以借助时频(time-frequency，TF)掩码有效地分离，该掩码可以识别其中目标信号占主导地位的STFT点(bins)。为了获得这种掩码，通常采用深度学习方法。TF掩码是用于语音增强和定位的音频处理中的已知工具，其允许监督学习。TF掩码包括关于目标源在短时傅里叶变换(STFT)域中每个时间和频率的活动的信息。通常，TF掩码的每个元素都是介于0和1之间的一个数字。TF掩码也可以是复数。TF掩码可用于恢复目标源的相应的干净源信号，例如，通过掩码和参考麦克风信号的逐元素相乘，然后进行逆变换。正如所解释的，TF掩码识别由感兴趣信号主导的短时傅里叶变换(STFT)点(bins)，并且可以通过利用光谱时间相关性和空间信息来获得。使用深度学习方法可以利用这一点。除了估计TF掩码之外，其他已知的方法是估计感兴趣信号的STFT点(bins)，估计感兴趣的时域信号或估计应用于多通道麦克风录音的多通道波束成形器权重。为了将深度神经网络(deep neural network，DNN)应用于该项任务，选择可以识别目标分量的判别特征是一个关键方面。对于单个麦克风捕获，可以通过利用语音的频谱时间特性中的典型结构来分离例如语音和背景噪声。然而，当目标和干扰属于同一类型(例如，将两个不同的说话者分离)时，这种方法将会失败。当多个麦克风捕获可用时，可以额外利用空间信息来区分具有相似光谱时间属性的源。无论使用哪种信息，明确定义目标分类都至关重要，这样DNN才能学会正确抑制不想要的分量，同时保留目标。例如，对于语音与背景噪声的分离，可以基于频谱时间(语音/非语音)和/或空间(局部/扩散)信号特性进行区分。在神经网络的训练过程中，可以将这些判别特性结合起来。对于多个局部声源的分离，可以基于源的位置进行区分，这可以例如就对应的到达方向(directions of arrival，DOA)进行描述。然而，由于任一源(例如，同时说话的多个谈话者中的一个)可被认为是目标，因此需要用户输入来解决目标观察方向上的这种模糊性。通常的方法是训练网络以从各个方向提取信号分量。然后可以通过选择多个输出流(例如，目标跟踪波束中的所有流)中的一个或多个输出流的组合来获得想要的信号。在这种方法中，在没有每个流的相关性的先验知识的情况下，生成所有流的最优结果，然后只使用这些流的小部分重建目标信号，即DNN输出包含了大量冗余。因此，这种方法无法有效地使用可用的计算资源。另一种方法是针对固定的、先验已知的空间角度训练神经网络。然而，这种方法无法在运行时选择角度或空间，因此并不灵活。通常也考虑单个角度。 “使用全频带和子频带空间特征的神经网络进行基于掩码的源分离”由A·博伦德(A.Bohlender)、A·斯普里耶(A.Spriet)、W·提利(W.Tirry)和N·马杜(N.Madhu)在《欧洲信号处理国际会议(EUSIPCO)》，2021年中发表，其公开了使用深度神经网络架构(由卷积层(convolutional，CNN)和循环层组成)估计TF掩码，如图1所示。图1所示的CNN的输入由N个麦克风信号的相位谱图组成。由于同时估计了所有到达方向(DOA)的掩码，因此对于总共有I个DOA的离散网格来说，每个TF点(bin)的输出大小等于I。因此，每个返回的I个TF掩码对应一个特定的方向。为了提取单个目标，只需要与目标源DOA对应的掩码即可，可以丢弃所有其他估计的掩码。因此，该方法的计算能力没能得到有效利用，因为计算了不会使用的TF掩码。此外，性能可能不太理想，因为所有角度都需要同时到达最低性能。 “基于时频掩蔽的卷积递归神经网络在线多通道语音增强”由S·查克拉巴蒂(S.Chakrabarty)和E.A.P·哈贝茨(E.A.P.Habets)在《IEEE信号处理专题》第13卷，第4期，第787-799页，2019年8月，DOI：10.1109/JSTSP中发表，其公开了一种与图1所示类似的用于掩码估计的CNN架构。但是，仅单个TF掩码返回，因为此方法仅考虑将单个局部语音源与分散且不相关的背景噪声分离。在这种情况下，仅区分局部和非局部信号分量就足够了，目标源的特定位置不起作用。然而，这种方法不适合分离多个局部源。 “多通道语音增强的基于特征向量的语音掩码估计”由L·比芬博格(L.Pfeifenberger)、M·泽勒和F·彭科夫(F.Pernkopf)在《IEEE/ACM音频、声学、语言信号处理》，第27卷，第12期，第2162-2172页，2019年12月，DOI：10.1109/TASLP.2019.2941592中发表，其公开了使用神经网络架构进行TF掩码估计，其中神经网络的输出包括总共三个掩码，分别对应于目标源、干扰源和背景噪声。通过对明确定义的场景训练网络，可以解决关于哪个源被视为目标的模糊性。图2示出了一种可能的训练场景的示例，其中一个源的位置被限制在特定区域D1，而另一个源的位置被限制在不同的区域D2。但是，这种方法并不通用，因为目标DOA范围必须事先指定，并且在训练神经网络后无法由用户控制，因为它对源的位置和移动做出假设，以明确定义哪个源是目标，哪个是干扰源。 “利用从空间特征预测的时频掩模进行远距离语音分离”是由P·佩尔蒂莱和J·尼库宁(J.Nikunen)在《语音通信68(2015)》，第97–106页中发表，其公开了一种方法，其中特别考虑了基于其DOA分离多个源的问题。采用一个简单的前馈神经网络。输入特征基于麦克风信号的相位谱图以及DOA。为了获得适合与麦克风信号相位一起使用的DOA表示，首先计算由沿指定的DOA的理想平面波传播产生的“理论”通道间相位差。然后，作为神经网络的输入，为观察方向和非观察方向确定分数(每个TF点(bin))。通过平均或聚合几个方向的输入分数，该方法可以扩展为允许指定DOA的目标范围。或者，聚合可以基于多个DOA的独立获得的输出。然而，后者由于其计算复杂性而效率不高，而前一种方法也并未达到最佳标准，因为神经网络必须达成妥协才能为所有可能的感兴趣的空间角度提供合适的性能。 “具有位置引导语音提取网络的多通道重叠语音识别”由Z·陈(Z.Chen)，X·肖(X.Xiao)，T·吉冈(T.Yoshioka)，H·埃尔多安(H.Erdogan)，J·李(J.Li)和Y·龚(Y.Gong)在《2018IEEE口语技术研讨会(SLT)》，2018年，第558-565页，DOI：10.1109/SLT.2018.8639593中发表，“基于方向信息的端到端多通道目标语音分离”由R·顾(R.Gu)和Y·邹(Y.Zou)在《arXiv预印本arXiv：2001.00391》，2020年中发表，两者皆公开了将目标的定义合并到输入特征中，因而缺乏通用性并降低了效率。三种不同类型的输入特征得到了使用，即空间特征(通道间相位差)、频谱特征(波束成形的麦克风信号)和所谓的角度特征(麦克风信号频谱和转向矢量间的余弦距离)，其中两个(部分)基于目标说话者的位置。将观察方向加入光谱和角度特征中，以定义目标。所谓的角度特征是一个分数，其量化了麦克风信号与指定的观察方向的对应程度。此外，为了获得特定于该方向的光谱特征，在目标方向上引导波束成形器。因此，这些方法在计算上也是复杂的。此外，由于其必须适用于用户定义的角度，因此需要对用户定义的角度的性能进行折衷，以在所有考虑的角度上实现良好的性能。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

亚历山大·博伦德奈尔什·马杜安·埃尔维尔·斯普利特沃特·朱斯·蒂里

技术所属：汇顶科技(香港)有限公司.

相关技术

一种维纳增益的设计方法  一种维纳增益的设计方法 
 本发明公开了一种维纳增益的设计方法，包括:进行维纳增益估计，将估计获得的维纳增益作为后置滤波器，所述维纳增益估计过程包括：根据波束形成器输出的输出信号进行信噪比估计，得到信噪比估计值；在噪声和混响环境下，根据信噪比估计值及由麦克风阵列采集的观测信号进行相干散射比估计，得到相干散射比估计值；根据信噪比估计值及相干散射比估计值进行增益估计，得到维纳增益。本发明综合考虑了CDR和SNR来设计维纳增益，大大提升了语音增强技术在语音降噪、失真度控制以及去混响能力等方面的性能。
基于FPGA的深海水声数据压缩方法与装置  基于FPGA的深海水声数据压缩方法与装置 
 本申请涉及声波数据处理技术领域，具体涉及基于FPGA的深海水声数据压缩方法与装置，该方法包括:根据深海水声数据模态分解得到IMF波的能量分布进行分段处理，得到各段声音数据；根据任意两段声音数据的振幅数值及变化的相似情况，得到声音相似性度量；根据所有不同IMF波上相同时间段的声音数据以及同一IMF波上不同声音数据的声音相似性度量，得到信息浓度；根据信息浓度选取小波变换过程中的小波基函数组，对所有IMF波小波变化后的小波系数进行量化后编码，得到深海水声数据的压缩结果。本申请可提高深海水声数据的压缩质量。
一种自适应感知的一维离散时间信号活动检测方法和系统  一种自适应感知的一维离散时间信号活动检测方法和系统 
 本发明提供了一种自适应感知的一维离散时间信号活动检测方法和系统，首先通过预加重补偿一维离散时间信号的频谱衰减，然后将预加重后的一维时间信号流按固定长度分成多个短的时间帧，接着对帧信号进行加窗处理，随后计算单帧信号的短时能量积分，并进行动态能量阈值调整，阈值调整包括自适应跟随阈值调整和后级识别神经网络辅助调整，调整后得到一个当前的能量阈值，在得到的当前能量阈值的基础上加上一个常数作为判决阈值，最后采用判决阈值进行信号活动检测，得到信号帧实时的分类结果。通过动态的能量阈值调整，使得最后的能量阈值跟随在信号幅值附近，达到了自适应环境的目的，大大提高了信号活动检测的准确率，降低了设备功耗。
一种基于多域声学特征融合的说话人识别方法、装置及设备  一种基于多域声学特征融合的说话人识别方法、装置及设备 
 本发明涉及一种基于多域声学特征融合的说话人识别方法，包括以下步骤:获取待识别的语音数据；分别提取每个语音数据的频谱图和分数频谱图；将频谱图和分数频谱图经过滤波器组，分别得到第一Fbank特征和第二Fbank特征，并将第一Fbank特征和第二Fbank特征组合成声学特征；采用特征融合方法将声学特征融合；将融合后的声学特征输入说话人识别网络模型中，得到待识别说话人语音的声纹特征；根据待识别说话人语音的声纹特征，得到识别结果。本发明得到了高精度和高区分度的声纹特征，提高了说话人识别准确性。
一种语音转换的信息处理方法和系统  一种语音转换的信息处理方法和系统 
 本发明属于信息处理领域，本发明提供了一种语音转换的信息处理方法和系统，包括:基于所有收集语音数据的接口，获取所有需要语音转换的语音信号数据，进行降噪处理，得到初降噪语音信号；获取语音信号的基频和共振峰位置，分析处理得到性别特征值并将其进行划分；基于性别分类后的语音信息，获取语音信息的波形数据进行综合分析处理得到情绪特征值并分类处理；基于降噪处理后的语音信息，转换出语音信息对应的官方文字信息并将语音信息携带的性别和情绪信息附加在文字信息中；将语音转换后的官方语言文字转换成官方语音信息，并将语音信息携带的性别和情绪信息附加在转换后的语音信息中，提高人机交互的质量，改善人类日常生活和工作体验。
基于多尺度全局卷积网络的语音关键词识别方法及系统  基于多尺度全局卷积网络的语音关键词识别方法及系统 
 本发明公开了基于多尺度全局卷积网络的语音关键词识别方法及系统，涉及语音识别技术领域，包括以下步骤:通过预卷积块对语音信息进行预处理获得初步语音特征；在多尺度特征融合残差模块中，处理初步语音特征同时降低不相关信息对语音特征的干扰；在最终卷积块中，对多尺度特征融合残差模块输出的语音特征进行处理获得最终语音特征；所述最终语音特征经过最大池化层和全连接层后，得到关键词识别结果。本发明中分别在时域与频域中提取更深层次的语音信息，避免不同领域信息之间可能存在的相互干扰；时域全局卷积和频域全局卷积可分别在时域和频域中捕捉语音信息的全局特征，增强模型的全局特征感知能力以学习更丰富的特征表示。
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
本申请实施例提供一种神经网络的训练方法、语音降噪方法、计算机程序产品、设备及存储介质。在训练神经网络时，可以对神经网络的网络参数进行位宽截断处理，利用位宽截断处理后的网络参数确定的降噪参数的准确度，以及位宽截断处理对网络参数本身的影响作为神经网络训练过程中的约束，从而可以最小化位宽截断处理对数据精度的影响，训练得到轻量级且性能较好的语音降噪神经网络，使得该轻量级的语音降噪神经网络可以部署到低性能的语音采集设备中。
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
本申请公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。
一种高效文字转语音的方法及系统  一种高效文字转语音的方法及系统 
 本申请提供一种高效文字转语音的方法及系统。其中，接收用户输入的文本信息，识别并分析所述文本信息中的情感色彩和语气特征；根据所述情感色彩和所述语气特征，从预先构建的情感语音库中选择相匹配的基础语音片段的数据集；利用动态时间规整算法调整所述基础语音片段的时间轴，使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性；采用频谱融合技术，将调整后的时间轴与所述文本信息的音素序列进行融合，生成语音输出，其中，所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性，从而大幅提升了用户体验。
一种用于智慧呼叫的语义识别方法及系统  一种用于智慧呼叫的语义识别方法及系统 
 本发明涉及语音识别技术领域，具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本；进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征，获取目标用户呼叫与每类答案文本的匹配系数，确定目标用户呼叫对应的答案文本类别；进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征，目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间，以及相邻呼叫语句的相似特征，结合匹配系数，从多个方面准确评估系统对于目标用户呼叫的修正识别效率，使得系统能够及时发现识别效率的瓶颈，从而针对性地对系统进行优化，提升系统的智能化水平。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工