本公开提供一种语音处理方法、装置、设备及存储介质,涉及语音处理技术领域。在本公开的一些实施例中,获取原始声音信号;对原始声音信号进行方位估计,得到原始声音信号包含的多个声源的位置;对多个声源进行波束分离,得到多个声源的初始声音信号;提取原始声音信号中的目标声源的声纹特征;将原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征输入声纹分离网络中,得到多个声源的目标声音信号;本公开基于原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征,进行多个声源的声纹分离,利用声纹分离网络可以提高声纹分离的精度,提高泛化性能。
背景技术
声音是人与人、人与机器最自然、最有效、最便捷的通讯方式之一。然而,由于自然环境的复杂多变性,声源信号往往被噪声、非目标声源干扰,严重影响声音质量。如何实现高性能的多声源分离是新一代实时通讯和离线通讯设备所面临的瓶颈难题。
声纹分离是一种新兴的语音分离技术,通过提前获得目标语音的声纹特征进行声源分离,但是声纹分离性能不稳定,泛化性能较差,且对于同性或者目标说话人由于感冒等原因发声变音的时候,分离性能较差,甚至出现误分离。
因此,目前的声纹分离的方法精度较低,泛化性能较差。
实现思路