本技术公开了基于深度学习的智能语音分离系统,本发明通过对高维特征向量序列预处理后,计算音频帧的音高频率和MFCC系数,进行量化、归一化及融合操作,再经一系列计算得到分离后的语音信号分量特征序列,充分考虑了音色和音高特征对语音源相关性的影响,提高了语音分离的准确性,同时在分离完成后,对分离后的各个语音信号分量进行分离质量指数的计算,基于分离质量指数比对的结果标记优化信号分量,将优化信号分量通过多次重复输入模型进行优化,进一步提升了分离精度。
背景技术
在当今数字化信息时代,语音信号处理具有极为广泛的应用场景,例如语音通信、语音识别、多媒体处理等。然而,在实际环境中,语音信号往往会受到多种干扰源的影响,如背景噪声、多人同时说话产生的重叠语音等,这使得从混合语音信号中准确分离出目标语音成为一项极具挑战性的任务。
而现有技术中的智能语音分离系统还存在以下不足:
在处理语音信号时,未充分考虑频谱泄漏和频率分辨率对语音特征提取的影响,导致语音分离精度受限;
此外,在语音分离过程中没有充分考虑音色和音高特征对语音源相关性的影响,在分离后,没有对分离后的语音信号分量进行综合评估,并判定是否需要调整深度神经模型,并再次输入模型内进行分离,导致分离精度和效果较差。
为此,推出基于深度学习的智能语音分离系统。
实现思路