本技术提出了一种创新的说话人识别技术,该技术通过多域声学特征的融合来提高识别准确性。具体方法包括:首先,收集待识别的语音样本;其次,对每个语音样本进行频谱图和分数频谱图的提取;然后,对这些特征图进行滤波处理,以增强特征的区分度;最后,将处理后的特征进行融合,以实现更准确的说话人识别。该方法能够有效提升说话人识别系统的性能,适用于多种应用场景。
背景技术
说话人识别是一种生物识别技术,可以确定注册和测试话语是否属于同一个说话者,已被广泛应用于金融支付、电信反欺诈、刑事调查等领域。现有性能表现优秀的说话人识别方法主要关注说话人嵌入模型的构建和优化,如Thin-ResNet、ECAPA-TDNN和MFA-conformer等。
而在整个说话人识别任务中,需要在训练说话人嵌入模型之前从输入话语中提取声学特征。然而,目前最好的说话人识别方法中使用的声学特征大多数是将时域信号转换为时频域信号,如梅尔频率倒谱系数(MFCC)或滤波器组(FBank)。还有其他常见的时频域的声学特征,如线性预测编码(LPC),感知线性预测(PLP),基于子带的倒谱系数(SBC),以及小波变换特征。也有一些直接使用语音数据的原始波形来训练说话人识别模型。
但是,目前针对说话人识别(SR)任务的声学特征研究和探索相对有限,现有方法仅利用了时域或频域的部分信息,而时域和频域之间的很大一部分信息尚未被利用。在这未被利用的信息中,可能也包含了与说话人特征相关的信息。如果能够充分挖掘这些信息来构建更优的声学特征,那么也将显著提升说话人识别方法的效果。
研究指出,分数域能够表征时域与频域之间的信息。类似于通过傅里叶变换(FT)获得的频域信号,分数域信号可以通过分数傅里叶变换(FRFT)获得。在时频平面上,若将水平轴视为时间轴,垂直轴视为频率轴,传统的傅里叶变换可被视为信号从时间轴逆时针旋转90度到频率轴的过程。而FRFT能够以任意角度进行旋转,因此它被视为FT的一种广义形式。通过调整旋转角度,FRFT增强了传统FT的应用范围,使其能够应对更多样化的信号处理问题。
实现思路