本技术介绍了一种创新的特征提取技术,适用于8K至16K采样率的语音信号。该技术的核心在于捕获高频部分的多维MFCC特征能量值,并据此判断特征值的有效性,以实现精确的特征提取。该技术可应用于多种电子设备和存储介质,为语音处理领域带来新的解决方案。
背景技术
目前主流的语音识别系统理论上是支持多种不同的采样率的语音信号,但是主流语音系统的声学模型大部分只支持8k(8000)和16k(16000)采样率两种的信号。对于外部传入不是这两种的语音的信息,往往通过一些音频转换的方法,将语音进行升采样或者是降采样。比如48k语音降采样到16k,8k语音升采样到16k等。这样做的好处可以节省系统的开销,如果不采取转换的方式,理论上需要不同采样率的率的模型来识别不同采样率的语音。另一方面,只选择一种或者两种语音做声学模型训练的方法,减少数据采集的成本,无需搜集各类采样率的语音,只需收集某类采样率的语音。但是这种方法存在问题是,当与声学模型训练数据匹配测试语音(常见16k或者8k)识别性能较好,但是与训练数据不匹配的语音时,性能相对差一些。比如,使用8k升采样到16k的语音去测试16k模型比8k模型测性能要差一些。
实现思路