本技术涉及深度学习技术在语音信号处理领域的应用,特别是针对含噪语音情感识别的方法。该方法首先融合多种可学习特征作为模型输入,以增强模型对任务相关学习性能的提升。其次,通过混合声谱图分块技术,逐块计算多头注意力,有效捕捉局部情感信息,并通过分块操作减少局部噪声干扰。最终,将逐帧计算得到的全局上下文信息与局部情感信息相结合,增强模型对上下文语义的理解,从而提高分类准确性。
背景技术
语音情感识别是计算机对人类情感感知和理解过程的模拟,他的任务就是从采集的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系,然后通过映射关系识别语音信号,达到人机交互的目的。语音情感识别通常包括特征提取和分类两个部分,具体而言,语音信号会经过语音处理系统转换为各种可读的物理特征,通过特征提取获得对建模有利的特征向量;通过特征向量训练利用分类器构建的分类模型进行情感分类,其中分类器既包含传统的机器学习SVM、决策树等,也包括DNN、CNN、LSTM等深度学习模型。
现有语音情感识别技术方案中,普遍采用静态的Mel-spectrogram、梅尔频普倒谱系数(MFCC)等从原始语音中固定提取的特征,然后使用CNN、LSTM等深度学习技术进行情感特征建模,最后对于语音情绪进行分类。但是这些特征提取方法中的计算公式是固定的,提取的特征比较冗余,且不能根据任务特性而从原始语音中学习对任务有益的信息。此外,现有语音情感识别中的分类模型都将语音视作为连续的时间序列信息来建模,难以对于含有噪音的实际业务场景数据具有很好识别准确度。
实现思路