本技术介绍了一种创新的多模态语音情感识别技术,该技术依托于预训练模型,通过以下步骤实现:首先,收集包含文本和音频配对的数据集;其次,利用这些数据对进行模型训练;最后,实现情感识别。该方法能够提高情感识别的准确性和效率。
背景技术
情感识别的过程一般涉及数据集收集、预处理、特征提取、模型开发和评估等阶段,其中特征提取与混合是任务模型设计的核心环节。在传统的语音情感识别中,无论是采用基于物理信号变化的频谱特征、韵律特征、梅尔频率倒谱系数,还是GeMAPS、LLDs等基于统计的特征,这些方法通常面临情感语义表达不足的问题。而在文本特征提取方面,基于预训练的语言模型(如BERT)已经逐渐取代了传统的word2vector,Bow等方法。
现有的语音情感识别方法及系统依然存在诸多缺陷:
1.参与融合的特征本身来自于一些过时的传统方法,本身语义有限。
2.模型混合策略过于简单,没有考虑到到多模态特征之间的相关性
3.有的模型虽然使用了注意力机制来希望模型关注到指定的信息,但往往忽略了不同层次特征之间的关联性,导致模型的情感分析能力不强。
4.当前已有的融合模块侧重于关注于不同模态的特征之间的相关性,而没有一个主导的特征在模型的特征的融合过程中充当导向作用。
实现思路