本文介绍了一种基于深度学习的多模态情绪识别技术。该技术首先对不同模态数据进行预处理,然后利用密集交互神经网络对数据进行特征提取,形成特征矩阵。最后,通过情绪识别神经网络对特征矩阵进行分析,实现情绪识别。
背景技术
近年来,对于情绪识别问题,研究人员采用了各种各样的数据源进行识别,包括脑电,眼动追踪、面部表情及语言等信号。各种模态数据在构建情感模型中各有特点。其中,使用脑电信号构建情感模型,准确率高、稳定性好,已经得到国内外科研人员的广泛认可,并开展了深入的研究。但在实际应用中,采集脑电信号的过程繁琐且成本高。使用其他信号,如面部表情或语言对话等,采集便利,但区分能力弱容易伪装。使用多个模态数据融合的情绪识别研究正越来越得到关注。国际上不同实验室的研究结果表明,同时采集的不同模态的信号反映了情绪的不同侧面。因此,使用多模态数据融合的方法进行情绪识别,可以大大提高情绪识别系统的准确率。
目前,多模态数据融合的情绪识别方法,针对采用的各种模态的数据,设计了各式各样的多模态数据融合情绪识别模型。然而,尽管目前有很多种多模态数据融合的情绪识别神经网络模型,但大多模型的设计依赖于某个模态数据本身,无法变更为其他模态。此外,大多数模型的设计依赖于模态数量,无法根据实际情况增减模态数量。
实现思路