本技术方案聚焦于生物特征识别领域,提出了一种GTCN驱动的实时语音情感分析方法及相应的应用设备。该方法通过以下步骤实现:首先,收集虚拟现实交互式语音游戏玩家的语音样本,并进行预处理,包括端点检测、分帧和加窗;其次,提取处理后的语音数据特征作为模型输入;然后,利用GTCN模型对输入数据进行训练,以识别语音中的情感;最后,根据模型的情感分类结果与识别对象进行交互。该技术相较于传统方法,在多个数据集上展现出更高的准确率和鲁棒性,同时在训练效率和内存占用方面具有显著优势,是一种高效且稳定的语音情感分析解决方案。
背景技术
语音是人类最常用、最有效、最方便的交流方式。人们通过声带发声除了表达基本的语意信息以外,还表达了说话人的情感以及情绪等信息,这些包含在语音信号中的情感信息是一种很重要的信息资源,是人们感知事物必不可少的信息之一。而语音情感识别作为实现智能化人机交互的关键技术,在很多领域中都有着广泛的应用,本发明则主要着眼于虚拟游戏的语音交互场景。
虚拟现实(VR)在游戏开发中开辟了令人兴奋的新领域,为日益逼真的、身临其境的交互式游戏体验铺平了道路。而情感又是游戏体验当中的核心部分。因此,游戏开发者必须做大量的猜测,时刻了解玩家的情绪变化,为了更好地帮助游戏设计师完成这一任务,可以通过结合计算机干预,以人机交互的方式帮助游戏设计师捕捉游戏玩家的情感。在虚拟现实交互式语音游戏玩家与游戏互动的过程中,可以借助可穿戴式设备,及时捕获玩家们语言表达中情感的变化,即进行实时的语音情感识别,将游戏玩家的情感状态实时反馈给游戏设计师,游戏设计师们就可以发现了解玩家的情绪类别和强烈程度,并据此调整游戏维度,与玩家进行双向交流。
语音情感识别技术发展至今,其中依然存在一些不足。首先,国内语音情感识别的研究仍处于初级阶段,并且由于语音的复杂性以及语言的多样性,研究的过程中并未存在数量较多且高质量的游戏语音数据库。其次,由于有些时候语音情感与所处的情绪状态并不是一一对应的,某些情绪并不通过可视的情感语音变化表现出来,即使人类自身也很难准确地仅通过语音理解一个人的情绪状态,往往需要借助于当时特定的游戏情景以及游戏剧本上下文信息,这便对使用计算机进行语音情感识别的研究提出了挑战。最后,目前情感识别方法虽然种类繁多,但是不同方法各有优劣。最高效、最稳定的识别方法仍需要进一步研究:例如对于处理高维数据的情况,卷积神经网络(CNN)能够共享卷积核并自动进行特征提取的特点显示出了独特的优势,但与此同时,池化层不仅会丢失大量有价值的信息,破坏时间序列的时序性,而且只关注于信息的局部特征,这使得CNN对学习时间序列的过程具有普遍性的影响;而对于时间序列敏感的问题和任务,长短时记忆网络(LSTM)、门控循环单元网络(GRU)等循环神经网络通常更合适。但是,在处理一些时间依赖性在时间轴上跨度比较大的任务时,这些网络都有着一定的局限性,即无法解决长期依赖的问题,并且由于受到传统循环神经网络(RNN)的结构限制,网络无法进行大规模的并行处理,网络训练和验证的时间耗费都比较大。因此,目前的语音情感识别存在着样本缺乏和识别难度大的问题。
实现思路