多模态语音情感分析:预训练模型应用与系统构建
2025-02-05 12:07
No.1336669515291041792
技术概要
PDF全文
本技术介绍了一种创新的多模态语音情感识别技术,该技术依托于预训练模型,通过以下步骤实现:首先,收集包含文本和音频配对的数据集;其次,利用这些数据对进行模型训练;最后,实现情感识别。该方法能够提高情感识别的准确性和效率。
背景技术
情感识别的过程一般涉及数据集收集、预处理、特征提取、模型开发和评估等阶段,其中特征提取与混合是任务模型设计的核心环节。在传统的语音情感识别中,无论是采用基于物理信号变化的频谱特征、韵律特征、梅尔频率倒谱系数,还是GeMAPS、LLDs等基于统计的特征,这些方法通常面临情感语义表达不足的问题。而在文本特征提取方面,基于预训练的语言模型(如BERT)已经逐渐取代了传统的word2vector,Bow等方法。 现有的语音情感识别方法及系统依然存在诸多缺陷: 1.参与融合的特征本身来自于一些过时的传统方法,本身语义有限。 2.模型混合策略过于简单,没有考虑到到多模态特征之间的相关性 3.有的模型虽然使用了注意力机制来希望模型关注到指定的信息,但往往忽略了不同层次特征之间的关联性,导致模型的情感分析能力不强。 4.当前已有的融合模块侧重于关注于不同模态的特征之间的相关性,而没有一个主导的特征在模型的特征的融合过程中充当导向作用。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
徐海涛  叶成龙  陈婧  肖皓予
技术所属: 杭州电子科技大学
相关技术
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
基于分布式光纤声波传感系统的语音增强方法 基于分布式光纤声波传感系统的语音增强方法
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
基于多子带生成策略的语音合成系统、方法、介质及设备 基于多子带生成策略的语音合成系统、方法、介质及设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利