多模态语音情感分析：预训练模型应用与系统构建

123技术园

首页 / 技术内容

2025-02-05 12:07

No.1336669515291041792

技术概要

PDF全文

本技术介绍了一种创新的多模态语音情感识别技术，该技术依托于预训练模型，通过以下步骤实现：首先，收集包含文本和音频配对的数据集；其次，利用这些数据对进行模型训练；最后，实现情感识别。该方法能够提高情感识别的准确性和效率。

背景技术

情感识别的过程一般涉及数据集收集、预处理、特征提取、模型开发和评估等阶段，其中特征提取与混合是任务模型设计的核心环节。在传统的语音情感识别中，无论是采用基于物理信号变化的频谱特征、韵律特征、梅尔频率倒谱系数，还是GeMAPS、LLDs等基于统计的特征，这些方法通常面临情感语义表达不足的问题。而在文本特征提取方面，基于预训练的语言模型(如BERT)已经逐渐取代了传统的word2vector，Bow等方法。现有的语音情感识别方法及系统依然存在诸多缺陷: 1.参与融合的特征本身来自于一些过时的传统方法，本身语义有限。 2.模型混合策略过于简单，没有考虑到到多模态特征之间的相关性 3.有的模型虽然使用了注意力机制来希望模型关注到指定的信息，但往往忽略了不同层次特征之间的关联性，导致模型的情感分析能力不强。 4.当前已有的融合模块侧重于关注于不同模态的特征之间的相关性，而没有一个主导的特征在模型的特征的融合过程中充当导向作用。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

徐海涛叶成龙陈婧肖皓予

技术所属：杭州电子科技大学

相关技术

神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
本申请实施例提供一种神经网络的训练方法、语音降噪方法、计算机程序产品、设备及存储介质。在训练神经网络时，可以对神经网络的网络参数进行位宽截断处理，利用位宽截断处理后的网络参数确定的降噪参数的准确度，以及位宽截断处理对网络参数本身的影响作为神经网络训练过程中的约束，从而可以最小化位宽截断处理对数据精度的影响，训练得到轻量级且性能较好的语音降噪神经网络，使得该轻量级的语音降噪神经网络可以部署到低性能的语音采集设备中。
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
本申请公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。
一种高效文字转语音的方法及系统  一种高效文字转语音的方法及系统 
 本申请提供一种高效文字转语音的方法及系统。其中，接收用户输入的文本信息，识别并分析所述文本信息中的情感色彩和语气特征；根据所述情感色彩和所述语气特征，从预先构建的情感语音库中选择相匹配的基础语音片段的数据集；利用动态时间规整算法调整所述基础语音片段的时间轴，使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性；采用频谱融合技术，将调整后的时间轴与所述文本信息的音素序列进行融合，生成语音输出，其中，所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性，从而大幅提升了用户体验。
一种用于智慧呼叫的语义识别方法及系统  一种用于智慧呼叫的语义识别方法及系统 
 本发明涉及语音识别技术领域，具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本；进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征，获取目标用户呼叫与每类答案文本的匹配系数，确定目标用户呼叫对应的答案文本类别；进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征，目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间，以及相邻呼叫语句的相似特征，结合匹配系数，从多个方面准确评估系统对于目标用户呼叫的修正识别效率，使得系统能够及时发现识别效率的瓶颈，从而针对性地对系统进行优化，提升系统的智能化水平。
基于分布式光纤声波传感系统的语音增强方法  基于分布式光纤声波传感系统的语音增强方法 
 本申请公开了一种基于分布式光纤声波传感系统的语音增强方法，涉及语音增强技术领域。本申请中构建的语音增强网络包括编码器模块，编码器模块的输出端依次连接第一个Reshape层、第一个TCNS模块、第二个TCNS模块、第一个GRU模块、第二个GRU模块、第二个Reshape层以及Add层，编码器模块的输出端还与Add层的输入端连接，Add层的输出端连接解码器模块，编码器还与解码器相连接；本申请中解码器能够获得预测的增强的复数频谱，本申请所述语音增强方法得到的增强后的时域语音信号的时域波形在拟合度和相似性上会显示出更少的噪音成分，而且也具有更多的与原始语音信号相同的语音特征。
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
本申请实施例提供了一种音频处理方法、装置、电子设备及介质，涉及云技术及人工智能技术领域。该方法包括:获取待处理音频；确定所述待处理音频的至少一个初始分段时间点；确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；根据各所述目标分段时间点，得到所述待处理音频的各音频片段；对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
本申请涉及一种定向拾音方法、装置、电子设备和存储介质，该方法包括:获取麦克风阵列；根据麦克风阵列确定麦克风接收信号、目标方向的延迟求和波束形成器权值；根据麦克风接收信号、目标方向的延迟求和波束形成器权值确定近端信号和远端信号；将近端信号和远端信号输入自适应对消滤波器输出自适应滤波器输出信号；VAD检测自适应滤波器输出信号，若检测结果为检测到语音，则进行缓存得到缓存语音信号；计算缓存语音信号的整体波达方向；判断缓存语音信号的整体波达方向是否在拾音区内，根据判断结果对缓存语音信号进行处理。本申请引入自适应滤波器实现对干扰噪声的强力抑制，结合整体的波达方向，判断识别结果是否有效，使误识别得到大幅抑制。
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
本申请涉及一种语音识别系统的重打分方法、装置、电子设备和存储介质，该方法包括:判断待识别语音对应的文本是长文本还是短文本；若判断结果为待识别语音是长文本，对长文本进行断句得到多个短文本；分别确定多个短文本中每个短文本的重打分结果；将每个短文本的重打分结果进行求和得到长文本的重打分结果。本申请通过在重打分阶段的即时解码过程中，来判断待识别语音对应的文本中的当前字是否是一个句子的结束，若当前字是一个句子的结束对长文本进行断句得到多个短文本，分别确定每个短文本重打分结果然后短文本重打分结果确定长文本的重打分结果，从而能够拿到更准确的语言模型打分，提高重打分的准确性，进而提升整个识别系统的识别率。
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
本申请涉及语音处理技术领域，具体涉及一种语音辅助阅卷的声音智能识别方法及系统，该方法包括:采集语音辅助阅卷中的语音信号；获得语音信号的基音周期谱图的所有连通域；确定基音周期谱图中每个连通域对应的基音周期轨迹的虚假程度，以获取语音信号的浊音段语音信号集合和非浊音段语音信号集合；确定非浊音段语音信号集合内每帧语音信号的清音疑似度，以获取语音信号的清音段语音信号集合；确定双门限端点检测算法的短时能量高门限值、短时能量低门限值和短时平均过零率门限值，确定语音识别结果。本申请可提高对语音辅助阅卷中语音识别的准确性。
基于多子带生成策略的语音合成系统、方法、介质及设备  基于多子带生成策略的语音合成系统、方法、介质及设备 
 本发明实施例公开了一种基于多子带生成策略的语音合成系统、方法、介质及设备，系统包括:预处理模块，用于将文本转化为音素序列，将对应的语音通过短时傅里叶变换转化为线性频谱；后验编码器模块，用于将线性频谱转化为后验分布，根据后验分布中的均值和标准差进行采样得到潜在变量；转换层模块，用于将潜在变量转换为采样数据；先验编码器模块，用于将音素序列提取为深度特征，将深度特征映射为先验分布；发音时长推测模块，用于将先验分布与采样数据对齐，获取对齐矩阵，根据深度特征和对齐矩阵通过编码获取发音时长分布；解码器模块，用于将先验分布依据发音时长分布采样为多子带信号并合成为语音波形信号，实现了文本到语音的直接映射。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工