语音分类技术:利用对齐与自适应融合的创新方法
2025-01-01 21:16
No.1324124134887923712
技术概要
PDF全文
本技术介绍了一种创新的语音分类技术,该技术通过语音语料对齐和自适应融合实现高效分类。首先,构建并划分语音分类数据集为训练集与测试集。接着,设计包含对齐构造模块的语音分类网络模型,该模型能够处理语音关联性并提升分类准确性。
背景技术
语音分类对于企业了解用户真实情况、构建用户画像具有重要意义。传统的语音分类方法以高斯混合模型、隐马尔科夫模型为主,随着计算机技术的发展,通过深度网络进行语音分类被视为一种新的、可行的、高效的方法。现有方法通常将长信号划分为多个片段并独立送入网络参与训练,或是将语音等距离切割后分别提取特征再送入RNN、LSTM等时序模型。将属于同一语音信号的多个片段作为独立样本的做法忽视了完整语音中不同时间段信号间的相互联系,并且存在部分与语音分类无关的片段,将对模型的优化产生负面干扰;等距离切割获取片段则会导致连贯的发音被强行拆分,并且亦会受到无关片段的干扰。 因此,本发明提出了一种基于语音语料对齐与自适应融合的语音分类方法,旨在充分利用语音的各部分,降低无关信息对语音分类的负面影响,在样本各部分间构建关联性,自适应的从长序列信号中提取出与语音分类相关程度高的信息。首先,基于语音对齐技术对原始语音进行划分并在各片段上独立获取隐层特征,以保证不同样本相同位置片段内容一致,降低内容差异带来的影响;其次,使用注意力机制对不同片段以及完整语音间的关系进行建模,以充分利用不同粒度的信息;最后,通过挖掘各片段对分类结果的重要程度,降低语音无关部分对分类效率的影响。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
孙玉宝  沈心旸  李军侠  刘青山
技术所属: 南京信息工程大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利