多域声学特征融合技术在说话人识别中的应用
2025-02-12 16:22
No.1339270426085564416
技术概要
PDF全文
本技术提出了一种创新的说话人识别技术,该技术通过多域声学特征的融合来提高识别准确性。具体方法包括:首先,收集待识别的语音样本;其次,对每个语音样本进行频谱图和分数频谱图的提取;然后,对这些特征图进行滤波处理,以增强特征的区分度;最后,将处理后的特征进行融合,以实现更准确的说话人识别。该方法能够有效提升说话人识别系统的性能,适用于多种应用场景。
背景技术
说话人识别是一种生物识别技术,可以确定注册和测试话语是否属于同一个说话者,已被广泛应用于金融支付、电信反欺诈、刑事调查等领域。现有性能表现优秀的说话人识别方法主要关注说话人嵌入模型的构建和优化,如Thin-ResNet、ECAPA-TDNN和MFA-conformer等。 而在整个说话人识别任务中,需要在训练说话人嵌入模型之前从输入话语中提取声学特征。然而,目前最好的说话人识别方法中使用的声学特征大多数是将时域信号转换为时频域信号,如梅尔频率倒谱系数(MFCC)或滤波器组(FBank)。还有其他常见的时频域的声学特征,如线性预测编码(LPC),感知线性预测(PLP),基于子带的倒谱系数(SBC),以及小波变换特征。也有一些直接使用语音数据的原始波形来训练说话人识别模型。 但是,目前针对说话人识别(SR)任务的声学特征研究和探索相对有限,现有方法仅利用了时域或频域的部分信息,而时域和频域之间的很大一部分信息尚未被利用。在这未被利用的信息中,可能也包含了与说话人特征相关的信息。如果能够充分挖掘这些信息来构建更优的声学特征,那么也将显著提升说话人识别方法的效果。 研究指出,分数域能够表征时域与频域之间的信息。类似于通过傅里叶变换(FT)获得的频域信号,分数域信号可以通过分数傅里叶变换(FRFT)获得。在时频平面上,若将水平轴视为时间轴,垂直轴视为频率轴,传统的傅里叶变换可被视为信号从时间轴逆时针旋转90度到频率轴的过程。而FRFT能够以任意角度进行旋转,因此它被视为FT的一种广义形式。通过调整旋转角度,FRFT增强了传统FT的应用范围,使其能够应对更多样化的信号处理问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
姚姗姗  李田
技术所属: 山西大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利