非母语中文语音识别:偏移与卷积自适应技术
2025-01-14 15:33
No.1328748850869182464
技术概要
PDF全文
本技术介绍了一种融合偏移和卷积自适应技术的非母语中文语音识别方法与系统,属于语音识别技术领域。该方法包括:选择预训练模型,集成TBA(Token-Based Attention)模块和卷积自适应模块,构建非母语中文语音识别模型;利用此模型进行语音识别;TBA模块负责生成语音帧的重要性权重和偏置项,并将偏置向量传递至前馈层;卷积自适应模块将表示向量转换为特征加权向量。本发明通过结合TBA和卷积自适应模块,增强了模型对语音token重要性的理解,有效提取编码知识,提升了识别准确性和多语言环境适应性,特别是在非母语中文语音识别任务中效果显著。
背景技术
针对现有非母语口音数据稀缺、并且目前大多数模型的训练数据是以母语为主的标准发音,导致模型对非母语学习者的不同口音缺乏适应性。低资源语音识别是指在数据资源有限的情况下进行的语音识别研究。通常涉及到非主流语言或方言,其标注数据稀缺,难以用于训练强大的语音识别系统。 在这种背景下,研究者们尝试使用各种技术,如迁移学习、多任务学习、自监督学习等来提高系统的性能。例如,预训练模型如 wav2vec 2.0 和HuBERT 已经在多语言环境中显示出其对低资源语音识别的显著改进。 在低资源口音语音识别任务中,自监督预训练模型的微调可以带来性能提升。然而,传统的微调方法在计算资源上成本较高,且难以适应多任务学习场景,如个性化 ASR。为了解决这些问题,自适应微调方法应运而生。自适应微调通过在预训练编码器的各层之间插入轻量级的自适应模块,并仅更新这些模块的参数,从而避免了对编码器参数的大规模修改。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
周浩  王华珍  陈建国  马贺阳  戴朝
技术所属: 华侨大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利