本技术介绍了一种融合偏移和卷积自适应技术的非母语中文语音识别方法与系统,属于语音识别技术领域。该方法包括:选择预训练模型,集成TBA(Token-Based Attention)模块和卷积自适应模块,构建非母语中文语音识别模型;利用此模型进行语音识别;TBA模块负责生成语音帧的重要性权重和偏置项,并将偏置向量传递至前馈层;卷积自适应模块将表示向量转换为特征加权向量。本发明通过结合TBA和卷积自适应模块,增强了模型对语音token重要性的理解,有效提取编码知识,提升了识别准确性和多语言环境适应性,特别是在非母语中文语音识别任务中效果显著。
背景技术
针对现有非母语口音数据稀缺、并且目前大多数模型的训练数据是以母语为主的标准发音,导致模型对非母语学习者的不同口音缺乏适应性。低资源语音识别是指在数据资源有限的情况下进行的语音识别研究。通常涉及到非主流语言或方言,其标注数据稀缺,难以用于训练强大的语音识别系统。 在这种背景下,研究者们尝试使用各种技术,如迁移学习、多任务学习、自监督学习等来提高系统的性能。例如,预训练模型如 wav2vec 2.0 和HuBERT 已经在多语言环境中显示出其对低资源语音识别的显著改进。
在低资源口音语音识别任务中,自监督预训练模型的微调可以带来性能提升。然而,传统的微调方法在计算资源上成本较高,且难以适应多任务学习场景,如个性化 ASR。为了解决这些问题,自适应微调方法应运而生。自适应微调通过在预训练编码器的各层之间插入轻量级的自适应模块,并仅更新这些模块的参数,从而避免了对编码器参数的大规模修改。
实现思路