本技术涉及语音识别与评估技术,推出一种多任务学习框架下的英语发音训练系统与方法。该系统首先捕获并预处理英语发音音频,提取关键音频特征以形成深度特征向量。随后,系统运用预训练的自动发音评估模型对这些特征向量进行细致评估,覆盖音素、单词及句子层面。此外,系统还包含发音检测与诊断模型,用于音素识别和计算发音错误率。在训练阶段,系统通过联合优化发音评估与错误检测任务的损失函数,强化两者之间的相关性,从而提升发音评估的准确性。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
计算机辅助发音训练(CAPT,Computer-aided Pronunciation Training)技术是一种利用计算机和软件技术帮助第二语言学习者改进发音的工具。CAPT系统可以对学习者的发音进行评分和错误检测,从而帮助学习者纠正发音错误。CAPT系统主要由两个任务组成,分别是自动发音评估(APA,Automatic Pronunciation Assessment)和错误发音检测与诊断(MDD,Mispronunciation Detection and Diagnosis)。
作为CAPT的分支任务,APA和MDD也使用相似的方法,例如基于发音优度(GOP,Goodness of Pronunciation)特征的方法,基于预训练自监督学习模型的方法和基于深度特征的方法。但是基于GOP特征的方法需要先将声学特征输入到基于深度神经网络-隐马尔可夫模型的声学模型,得到目标音素的对数似然值。然后再将GOP特征输入到神经网络中进行学习,进而得到最终的评估分数。而使用基于预训练自监督学习模型的方法,可以将声学特征输入到微调后的预训练自监督学习模型来获得深度特征,然后把深度特征输入到评分头中预测得分。基于预训练自监督学习模型的方法在APA任务上的皮尔逊相关系数相比于基于GOP特征的方法来说要更高,并且由于用于语音评估的数据集规模普遍比较小,使用基于预训练自监督学习模型的方法在一定程度上可以解决训练数据量不足的问题。
自动发音评估的许多研究集中于对发音的音素进行评分,或者对单词的准确性、重音,句子的流畅性、韵律和完整性等进行单独建模。但是音素、单词和句子之间的声学特征是相互关联的,只对单一粒度进行建模无法充分利用一段语音中丰富的特征信息,并且在实际应用中,也需要有仅用一个模型就能评估多方面多粒度分数的方法。
错误发音检测与诊断是一种用于识别和分析第二语言学习者发音错误的技术,具体来说是一种音素识别任务,识别学习者的发音在音素级别上的发音错误,包括插入错误、删除错误和替换错误。
自动发音评估和错误发音检测与诊断在以往的研究中被视为两个独立的任务,但这两种任务之间存在着语言相关性,把它们分开处理不能全面地评估学习者的发音水平。
实现思路