本技术介绍了一种融合改进评分矩阵和卷积增强自注意力机制的语音识别系统。系统通过集成新的关系计算模块(RCM),对传统的注意力恢复解码方法进行优化,以提高语音识别的准确性和效率。RCM专注于降低计算复杂度,同时提升识别性能。
背景技术
语音识别技术是将语音信号转换成计算机可以识别的格式的技术。它可用于各种应用程序,包括语音助手,语音搜索,语音到文本注释和翻译。传统的语音识别方法依赖于声学特征和语言模型来匹配语音信号与预定义的模式。然而,它们与复杂的语音信号和不稳定的语音变化作斗争,并且需要大量的人工特征,限制了它们在不同语音信号中的泛化能力。随后,隐马尔可夫模型对语音信号进行建模,并将其与发音词典和语言模型相结合以进行识别。
Conformer-Transformer模型是常用的语音识别体系结构。在训练期间,采用包括CTC和注意力的联合损失。此外,推理过程利用注意力重新评分(AR)。
但是它的Conformer编码器更复杂,只关注深度特征。在AR解码器的解码过程中,许多错误解码的结果被输入到注意力模型中。在自回归过程中,注意力模型会累积误差,从而导致误差累积问题。
实现思路