本技术方案专注于语音识别领域,提出了一种结合注意力机制与边界检测的流式语音识别方法。该方法首先对音频进行分割处理,提取特征生成对数梅尔频谱图,随后利用非流式模型进行处理,以实现高效的语音识别。
背景技术
自动语音识别技术通过将音频信号转录为文字内容,在科研和日常生活中扮演着重要角色。流式语音识别能够在音频流输入的过程中实时输出转录文本。而基于Transformer的语音识别模型,是将音频信号一次性转换为向量表示,然后通过解码器(Decoder)模块进行自回归解码。这类模型在非流式语音识别任务中表现出色,但用于流式语音识别时效果不佳,并且会消耗更多的计算资源。
一些传统方法为解决非流式模型在流式识别中的挑战,采用局部转录策略。通常是将音频分成小片段,模型对这些片段分别进行转录,并寻找多个片段转录内容中的最长公共前缀。虽然这类方法无需修改模型的参数和结构,且能实现较为有效的流式语音识别,但其在控制转录延迟性和不确定性上表现较弱,同时也带来了较大的计算开销。
在语音翻译领域,非流式模型的流式翻译同样是一个关键挑战。一些研究方法聚焦于Transformer模型中的注意力机制,以此来控制解码时机,判断音频帧的最大注意力权重是否接近音频片段末尾,或在末尾帧的注意力权重达到某个阈值。这种方式也可以应用于语音识别领域。相比于局部转录策略,基于交叉注意力的解码策略能够降低转录的延迟性。
然而,基于注意力机制控制解码的方式往往关注最大注意力权重的位置,但这种做法存在一定的准确性问题。仅关注最大注意力权重可能会忽略背景噪声,并导致模型陷入局部不稳定的区域。因此,应该扩展到更广域的权重值进行考量。此外,转录结果的可靠性也不完全保障。多个音频片段可能会切割一个完整单词,此时需要通过单词边界检测机制来防止这种情况发生。如果解码过程中出现过早停止的情况,边界检测也可以帮助纠正解码时机。一些方法通过线性层或循环神经网络(RNN)来检测转录内容的边界,但在处理复杂音频时,这类方法的表现欠佳,效率较低。同时,转录内容的不可靠性也会影响边界检测的效果。
实现思路