本技术涵盖一种创新的语音识别技术,包括方法、装置、计算机设备和存储介质。该技术通过整合待识别语音的当前帧及其历史帧,将它们划分为第一分块,以实现更精准的语音识别。
背景技术
自动语音识别(automatic speech recognition,ASR)指的是将语音转录为文本的技术。在实际生产生活环境中,一个功能良好的语音识别系统不仅需要有较高的识别准确率,还需要有较低的识别延迟,即需要语音识别系统在用户讲话的过程中同步进行识别,而不是等到用户讲完后再开始识别。
为了实现同步识别,目前的语音识别系统都采用分块模型,也就是说,一句话会被划分为多个分块后进行识别。为了提高分块识别的准确率,目前的语音识别方法中会为每个分块附加一定的历史帧和未来帧,以提供该分块的上下文信息。
然而,现有的基于分块模型中的语音识别方法中,必须等到一定数量的未来帧到达后再能开始识别,从而增加了识别的延迟时间。
实现思路