本技术涵盖一种语音识别系统的重评分技术、相关设备、电子装置以及存储介质。该技术包括识别语音输入对应的文本长度,若为长文本,则进行特定的处理流程;若为短文本,则执行另一套流程。
背景技术
利用语言模型的重打分rescore技术是业内很流行的做法,语言模型会针对初遍解码拿到的Nbest结果,重新计算识别文本串的联合概率,进行二遍打分rescore,返回最优结果。
目前的语言模型重打分技术,是将识别文本串作为一句话,随着解码的进行,即时地更新分数。但是在长音频识别中,识别结果是由很多句话组成的,如果仍然将其看作一句话进行的打分就不合适了,尤其是在句子边界处,概率的跳转会显得非常突兀,不合常理,从而会影响系统的重打分效果和最终的识别准确率。
比如,“<s>今天天气怎么样我还不是很确定</s>”这句话,从语言层面来讲,是不如“<s>今天天气怎么样</s><s>我还不是很确定</s>”更合适的。其中,<s>表示句子开始,</s>表示句子结束。针对长音频识别,在重打分时计算长文本概率出现的上述问题,目前业内尚无人进行研究和解决。
实现思路