本技术提供了一种高效字级时间戳生成技术,适用于电子设备和存储介质。该技术在帧解码过程中识别每个字的概率峰值,并据此确定每个字的尾端点对应的时间戳,以实现精确的时间标记。
背景技术
传统基于kaldi的语音识别系统能够基于网格得到每个词的边界信息。而目前业界流行的端到端语音识别系统,虽然在识别率方面,超过了传统系统,但是很多没有提供时间戳信息,或者只是给出了很粗糙的时间戳如直接根据神经网络打分判断词的边界信息,目前还没有一套相对成熟的算法能够获得每个字的时间戳信息。
实现思路