本申请实施例提供了一种语音识别系统的训练方法和装置、语音识别方法和装置,应用于语音识别技术领域。该方法包括:对目标说话人的音频数据进行关键特征提取,得到音频数据的声学特征;根据声学特征和预设的训练样本集,提取训练样本集的声纹特征;将声学特征和声纹特征合并,得到融合声纹特征;基于训练样本集和融合声纹特征训练声学模型的卷积神经网络模块,得到训练后的声学模型;依据训练样本集对已构建的语言模型进行训练,得到训练后的语言模型。本申请实施例实现了声纹特征自适应的语音识别系统的训练,解决了现有技术语音识别准确率不高的问题。
背景技术
语音识别就是让机器通过识别和理解过程,完成语音到文字 的转换。当人与人交流时,往往是根据上下文提供的信息猜测对 方所说的是哪一个单词,还可以根据对方使用的音调、面部表情 和手势等来得到很多信息。特别是说话者会经常更正所说过的话, 而且会使用不同的词来重复某些信息。显然,要使机器像人一样识别语音是很困难的。
一个完整的基于统计的语音识别系统可大致分为三部分:语 音信号预处理与特征提取、声学模型与模式匹配、语言模型与语 言处理。其中,声学模型训练依赖大量的音频语料,而且语料需 要涵盖尽量多的人群,尽量多的音频素材,以提升识别效果。
现有技术中,仅获取音频语料的MFCC或FBANK特征对声 学模型进行训练,但是由于训练样本集中说话人的差异,对应的 特征也有很大的不同,上述差异对训练过程的干扰较大,影响语 音识别的准确率。
实现思路