本技术方案涉及一种韵律特征驱动的并行语音合成技术及其相关装置、设备和介质,旨在提升语音合成技术的效果。该技术方案首先对目标语音文本进行正则化处理,随后并行地将正则化文本转换为合成语音,以实现高效且自然的语音输出。
背景技术
语音合成是指从文本中合成出可理解的、自然的语音,又称文本转语音(Text toSpeech,TTS)在人类通信中有着广泛的应用,一直是人工智能、自然语言和语音处理领域的热点研究课题。语音合成经历了三个发展阶段,分别是基于拼接的语音合成、基于统计参数的语音合成和基于神经网络的语音合成。随着深度学习的蓬勃发展,基于神经网络的语音合成得到了井喷式发展,语音合成的音质和自然流畅度都得到明显改善。目前基于神经网络的主流语音合成技术分为两类:自回归语音合成和非自回归语音合成。自回归语音合成的语音音质和流畅度高,但是由于其自回归结构导致合成速度较慢、鲁棒性较低,且会出现重复字和吞字的问题。目前,解决自回归语音合成慢的方法主要是通过将整句进行切片处理,从而达到并行的目的。但是,这种方法本质上还是自回归结构的语音合成,合成速度较慢,且没有从根本上避免鲁棒性低的问题。非自回归合成的速度较快且鲁棒性高,但是合成的语音音质和流畅度低。
本专利从实用角度出发,提出了一种基于韵律特征的并行语音合成方法及装置、介质、设备。首先,将待合成语音文本正则化;其次,将所述正则化语音文本并行转换为音素序列和音素韵律序列;然后,将所述音素序列和所述音素韵律序列利用声学模型预测其梅尔频谱图;最后,将所述梅尔频谱图利用HiFi-GAN声码器转换为所述待合成语音文本的语音信号。本专利融自回归语音合成和非自回归语音合成的优势,不仅能有效提升语音合成的音质、流畅度、速度和鲁棒性,而且能实现实时的高效语音合成。基于本专利开发的系统可广泛应用于人工智能领域的智能化语音合成,如智能客服、智能音响、语音播报、地图导航和有声读物等人机交互场景。
实现思路