本技术介绍了一种数字人驱动的多情感语音合成技术,涉及以下关键步骤:首先收集不同情感状态下的音频样本;其次从这些样本中提取文本和音素时间戳,形成训练数据集;接着利用这些数据集进行模型训练,最终实现情感丰富的语音合成。
背景技术
目前,传统的语音合成声音虽然可以消除机械音,让人很难分辨是真人发声还是合成的声音,但是同样的文本只有单一的情绪。针对不同情绪的语音合成,往往是通过不同的模型,来用不同的音频语料来分别训练获得对应情感的音频。这样不仅需要大量的音频语料,而且不同情感之间的切换也会表现出机械感,在数字人这种高度拟人化的语音交互中,难以令人满意。在多情感语音合成方面,虽然没有误码率这样硬性的指标,但是也和语音识别等语音任务一样面临相似的问题。语音合成虽然可以将需要合成语音的文本合成对应的音频,但是其情感丰富度还是达不到想人类那样的水平。而这一点在数字人语音交互中显得格外重要。
普通的深度学习模型,例如tacotron,是基于统计模型来实现语音合成,往往一个模型只能训练出一种情绪的语音合成系统,要实现多情感表达需要在不同情感模型之间来回切换。这样不仅需要用大量语料来训练,而且在不同的语音模型之间来回切换会造成严重的机械感。不仅如此,通过不同情感语音模型合成的声音无法对情感进行连续建模,即所表达的情感非此即彼,没有一种中间的柔和的情感表达方式。直接把不同的情感音频语料加上情感标签丢进一个模型中训练,则会造成合成的语音不符合人们正常表达情感的韵律特征,即抓不住应该重音表达的词,从而听起来非常奇怪。
在训练语料中加入韵律标签可以缓解上述问题,但是为语料打标签是一个繁琐的过程,需要大量人工审核才能有一个较好的结果。不仅如此,在实际的语音交互中,也需要对要合成的文本进行韵律标注,系统变得复杂,而且标注不对很可能影响最终的合成效果。
因此,如何提供一种基于数字人的多情感语音合成方法是本领域技术人员亟需解决的问题。
实现思路