数字人驱动的多情感语音合成技术
2025-02-09 11:26
No.1338108823285800960
技术概要
PDF全文
本技术介绍了一种数字人驱动的多情感语音合成技术,涉及以下关键步骤:首先收集不同情感状态下的音频样本;其次从这些样本中提取文本和音素时间戳,形成训练数据集;接着利用这些数据集进行模型训练,最终实现情感丰富的语音合成。
背景技术
目前,传统的语音合成声音虽然可以消除机械音,让人很难分辨是真人发声还是合成的声音,但是同样的文本只有单一的情绪。针对不同情绪的语音合成,往往是通过不同的模型,来用不同的音频语料来分别训练获得对应情感的音频。这样不仅需要大量的音频语料,而且不同情感之间的切换也会表现出机械感,在数字人这种高度拟人化的语音交互中,难以令人满意。在多情感语音合成方面,虽然没有误码率这样硬性的指标,但是也和语音识别等语音任务一样面临相似的问题。语音合成虽然可以将需要合成语音的文本合成对应的音频,但是其情感丰富度还是达不到想人类那样的水平。而这一点在数字人语音交互中显得格外重要。 普通的深度学习模型,例如tacotron,是基于统计模型来实现语音合成,往往一个模型只能训练出一种情绪的语音合成系统,要实现多情感表达需要在不同情感模型之间来回切换。这样不仅需要用大量语料来训练,而且在不同的语音模型之间来回切换会造成严重的机械感。不仅如此,通过不同情感语音模型合成的声音无法对情感进行连续建模,即所表达的情感非此即彼,没有一种中间的柔和的情感表达方式。直接把不同的情感音频语料加上情感标签丢进一个模型中训练,则会造成合成的语音不符合人们正常表达情感的韵律特征,即抓不住应该重音表达的词,从而听起来非常奇怪。 在训练语料中加入韵律标签可以缓解上述问题,但是为语料打标签是一个繁琐的过程,需要大量人工审核才能有一个较好的结果。不仅如此,在实际的语音交互中,也需要对要合成的文本进行韵律标注,系统变得复杂,而且标注不对很可能影响最终的合成效果。 因此,如何提供一种基于数字人的多情感语音合成方法是本领域技术人员亟需解决的问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
梁晨阳
技术所属: 北京中科深智科技有限公司.
相关技术
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
基于分布式光纤声波传感系统的语音增强方法 基于分布式光纤声波传感系统的语音增强方法
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
基于多子带生成策略的语音合成系统、方法、介质及设备 基于多子带生成策略的语音合成系统、方法、介质及设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利