本技术涉及一种情绪导向的音频合成技术及其训练系统。该技术涵盖:采集与单一情绪关联的第一音频数据和与多种情绪关联的第二音频数据;从第一音频数据中提取特征,并利用这些特征训练音频生成模型,以实现基于情绪的音频合成。
背景技术
情绪在人类感知和互动中起着至关重要的作用。在音频领域,语音和音乐的情感识别及生成在人机交互应用和推荐系统中非常有用。因此,语音和音乐情感识别和生成已经取得了重大进展。与语音和音乐类似,情感识别和一般声音(如自然声音和音效)的生成在智能环境中也有潜在的应用,可以创造情感一致的音景,丰富虚拟现实和游戏中的用户体验。现有的音频生成模型主要侧重于生成满足特定条件的高质量音频,例如使用Diffsound、audio LDM、和Tango。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
现有技术这些模型以质量为重点,能够接收输入文本,然后根据输入的文本信息生成相应的音频。但文本如果指定特定的情绪,则无法输出对应情绪的音频。这主要由于训练数据中没有关注到情绪与音频的对应关系,对于一种特定的声音事件,它可能只对应一种情绪,也可能对应多种情绪。
实现思路