本技术方案介绍了一种高效的声音转换模型更新及应用方法,属于计算机技术领域。该方法能够显著减少采集新音色样本音频所需的时间和成本。具体步骤包括:步骤A:利用现有声音转换模型进行初步处理;步骤B:通过优化算法对模型进行微调,以适应新的音色需求;步骤C:将更新后的模型应用于实际声音转换任务中,实现高效的声音转换效果。
背景技术
目前,基于声音转换(voice conversion,VC)算法训练得到的声音转换模型,可实现在语义内容不变的情况下对音色的转换。比如,基于VC算法训练得到的声音转换模型可实现将动漫人物A的声音转换为动漫人物B的音频,但原始声音中所具备的韵律信息(如顿挫、重读、语速等)却无法进行灵活调整。
由于在训练声音转换模型的过程中无法采集所有可能的音色的音频,所以声音转换模型难以实现对任意音色的转换功能,并且对于训练音频数据需要原始音色和目标音色内容一致或者对于训练数据的语义范围有限制,训练数据量大,成本高。
现有的,当需要增加新的目标音色的转换功能时,需采集新音色的样本音频重新对声音转换模型进行更新,以使更新后的声音转换模型支持对新音色的转换功能。然而,现有在对声音转换模型进行更新时,需要花费大量的时间和成本采集较多的新音色的样本音频。
实现思路