本技术介绍了一种利用深度学习实现的昆曲自动合成系统。该系统包含曲谱特征提取和唱词文本特征提取两大模块,旨在自动提取昆曲曲谱和唱词的关键特征,实现昆曲的端到端合成。
背景技术
古老的昆曲作为中国传统戏曲文化的瑰宝,已有600多年的历史,被联合国教科文组织列为“人类口头和非物质文化遗产代表作”。昆曲以其优美的唱腔、细腻的表演艺术和独特的曲牌体制,在中国戏曲中占据重要地位。然而,昆曲的传承面临挑战,特别是在现代社会,年轻一代对于传统艺术的了解有限,戏曲艺术的传播急需借助现代技术手段进行创新与拓展。
随着计算机技术的发展,尽管语音合成、歌声合成已经取得了工业化落地的成果,戏曲合成仍然是一个未被广泛探索的课题,目前没有关于昆曲合成的研究,只有少数关于京剧合成的研究。研究人员通过模块化的方式,将发声、音高、节奏和韵律等因素逐一分解处理,这种多模块化的系统虽然能够生成戏曲音频,但由于各模块独立处理,未能有效协调,不能进行联合优化,容易出现误差累积现象,从而导致最终合成结果中韵律不够连贯,音高出现偏差,音质也难以达到人耳的高要求。这些研究中,目前缺乏对戏曲表演中假声音频的重建研究,而该音频与普通音频相比具有相对较低的音强、频率漂移以及更特殊的共振峰结构。
例如,《Beijing Opera Synthesis Based on Straight Algorithm and DeepLearning》论文,使用基于Straight算法的腔调控制模型和旋律控制模型合成京剧片段,如图1所示,该系统的输入是:①目标语音,A腔调A内容;②携带京剧文本的原始语音,B腔调B内容;③MIDI乐谱信息。腔调控制模型负责将两段输入语音转为新的目标语音,A腔调B内容,该新的目标语音和MIDI乐谱信息一起作为旋律控制模型,如图2所示,对京剧音频进行时长和基频F0的细粒度控制,合成京剧片段,最后将得到的若干片段进行拼接,得到完整合成的京剧。除了多模块的误差累积之外,该方法中京剧文本并不是以文本格式输入模型的,而是以若干原始语音进行输入以方便模型进行腔调控制,依赖于庞大的语音数据库和精细的拼接技术,容易出现拼接不自然、声学不连贯等问题。虽然Straight算法可以对基频F0和频谱包络等语音参数进行修改,提高语音合成的风格灵活性,但生成的语音往往缺乏自然性,声音听起来较为机械,存在“机器人音”的问题。
实现思路