本技术涉及人工智能技术领域,公开了一种基于流式匹配的歌声美化方法及系统,方法包括获取歌声数据和曲谱数据;从歌声数据中提取音色特征和音素后验概率图;根据曲谱数据和音素后验概率图,生成多维歌声表现力序列;根据多维歌声表现力序列、音素后验概率图和音色特征,生成语音梅尔谱;将语音梅尔谱输入声码器进行转换处理,得到经过美化后的歌声语音。本发明能够使输出的歌声语音在音准、音色和表现力上都得到优化,能够显著提升歌声的表现力和自然度,使生成的歌声质量更高,听感更加流畅以及富有表现力。
背景技术
随着深度学习技术的快速发展,歌声美化技术逐渐被应用于音频质量的提升,能够通过修正输入歌声的不足,使其更接近专业歌手的演唱风格。这类技术为歌声的自动修正和美化提供了新的解决途径,特别是在音高修正方面取得了一定成效,可以有效地解决音准偏差等问题,从而改善音频质量,使歌声听起来更加准确和悦耳。
然而,现有的歌声美化技术大多仅关注音高这一单一维度的修正,未能对歌声的表现力进行全面建模和优化。表现力包括音高、唱腔、张力、能量等多维参数,它们共同决定了歌声的自然流畅性和情感表达。由于忽略这些维度,生成的歌声虽然音准准确,但缺乏专业歌手演唱中的表现力与情感传递。此外,现有技术在生成过程中,表现力参数与歌声内容的时间步长动态关系缺乏一致性,导致美化后的歌声在情感表达上显得生硬、不自然,整体表现力较低,难以满足实际应用场景中对高质量歌声的需求。
实现思路