本技术方案专注于语音处理技术,旨在开发一种创新的乐谱生成技术,包括相应的装置、电子设备和存储介质。该技术通过音频数据的文本识别功能,精确提取音频中的文本信息,并据此生成乐谱。
背景技术
目前,将歌声转换为乐谱的处理技术可以应用到多种不同的场景中,例如,可以应用到训练歌声合成模型的场景中。
相关技术中,在将歌声转换为乐谱时,通常采用数字信号处理的方法,计算得到帧级别音频数据的音高信息,通过平滑估计取平均数等后处理,进而从音频数据中提取出旋律序列。
然而,相关技术中,由于从音频数据中提取出的旋律序列仅包含音符的音高信息,因此,若音频数据为人声歌声时,仅能提取出的旋律序列,但无法得到与人声对应的演唱文字/歌词内容,从而会降低生成的乐谱的丰富程度和完整程度。
实现思路