本技术提供了一种配音音频分析技术,包括获取配音演员的音频数据,分析生成对应的声谱图,并利用预设参数对声谱图进行匹配分析,以优化配音效果。该技术可应用于电子设备和存储介质,提升音频处理的准确性和效率。
背景技术
什么是口水音:声音工作者(声优、播音员、配音员、歌手等)在高精度的录音或者配音时,口腔内舌头与其它部位产生碰撞、摩擦,形成泡泡,泡泡破裂或配音员吞口水产生的声音,就是口水音。口水音是困扰声音工作者的一个永恒话题,大多数相关从业人员都有这样的情况。口水音对于声音工作者来说影响非常大的,从效果上来讲会影响录音培训的效果,一致达不到录音要求;从工作结果来讲,大量的口水音会导录音工作的返工,扣除费用,对于演员以及工作室的能力产生负面影响。在人工智能相关的工作中,口水音会影响TTS语音的训练效果,曾经在训练某TTS音色时,由于训练音频存在大量口水音,导致效果不佳,被迫重新进行录制的情况,浪费大量时间。因此,对于录音棚来说,如何在录制时第一时间发现口水音并重新录制;对于AI公司来说,如何在拿到音频后快速筛查音频文件是否口水音太多影响模型训练,将变得尤为重要。与此同时,除了口水音,对于专业语音工作者来说,还有齿音、气泡音、呼吸音等各种声音问题。
目前解决该类问题的方法,是通过一个有经验的录音师或者语音分析技术人员,对于录音文件进行筛查,主要是通过听录音结合语音中可能存在的异常点查看声波信息,找到对应的问题点。然后安排后续的补录重录,进行录音筛查的人员必须具有很强的专业知识进行分辨。但是,针对大量的音频,一遍一遍听过来会浪费大量的时间,消耗人力人工进行筛查,无法准确找到所有的问题,在实际的配音录音工作中,录音/配音当时找到声音问题并现场重新录制是最快的,后续再发现耗时费力。
实现思路