本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品,该方法包括:提取待处理文本的文本特征,并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系,对该场景图像特征进行映射处理,得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征,生成与待处理文本相对应,且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素,在能传达预期信息的同时,还能准确反映场景图像所对应的场景,使得生成的语音更具沉浸感和真实感,在一定程度上提高了语音生成的效果。
背景技术
随着人工智能技术的飞速发展,将书面文字转换为用户可听语音的文本到语音(Text-to-Speech,TTS)技术已经成为人工智能技术中最重要的分支之一。TTS技术通过复杂的算法和模型,能够高效地解析输入的文字信息,并生成接近自然语言的语音输出,丰富了信息传递的方式,也增强了用户获取信息的便捷性。
目前,虽然TTS技术已经能够在一定程度上模仿人类说话的方式,如模拟说话者的情绪状态,生成能够反映特定情绪的语音,再例如根据不同情境自动调节语速、声调和重音。但是,TTS技术中的语音生成算法或者模型通常是基于中性或无混响环境设计的,使得通过这些算法或模型生成的语音缺乏真实感和自然感,生成效果较差。
实现思路