本申请实施例公开了一种音频处理方法、模型训练方法及装置、设备、存储介质、产品。音频处理方法包括:在本申请实施例中,获取待配乐的动作视频所对应的节奏条件向量和动作视频的参考和弦,基于节奏条件向量,对噪声数据进行节拍维度的降噪处理,得到动作视频的预测节拍,基于节奏条件向量和参考和弦,对噪声数据进行和弦维度的降噪处理,得到动作视频的预测和弦,对预测节拍和预测和弦进行融合,得到动作视频的配乐。可见,通过不同的约束条件分别对配乐的节拍及和弦进行降噪处理,可以解耦配乐的预测过程,使得节拍及和弦的预测过程更具针对性,进而提高动作视频的配乐的质量。
背景技术
随着科技研究的进步,人工智能模型的相关技术飞速发展。越来越多的人工智能模型被应用在生活中的各个领域;例如,生成式模型被应用在音频生成领域,判别式模型被应用在人脸识别领域等。在音频生成领域,音频生成模型可以根据视频,生成相应的配乐。研究发现,当待配乐的视频为动作视频时,音频生成模型生成的配乐的质量较低(如配乐节奏与动作不匹配、配乐风格与视频风格不一致等)。
实现思路