本申请涉及一种基于自监督辅助任务的深度合成音频跨域检测方法和装置,其中,该方法包括:获取待检测音频作为测试数据集;基于预设的自监督辅助任务对测试数据集进行增广处理,得到增广数据集;基于增广数据集,将自监督辅助任务作为优化目标,对预训练的目标检测模型进行微调,得到目标微调模型;目标检测模型的训练任务包括伪造检测任务和自监督辅助任务;将测试数据集输入到目标微调模型中,得到检测结果。通过本申请,解决了相关技术中泛化性不足、跨域检测效果明显下降的问题,提高模型泛化性的同时,能够极大程度上降低模型训练的开销;并且够适应测试数据集中深度伪造属性的分布差异,从而提升跨域检测性能。
背景技术
随着人工智能技术的发展,AI合成语音质量持续提高,难以被人耳区分。由基于深度神经网络的语音合成技术生成的语音音频被称为深度合成音频(deepfake audio)。最新的zero-shot TTS技术只需几句目标说话人的语音即可生成同样音色的任意内容的音频。语音合成技术在带来便利创的同时也带来了极大的安全风险。
现有的合成音频跨域检测方法主要是基于领域泛化(Domain Generalization)思想,通过调整训练过程来提升模型的检测泛化性,从而提升在跨域测试时的表现。具体的方法为:在训练阶段,对训练数据进行添加白噪声、混响、掩码等操作。领域泛化方法的主要缺陷在于:该类方法只基于训练数据包含的信息进行优化,在跨域表现上存在上限。同时,现有方法需要在训练时部署,当出现新的合成音频数据集且现有方法提升后的检测效果依然不佳时,需要重新设计泛化性提升方法并进行重新训练,这在音频合成技术持续发展的现状下会带来巨大的计算开销。
针对相关技术中存在泛化性不足、跨域检测效果明显下降的问题,目前还没有提出有效的解决方案。
实现思路