本技术涉及一种高效的语音识别模型对抗样本合成方法,属于电子数字处理技术领域,专门用于生成语音对抗样本。与现有音频无关的对抗攻击方法相比,本技术在语音合成过程中,通过改进解码过程,显著提升了对抗样本的生成效率和效果。
背景技术
深度神经网络模型容易受到对抗攻击的影响,攻击者通过精心制作的与原始样本相似的对抗样本可以使模型产生错误的预测,不仅危害了我们的个人隐私和财产安全,还有可能对我们的人身安全造成损害。近年来,由于语音助手、智能家居等的广泛应用,语音识别系统已成为人们日常生活中必不可少的工具,然而,这也导致语音识别系统成为了攻击者的目标,因此,确保基于深度神经网络模型的语音识别系统的安全性和鲁棒性变得尤为重要。
对语音识别系统的对抗性攻击可大致分为音频相关攻击和音频无关攻击。音频相关攻击方法通过向现有的良性音频添加约束扰动来生成对抗性样本,确保人类听众无法察觉这些扰动,音频无关攻击方法利用语音合成模型,直接从文本开始生成对抗音频,保留了所需的语义内容,同时欺骗语音识别模型做出不正确或有针对性的预测。相比之下,音频无关攻击的通用性更强,它与音频无关,这意味着它不受音频内容的限制,可以在多种场景下实施。
现有的音频无关攻击方法由于语音合成速度较慢的原因存在攻击效率低的问题,在现实情境下无法完成实时性要求高的任务。为了提高攻击速度,我们提出了一种高效的音频无关对抗攻击方法,能够执行快速攻击,同时实现高自然度的合成语音。具体来说,现有的音频无关攻击方法受语音合成速度较慢的限制,尤其是在语音合成模型中的解码器部分,声学特征转换为语音波形的过程计算开销较大。
综上所述,设计一种针对语音识别模型的高效对抗样本合成方法,有利于提升对语音识别系统攻击的速度与成功率,满足实时性任务的要求,同时保持合成语音的自然度和高质量,增强对抗样本的合成效率和通用性。
实现思路