本技术介绍了一种在黑盒环境下生成对抗性样本的新方法及其装置,旨在提升人工智能系统的安全性,并减少对抗样本生成过程中对模型的依赖,从而降低冗余扰动。
背景技术
随着人工智能技术的发展,视觉大模型不断涌现出超强的语义理解与内容生成能力。在图像理解、自动驾驶、医疗影像分析等众多关键领域的广泛应用,其安全性问题成为研究焦点。现有研究主要面向白盒攻击(White-Box Attack)场景,攻击者对视觉模型具有完全的了解,包括目标模型的结构(如神经网络的层数、每层的神经元数量等)、参数(权重和偏置)和训练数据的分布等信息;利用输入图像对于视觉大模型的梯度反馈,迭代生成对抗样本,用于设计特定目标攻击和非特定目标攻击策略。此外,对于黑盒攻击(Black-BoxAttack)场景下,攻击者不了解视觉大模型的内部结构和权重参数等先验知识,常常采用随机选取像素点进行多值篡改,试凑生成用于黑盒攻击的对抗样本。同时,面向已知大模型进行白盒攻击生成对抗样本,利用对抗样本的攻击迁移性,用于误导具有相同变换器和卷积结构的未知大模型,实现黑盒攻击。
然而,上述随机篡改试凑法和攻击迁移性法都缺乏利用黑盒模型的决策反馈信息,对抗样本生成效率和攻击成功率都较低,针对某一视觉大模型生成的对抗样本难以对其他视觉大模型产生有效攻击,这严重限制了对视觉大模型安全性的全面评估和防护策略的制定。因此,迫切需要一种能够在黑盒环境下生成具有高迁移性对抗样本的方法。
实现思路