本技术涉及一种多模态视觉语言模型的安全攻击技术与系统,包括对第一视觉语言模型进行微调的步骤,选择初始替代模型,并将第二数据集输入至目标模型以进行攻击模拟。
背景技术
视觉语言模型因其在整合视觉与语言处理方面的卓越性能,已在多个领域得到广泛应用并迅速发展。这类模型的训练通常依赖于庞大的数据集和计算资源,使得视觉语言模型在技术和商业领域中具有极高的价值,但也因此更容易成为模型窃取攻击的目标。因此,与视觉语言模型相关的安全问题不容忽视。
虽然近年来模型窃取攻击受到了广泛关注,但目前大多数研究仍集中于单模态模型,针对视觉语言模型的模型提取攻击的探索相对有限。针对视觉语言模型等多模态模型的模型窃取攻击仍面临许多挑战,在黑盒攻击场景中,攻击者只能访问目标模型的输入和输出,无法了解目标模型的内部架构或参数。视觉语言模型涉及图像和文本的多模态数据,这使得模型窃取攻击的效果更容易受到训练数据集分布一致性的制约,因此,亟需一种能够对视觉语言模型实施模型进行窃取攻击的方法,为研究视觉语言模型等多模态模型的潜在安全性及防御方法提供新方向。
实现思路