本技术介绍了一种多模态联合对抗攻击技术及其设备,旨在人工智能安全领域中应对大规模语言模型对抗攻击的挑战。该技术专注于解决跨模态协同攻击建模和优化机制构建的难题。
背景技术
大语言模型(Large language model,LLM)作为生成式人工智能(Artificialintelligence,AI)领域的一个重要分支,日益成为推动社会进步和科技创新的关键力量。然而,LLM骨干架构极为复杂、权重参数量庞大、决策机制黑盒运行,尽管交互理解与内容生成能力不断增强,其推理幻觉影响生成内容的可信度,智能涌现引发模型决策不可预测性,外源攻击敏感性和内生安全脆弱性愈发凸显,导致应用安全性、决策可靠性、能力可控性面临着前所未有的挑战,诱发诸多领域的安全风险。
现有研究大多集中在利用文本输入和提示注入进行攻击,然而,针对文本指令提示词的攻击效力容易受到基于偏好的强化学习对齐技术的削弱,这类价值对齐机制利用AI反馈标记生成的文本内容,自动完成LLM对抗训练,直接拒绝非法指令和有害查询,确保生成基于无害、有用、真实原则的文本内容。也就是说,这类面向文本指令的单模态攻击难以逾越基于文本内容反馈的安全对齐机制,容易被自动检测与强制过滤,难以形成高级持续性威胁攻击态势。
目前,面向LLM的对抗攻击技术已经从单模态攻击发展到多模态攻击,主要利用文本、图像、音频、视频等多模态数据特性独立设计对抗性提示;由于没有考虑各模态语义的表征互补性与跨模态交互的对抗协同性,也没有有效融合有害文本语义与提示词引导生成的对抗图语义,同时也缺乏跨模态协同对抗攻击建模研究,致使现有多模态攻击尽管能够规避基于文本内容反馈的安全对齐机制,但攻击效力仍然有限,攻击成功率较低,攻击成本居高不下,更加难以突破基于多模态内容反馈的安全对齐限制;进一步地,面向LLM的对抗攻击策略设计过程中,通常利用纯梯度下降搜索策略在单模态输入语义空间中优化对抗扰动,由于没有构建有效的跨模态嵌入式语义空间对抗扰动优化机制,缺乏定位关键图文语义子空间,也没有在扰动优化过程中融合历史梯度的动量信息和未来梯度的海量信息获得跨模态广义梯度,致使寻优效率较低,收敛稳定性较差,更加难以生成跨模态最小代价的对抗扰动。
实现思路