本技术属于信息安全技术领域,提出了一种针对联邦学习中数据投毒攻击的防御策略。该方法首先要求客户端获取训练图像数据集,随后在数据集中引入噪声以生成含噪数据集,并利用该含噪数据集进行客户端的训练过程。
背景技术
联邦学习(Federated Learning,简称FL)是一种新兴的机器学习方法,联邦学习的角色包括服务端和客户端,客户端是指拥有本地数据的设备或用户,服务端是联邦学习中的协调中心,负责管理多个客户端的训练过程。具体地,客户端使用本地数据进行模型训练,更新本地模型,并将更新后的模型参数上传至服务端;而服务端负责初始化全局模型,收集来自客户端的更新后的模型参数,进行模型聚合,形成新的全局模型,并将新的全局模型下发给客户端。这种分布式学习方法可以解决数据隐私保护和数据安全性问题,同时可以减少传输数据的需求,减轻中央服务器的计算负担。尽管FL框架使协作学习成为可能,但FL的分散性使其容易受到中毒攻击,服务端无法识别是否是诚实客户端上传的模型,提出了一个联邦图学习框架,该框架在保护数据隐私的同时实现了服务端对诚实客户端的选取。
中毒攻击是一种针对机器学习模型的攻击手段,攻击者通过在训练数据中植入精心设计的恶意样本来操纵模型行为或降低其性能。这种攻击主要分为两类:干净标签中毒攻击和脏标签中毒攻击。干净标签中毒攻击不改变数据标签,只添加恶意样本,使其易于被模型接受;脏标签中毒攻击则涉及篡改数据标签,如标签翻转攻击,将一类样本的标签全部改为另一类。脏标签中毒攻击实施相对简单,攻击者只需将目标类别的篡改数据与正常数据混合后进行训练。在联邦学习等分布式环境中,数据中毒攻击尤其具有威胁性,因为攻击者可能控制部分参与训练的客户端。无论是干净标签还是脏标签中毒攻击,其目标都是使训练后的模型产生符合攻击者预期的结果,从而破坏模型的可靠性和安全性。
为了缓解联邦学习中模型受到的中毒攻击,现有技术中,服务端在聚合客户端上传的模型的过程中不直接平均客户端模型,而是对模型进行处理后再聚合;然而,上述聚合方法存在以下问题:
1、无法处理使用脏标签中毒攻击的模型,没有专门识别中毒攻击的聚合方法,中毒的模型参数仍然会被聚合。
2、无法选取诚实客户端,现有研究对服务端通过客户端上传的模型来计算模型之间的余弦相似度或k-means聚类等,以此选取诚实客户端上传的模型,但是计算模型的相似度,很难区分使用脏标签中毒攻击的模型,无法保证聚合的模型都是诚实的。
3、要求服务器端保留有部分数据以供验证,现有研究中对服务端利用服务端中存储的数据对上传的模型进行验证,或是在服务端有辅助数据集来训练GAN网络生成数据来进行模型的验证,但这不符合联邦学习的原则。
实现思路