本技术公开了基于统计控制的联邦学习恶意参与方检测方法及系统,方法如下:S1、服务器向参与方发送训练任务及初始化模型参数;S2、参与方下载当前全局模型,进行本地训练,得到局部模型并上传;S3、服务器接收局部模型并进行聚合,得到新全局模型;S4、当联邦学习轮次小于T<subgt;g</subgt;时,服务器计算上传模型的参数向量到全局模型的欧式距离平方,并对所有距离值进行建模,选择诚实参与方进行模型聚合;S5、当轮次等于T<subgt;g</subgt;时,服务器构建控制限;S6、当轮次大于T<subgt;g</subgt;时,服务器计算参与方上传模型与全局模型的距离,通过控制限,区分恶意与诚实参与方;S7、服务器聚合诚实参与方的模型得到新全局模型,发给所有参与方;S8、返回S2,直至达到预设目标。
背景技术
机器学习技术在数字化转型中发挥着日益重要的作用,其广泛应用于生产生活的各个方面。然而,以深度学习为代表的传统机器学习范式高度依赖于大规模、集中化的数据集进行模型训练,这与现实世界中数据分布的现状形成了鲜明对比。当前,数据呈现出碎片化、小规模化的趋势,尤其是在银行、政府等数据密集型行业,由于其业务的特殊性,用户数据往往包含高度敏感的个人信息,出于数据安全和隐私保护的考虑,这些数据被严格限制在机构内部,难以跨机构共享和聚合。这种数据壁垒导致单个机构可利用的数据量有限,直接制约了机器学习模型的训练效果,阻碍了相关技术的进一步发展。与此同时,随着社会对数据隐私和个人信息安全的日益重视,以及《通用数据保护条例》(General DataProtection Regulations,GDPR)等一系列数据监管法规的出台,数据采集、存储和使用的门槛不断提高,进一步加剧了数据获取和利用的难度,最终形成了所谓的“数据孤岛”现象。数据孤岛的存在严重制约了机器学习和人工智能技术的应用潜力,成为其发展道路上的重大挑战。
作为一种分布式机器学习框架,联邦学习允许多个参与方在不共享本地数据的前提下协同训练全局模型。其核心思想是:各参与方利用本地数据训练本地模型,并将模型参数上传至中央服务器进行聚合,服务器整合各方参数更新全局模型,如此迭代直至模型收敛。这种“数据可用不可见”的模式,既能充分利用分散的数据资源提升模型性能,又能有效保障各参与方的数据安全和隐私。然而,联邦学习系统的分布式特性和数据隔离机制也使其面临潜在的安全风险,例如恶意参与方的投毒攻击。由于服务器无法直接访问参与方的本地数据,难以有效判断上传参数的可靠性,一旦攻击者恶意操纵本地模型训练过程或上传错误参数,全局模型的性能将受到严重影响,甚至导致模型失效。因此,如何在保障数据隐私和安全的前提下,有效抵御投毒攻击,提升联邦学习系统的鲁棒性,成为该领域亟待解决的关键问题。
联邦学习系统面临的投毒攻击主要分为两类:模型投毒攻击和数据投毒攻击。模型投毒攻击是指恶意参与方通过篡改本地模型参数,例如,注入随机噪声或精心设计的偏差,向服务器上传错误的模型更新,从而污染全局模型参数,使其偏离正常训练轨道。这类攻击方式较为直接,攻击痕迹明显,易于被检测算法识别。而数据投毒攻击则更为隐蔽,攻击者并不直接修改模型参数,而是通过污染本地训练数据,例如,注入错误标签或添加异常样本,间接影响本地模型参数的更新。由于数据投毒攻击导致的模型参数变化较为微小,且缺乏明显的攻击模式,因此更难以被察觉和防御。无论是模型投毒还是数据投毒,其最终目的都是破坏全局模型的性能,使其在测试阶段对大量样本做出错误预测,甚至导致模型训练失败。然而,联邦学习的去中心化特性和数据隐私保护机制,使得服务器无法直接验证参与方数据的质量,这给识别和筛选识恶意参与方带来了巨大挑战。因此,如何在保障数据隐私的前提下,有效识别和剔除低质量或恶意参与方,成为确保联邦学习系统安全性和可靠性的关键问题。
实现思路