本技术涉及信息安全技术,提供了一种在保护用户数据隐私的基础上进行逻辑回归训练的方法及系统。该方法采用非交互式联邦学习技术,实现多源垂直分布数据的安全训练。
背景技术
随着大数据时代的到来,大规模的数据收集提高了机器学习算法的性能,也不断推动着人工智能技术的进步。然而,在大量的人工智能产品背后,用户个人敏感数据的隐私保护也面临着更大的风险与挑战。为了更好的保护用户个人隐私数据的安全,联邦学习的训练模式应运而生,和传统集中训练模式的机器学习方式相比,联邦学习实现了将各方原始数据保留在本地的同时进行机器学习训练,能够有效帮助多个机构在满足数据安全的前提下,搭建共享的高性能模型,而且最大化地利用了云系统终端设备的高计算能力。联邦学习的出现有效解决了数据孤岛的问题,帮助多参与方在不共享原始数据的基础上实现协作建模。
传统的联邦学习训练通常采用的方式是用户利用本地数据进行模型训练,然后将模型梯度发送至云端并进行全局模型的聚合并更新模型参数,最后由云将聚合的结果发送给参与方更新各自的模型。采用传统联邦学习模式要求用户在训练过程中一直保持在线,且需要消耗大量计算资源进行模型训练。同时,这种模式并没有对模型的梯度参数进行加密,也在一定程度上存在隐私数据泄露的风险。
具体来说,如深圳前海微众银行股份有限公司的专利“提升安全性的纵向联邦学习方法、设备、系统及存储介质”(申请号CN201911128849.6申请公布号CN110704860A),公开了一种安全联邦学习逻辑回归算法,在联合第三方进行纵向联邦逻辑回归建模的方案中,避免第三方联合其中一方窃取数据的可能性,在一定程度上提高了逻辑回归模型的安全性。但是,该方法的不足之处在于训练过程需要参与用户一直保持在现,且每轮迭代都需要进行数据拥有者和云服务器之间的通信,增加了通信开销。
通过上述分析,现有技术存在的问题及缺陷为:
(1)传统的联邦学习训练方法,在训练过程中每次迭代都要参与方上传本地模型的梯度参数,而又并未对本地训练模型的梯度参数进行加密保护,在一定程度上存在隐私数据泄露的问题。
(2)传统的联邦学习训练方法一般针对于交互式计算场景,在整个训练过程中需要保持所有训练参与方实时在线,且需要消耗大量的计算资源进行模型的训练。
(3)传统联邦学习训练方法,训练模型的每次迭代都需要在参与方和云服务器之间进行大量密文的通信,通信开销较大。
解决以上问题及缺陷的难度为:
(1)为了防止训练过程中梯度参数泄露用户隐私的问题,需要对梯度参数利用密码学方法进行加密保护,多用户与云服务器多轮通信中,计算开销和密文尺寸增大所带来的通信开销降低了模型的可用性和效率。
(2)在联邦学习训练的非交互式场景下,现有的同态加密算法难以得到有效运用,不能为多源用户提供有效的隐私保护。
(3)传统联邦学习的迭代训练过程中,利用密码学原语对用户上传的模型参数进行加密保护会带来了极大的通信开销,存在安全性与可用性相互制约的问题。
解决以上问题及缺陷的意义为:针对分布式场景下,设计一种非交互式联邦学习逻辑回归问题的解决方案,能够有效解决多源数据协同训练过程中个人用户隐私信息泄露的问题,确保多数据源用户协同训练过程中敏感信息的安全性,推动联邦学习及大数据安全相关技术的发展。
实现思路