本技术涉及一种用于可信平台支持区块链的身份验证方法,首先每个参与者通过区块链的节点在区块链网络上注册,然后管理节点预先设置共识委员会的数量为A,并将训练程序和全局模型参数广播给所有节点,再在本地构建初始模型、训练,获得局部模型参数,将获得的局部模型参数独立使用MAE进行本地模型验证,然后广播给管理节点,管理节点对局部模型参数进行公共模型验证后,再进行混合验证,通过混合验证要求的局部模型参数再次打包成区块B’并进行储存,管理节点下载区块B’,并对区块B’中的局部模型参数进行聚合,并将聚合结果作为新的全局模型参数,最后进行A次通信,选拔出A个共识委员会。本发明在实现数据追溯的同时,安全性高。
背景技术
使用数字通信传递数据虽然能够实现可追溯、实时化并节约成本,但数字通信更容易受到网络攻击,存在安全和隐私风险。有限的物联网计算资源使得应用复杂的安全策略变得困难,同时也存在数据操纵的风险。在云平台中,还存在拒绝服务(DoS)攻击或IP欺骗的额外风险。
在数据存储、数据传输和数据共享过程中可能会发生数据泄漏,这可能会给所有者和供应商带来严重的问题。在这方面,现有的工作主要集中于利用有关数据的聚合信息,而不破坏参与者的隐私。他们通过对原始数据的关键贡献进行一些修改来解决这个问题,如k-匿名算法,L-多样性算法。但大多数方法都假设攻击者只有有限的背景知识,其中数据仍然容易受到基于算法的攻击或背景知识攻击。
为了保护用户的数据隐私,同时维护一个有用的人工智能模型,谷歌在2017年提出了联邦学习的概念。联邦学习的核心思想是建立一个基于虚拟融合数据的全球模型通过与本地数据在多个数据源之间进行分布式模型训练,不共享本地训练数据,只有通过交换模型参数或中间结果,以实现数据隐私保护和数据共享之间的平衡。联邦学习由于其隐私特性,联邦学习在智能城市、电子医学、无线通信、移动边缘网络等领域具有广泛的应用前景。在理想情况下,联邦学习获得的共享模型与中央服务器上的训练数据获得的模型相似或更好。因此,企业可以合法、有效地整合数据提取信息,而持有数据的个人或其他机构在享受企业提供的人工智能服务的同时,仍然可以保留对数据的控制。
根据数据的分区方式,联邦学习可以分为水平联邦学习(HFL)和垂直联邦学习(VFL)。HFL虽然在一定程度上保护了数据隐私,但HFL协议仍然存在泄露本地私人数据信息的潜在风险。安全多方计算、同态加密(HE)和差分隐私(DP)是三种最常见的隐私保护机制,理论和经验证明它们对HFL有效。与HFL相比,VFL更有可能出现在实际应用中。VFL中参与客户端的训练数据具有相同的样本身份(ID)空间,但具有不同的特征空间。当前保护隐私的VFL系统是在假设所有数据标签仅存储在一个访客或活动方上构建的,这在许多实际应用程序中是不现实的。
差分隐私是保护个人隐私同时允许进行有意义的数据分析的关键概念。它涉及在计算中添加受控噪声,以防止敏感信息泄露。在联邦学习中,多方在不共享原始数据的情况下协作构建共享机器学习模型,确保隐私至关重要。差分隐私技术(如安全聚合和局部差分隐私)在联邦学习环境中保护隐私方面发挥着关键作用。Dwork等人在2006年提出的差分隐私(DP)表明,即使攻击者拥有敏感数据的所有剩余元组,数据库记录发布的可证明隐私保证也不会造成明显的查询准确性损失。安全聚合在与中央服务器共享模型更新之前对其进行加密,从而防止直接访问单个更新。同态加密和安全多方计算等技术可跨分布式数据集进行高效的隐私保护计算。差分隐私在联邦学习中的实际应用,例如在医疗保健和金融领域,证明了其在平衡数据驱动的见解与个人隐私权方面的重要性。Geyer等人提出了一种基于客户端的差分隐私联邦学习框架,将差分隐私和联邦学习相结合,以保护客户数据的隐私,并实现模型的训练和更新。
节点的身份验证是联邦学习模型的一个重要组成部分。认证协议是一种通过密码学和通信技术实现的通信协议,通过在两个及两个以上的通信对象之间安全地传输身份信息来确认通信对象的网络身份。通过认证协议,数据传输主体在发送私人数据前可以确认彼此的网络身份,通信双方协商的密钥可以保证传输过程中数据的安全,大大降低了隐私数据被攻击者窃取和破解的风险。认证是数据访问的前提,在工业物联网、车联网、智能医疗、云数据库等场景中被广泛应用于数据传输和信息安全的关键技术。
区块链通过密码学和点对点通信形成了一个分散的分布式账本,使用智能合约来实现可编程、自动化和可信的交易。其目的是确保在实现分散的数据共享的同时,数据不会被篡改。将联邦学习与区块链研究相结合,主要方向是引入区块链构建联合学习分布式可信计算框架,从而提高节点间互信任和聚合模型的可信度。在联邦学习中引入区块链的原因可以归纳为两点。一方面,联邦学习中的参与节点和通信过程可能会受到不同类型的攻击。另一方面,恶意参与的节点或服务器可能会主动发起攻击,破坏联邦学习的安全性和公平性。
最近,一些学者将区块链和联邦学习结合起来,实现了联邦学习中的安全和隐私保护。传统的联邦学习以集中的方式聚合更新,一旦中央服务器失败或受到攻击,联邦学习的过程可能不会继续下去。为了解决这一问题,文献1(A blockchain for auditablefederated learning with trust and incentive, in: 2019 5th InternationalConference on Big Data Computing and Communications, BIGCOM, IEEE, 2019, pp.151-159.)使用区块链实现了一种不能被篡改的局部模型参数更新方案。更详细地说,它设计了一个基于区块链点对点网络的联邦学习架构,其中全局存储在区块链的结构的MPT(Merkle帕特里夏树)。文献2(A reliable and accountable privacy-preservingfederated learning framework using the blockchain, in: Proceedings of the2019 ACM SIGSAC Conference on Computer and Communications Security, 2019, pp.2561–2563.)提出了一个基于区块链的隐私保护框架,该框架消除了参与者的半诚实假设,并采用加密技术来保护数据隐私,但参数服务器仍存在单点故障的风险。文献3(Blockchained on-device federated learning, IEEE Commun. Lett. 24 (6) (2019)1279–1283.)将区块链引入联邦学习中,解决了单点故障问题,并分析了最优块生成率。然而,它忽略了中间参数的隐私保护问题。Abali 等人建议将拉普拉斯噪声添加到训练模型的梯度中。此外,还提出了一种基于加法同态加密的协同学习系统。然而,由于无法实现安全和效率之间的平衡,预期结果甚微。
联邦学习中的隐私保护问题仍有待研究,目前主流研究依赖于DP(文献4:Shuffled model of differential privacy in federated learning. In:International conference on artificial intelligence and statistics. PMLR;2021, pp. 2521–9.)、HE(文献5:Privacy-preserving federated learning based onmulti-key homomorphic encryption. Int J Intell Syst 2022.)、SMC(文献6:Averifiable federated learning scheme based on secure multi-party computation.In: International conference on wireless algorithms, systems, andapplications. Springer; 2021, pp. 198–209.)等技术。所有这些技术都可以用于保护联邦学习中的隐私安全。然而,需要注意的是,这些技术的使用增加了计算和通信的复杂性,因此需要在隐私安全和计算效率之间取得平衡。
文献7(Privacy-preserving deep learning. In: Proceedings of the 22ndACM SIGSAC conference on computer and communications security.2015, pp. 1310–21. )通过共享模型参数的一小部分的自适应共享和使用不同的隐私保护机制,实现了隐私保护联邦学习框架。然而,这种方法需要在模型的准确性和数据隐私之间进行权衡。进一步在模型收敛性能和隐私保护水平之间进行权衡,认为收敛性能越好,保护水平越低。利用秘密共享技术和加密方案来保护私有数据的安全,是实现SMC的一种代表性技术。基于部分同态加密和联邦学习的隐私保护机器学习框架PFMLP,与差分隐私相比,显著提高了模型精度。虽然模型训练效率问题得到了提高,但在实际海量数据下的模型计算效率还有待验证。文献8("Blockchain and federated learning for privacy-preserved data sharingin industrial IoT", IEEE Transactions on Industrial Informatics, vol. 16, no.6, pp. 4177-4186, 2019.)和文献9("Privacy-preserving blockchain-basedfederated learning for traffic flow prediction", Future Generation ComputerSystems, vol. 117, pp. 328-337, 2021.)将局部差分敏感性技术应用于区块链联邦学习。通过对原始数据进行噪声扰动,保护工业互联网和智能交通的数据多样性。文献10("Decentralized privacy using blockchain-enabled federated learning in fogcomputing", IEEE Internet of Things Journal, vol. 7, no. 6, pp. 5171-5183,2020.)设计了一种基于签名和加密协议的混合身份机制,以防止攻击者窃取模型中存储的区块链数据信息。但是,该机制会消耗大量的计算开销,并且当联合学习迭代次数过多时,很难在本地设备中部署。
因此,研究一种用于可信平台支持区块链的身份验证方法,以解决上述问题,具有十分重要的意义。
实现思路