本技术介绍了一种创新的联邦学习方法,该方法融合了多智能体强化学习(MARL)和知识蒸馏技术,旨在提高联邦学习过程的效率和速度。
背景技术
基于多智能体强化学习与知识蒸馏的联邦学习加速方法,基于联邦学习、多智能体强化学习以及知识蒸馏技术。首先,由于边缘节点本地数据通常是非独立同分布的,降低了FL的模型训练效率,根据每轮参与训练的节点数使用聚类算法以模型权重为依据将数据分布接近的节点划分到同一簇中,不同簇中节点相互组合最终得到近似的全局数据分布;然后,将聚类结果的每一簇看作一个的智能体,采用多智能体强化学习算法,从每一簇中选择合适的节点参与训练,最大化强化学习奖励值,惩罚过多的通信轮次;最后,由于边缘节点设备的计算存储能力不同,通过双向知识蒸馏的方法全局训练模型,进一步个性化本地模型、压缩传输内容、降低通信压力,达到联邦学习加速的目的。最接近本发明的技术有:
(1)基于DQN的联邦学习节点选择算法:2020年Wang Hao等人指出,针对非独立同分布数据,采用基于DQN的节点选择策略,抵消非独立同分布数据对于模型训练所带来的影响。这种方式以模型权重为状态,被选中的参与者为动作,能在一定程度上降低通信轮次、加速联邦学习。但受限于DQN算法,当动作空间维度较大时,选择最优动作会变得更加复杂,在合理的时间框架内可能不可行。
(2)基于DDPG的联邦学习节点选择算法:2021年Zhang Peiying等人提出了一种基于DDPG的联邦学习节点选择算法,采用基于策略梯度的深度强化学习算法,需要将连续的动作值映射到离散的动作集。这种映射过程可能会出现不准确或不完整的问题,导致无法准确地选择最优的离散动作。
(3)基于模型压缩的联邦学习加速算法:2020年Felix Sattler等人提出了一种基于模型压缩的联邦学习加速算法,通过稀疏三元压缩的方式压缩传输梯度。但这种梯度压缩方法可能对模型的敏感性较高,不同模型的梯度特征可能不同,因此适用于一种模型的压缩方法可能不适用于另一种模型。需要根据具体情况选择适当的压缩方法。
其中,(1)基于DQN的联邦学习节点选择算法与(2)基于DDPG的联邦学习节点选择算法对动作空间维度相对敏感,在边缘网络场景中随着参与者总数的增加,传统的联邦学习算法无法适用;(3)基于模型压缩的联邦学习加速算法考虑算法的普适性。同时,基于多智能体强化学习的联邦学习节点选择方法,现有的技术都没有在这方面进行考虑与设计。
实现思路