本技术介绍了一种混合保留度专家大模型训练技术,该方法涉及在选定的基础大模型的任意层后插入混合保留度层以构建专家大模型,并详细说明了混合保留度层的设置过程。
背景技术
MoE(Mixture of Experts,混合专家)是一种广泛大模型领域的技术。其核心思想是使用多个“专家”模型来解决多个任务。具体地,针对每个输入的标记(Token),路由模块会生成一个概率分布,该分布的概率值表示将该标记分配给每个专家的可能性。路由策略用于从N个专家中选择需要激活的专家。最常用的策略是Top-K路由,该策略始终为每个标记激活固定数量的专家。它通过计算一个分数来表示选择每个专家的概率,并选择得分最高的前K个专家进行激活。
主流的专家基于全连接层来实现,会显著增加模型的参数量。因此领域内的研究者通过引入低秩适配器(low-rank adaption,LoRA)、adapter(适配器)等结构来替代全连接层,达到降低参数量。不管采用何种专家的实现方式,领域内的现有工作存在两个问题:1)当前的参数量还需要被进一步压缩。2)目前MoE层采用同质设计。即每个专家具有相同的结构和参数量大小。这些可学习的参数很难被充分训练,表现在他们的参数内容有很高的相似性。
针对问题1),本发明引入了一种高效的取幂操作来作为专家,将专家参数量降到最低(每个专家只有一个参数)。针对问题2),本发明设计了一种基于任务信息保留度的负载均衡损失,来使得每个专家被充分训练。并且本发明中专家参数是预设的,不需要训练,从源头保证每个专家存在差异性。
实现思路