混合保留度专家大模型训练技术
2025-02-21 14:05
No.1342497585503674368
技术概要
PDF全文
本技术介绍了一种混合保留度专家大模型训练技术,该方法涉及在选定的基础大模型的任意层后插入混合保留度层以构建专家大模型,并详细说明了混合保留度层的设置过程。
背景技术
MoE(Mixture of Experts,混合专家)是一种广泛大模型领域的技术。其核心思想是使用多个“专家”模型来解决多个任务。具体地,针对每个输入的标记(Token),路由模块会生成一个概率分布,该分布的概率值表示将该标记分配给每个专家的可能性。路由策略用于从N个专家中选择需要激活的专家。最常用的策略是Top-K路由,该策略始终为每个标记激活固定数量的专家。它通过计算一个分数来表示选择每个专家的概率,并选择得分最高的前K个专家进行激活。 主流的专家基于全连接层来实现,会显著增加模型的参数量。因此领域内的研究者通过引入低秩适配器(low-rank adaption,LoRA)、adapter(适配器)等结构来替代全连接层,达到降低参数量。不管采用何种专家的实现方式,领域内的现有工作存在两个问题:1)当前的参数量还需要被进一步压缩。2)目前MoE层采用同质设计。即每个专家具有相同的结构和参数量大小。这些可学习的参数很难被充分训练,表现在他们的参数内容有很高的相似性。 针对问题1),本发明引入了一种高效的取幂操作来作为专家,将专家参数量降到最低(每个专家只有一个参数)。针对问题2),本发明设计了一种基于任务信息保留度的负载均衡损失,来使得每个专家被充分训练。并且本发明中专家参数是预设的,不需要训练,从源头保证每个专家存在差异性。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
王闻箫  邱奇波  林彬彬  何晓飞
技术所属: 浙江大学
相关技术
一种基于统计控制的联邦学习恶意参与方检测方法及系统 一种基于统计控制的联邦学习恶意参与方检测方法及系统
一种基于改进深度学习模型的洪灾水体智能识别方法 一种基于改进深度学习模型的洪灾水体智能识别方法
一种基于实际车流荷载的桥梁限载确定方法、系统及介质 一种基于实际车流荷载的桥梁限载确定方法、系统及介质
一种基于垂向偏差模型的HSRL海水后向散射反演方法 一种基于垂向偏差模型的HSRL海水后向散射反演方法
一种基于FPGA的神经网络存算资源优化分配方法及系统 一种基于FPGA的神经网络存算资源优化分配方法及系统
一种远程互动教研平台终端 一种远程互动教研平台终端
一种河流径流还原方法及系统 一种河流径流还原方法及系统
一种兼容CHI协议的芯粒互联接口协议层电路及芯片 一种兼容CHI协议的芯粒互联接口协议层电路及芯片
一种岛礁建筑群受打击后毁伤程度预测方法 一种岛礁建筑群受打击后毁伤程度预测方法
一种基于融合技术的船舶操纵运动实时预报方法及系统 一种基于融合技术的船舶操纵运动实时预报方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利