混合保留度专家大模型训练技术

123技术园

首页 / 技术内容

混合保留度专家大模型训练技术

2025-02-21 14:05

No.1342497585503674368

技术概要

PDF全文

本技术介绍了一种混合保留度专家大模型训练技术，该方法涉及在选定的基础大模型的任意层后插入混合保留度层以构建专家大模型，并详细说明了混合保留度层的设置过程。

背景技术

MoE（Mixture of Experts，混合专家）是一种广泛大模型领域的技术。其核心思想是使用多个“专家”模型来解决多个任务。具体地，针对每个输入的标记（Token），路由模块会生成一个概率分布，该分布的概率值表示将该标记分配给每个专家的可能性。路由策略用于从N个专家中选择需要激活的专家。最常用的策略是Top-K路由，该策略始终为每个标记激活固定数量的专家。它通过计算一个分数来表示选择每个专家的概率，并选择得分最高的前K个专家进行激活。主流的专家基于全连接层来实现，会显著增加模型的参数量。因此领域内的研究者通过引入低秩适配器（low-rank adaption，LoRA）、adapter（适配器）等结构来替代全连接层，达到降低参数量。不管采用何种专家的实现方式，领域内的现有工作存在两个问题：1）当前的参数量还需要被进一步压缩。2）目前MoE层采用同质设计。即每个专家具有相同的结构和参数量大小。这些可学习的参数很难被充分训练，表现在他们的参数内容有很高的相似性。针对问题1），本发明引入了一种高效的取幂操作来作为专家，将专家参数量降到最低（每个专家只有一个参数）。针对问题2），本发明设计了一种基于任务信息保留度的负载均衡损失，来使得每个专家被充分训练。并且本发明中专家参数是预设的，不需要训练，从源头保证每个专家存在差异性。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王闻箫邱奇波林彬彬何晓飞

技术所属：浙江大学

相关技术

一种基于统计控制的联邦学习恶意参与方检测方法及系统  一种基于统计控制的联邦学习恶意参与方检测方法及系统 
 本发明公开了基于统计控制的联邦学习恶意参与方检测方法及系统，方法如下:S1、服务器向参与方发送训练任务及初始化模型参数；S2、参与方下载当前全局模型，进行本地训练，得到局部模型并上传；S3、服务器接收局部模型并进行聚合，得到新全局模型；S4、当联邦学习轮次小于T＆lt;subgt;g＆lt;/subgt;时，服务器计算上传模型的参数向量到全局模型的欧式距离平方，并对所有距离值进行建模，选择诚实参与方进行模型聚合；S5、当轮次等于T＆lt;subgt;g＆lt;/subgt;时，服务器构建控制限；S6、当轮次大于T＆lt;subgt;g＆lt;/subgt;时，服务器计算参与方上传模型与全局模型的距离，通过控制限，区分恶意与诚实参与方；S7、服务器聚合诚实参与方的模型得到新全局模型，发给所有参与方；S8、返回S2，直至达到预设目标。
一种基于改进深度学习模型的洪灾水体智能识别方法  一种基于改进深度学习模型的洪灾水体智能识别方法 
 本发明公开了一种基于改进深度学习模型的洪灾水体智能识别方法，属于地质灾害信息处理技术领域，包括以下步骤:数据收集与预处理，生成数据集；基于生成的数据集，集成Canny边缘检测算子、归一化水体指数、局部二值模式LBP算子纹理形成多特征融合图数据集；构建DeepWFNet网络模型；将多特征融合图数据集输入DeepWFNet网络模型进行洪水淹没范围识别，得到洪水识别结果；对洪水识别结果进行可视化优化与评估。本发明通过加入边缘特征、光谱特征、纹理特征与DeepWFNet模型相结合，可以在保持局部特征提取能力的同时，增强模型对全局信息的理解能力，从而显著提高对洪水淹没区域的分割精度。
一种基于实际车流荷载的桥梁限载确定方法、系统及介质  一种基于实际车流荷载的桥梁限载确定方法、系统及介质 
 本发明公开了一种基于实际车流荷载的桥梁限载确定方法、系统及存储介质，涉及桥梁承载能力评估技术领域，包括步骤:采集通行车辆特征信息；利用通行车辆特征信息、动态称重模型获取假定桥梁应变数据确定推定车辆行驶信息；获取实际通行车辆信息；建立真实车流荷载数字模型；生成测试模拟车流，并获取测试模拟车流中超载车辆的超载违规率；使用影响面加载的方式获取桥梁的测试应变历程；计算等效应力幅值和平均应力值；进行疲劳寿命计算。本发明的方法，计算机识别设备仅仅用于获取摄车辆车型和拍摄识别车轴数，避免了现有的由计算机视觉系统采集车辆位置信息导致不精确、车轴信息存在假轴的缺点，能准确地评估桥梁荷载载荷。
一种基于垂向偏差模型的HSRL海水后向散射反演方法  一种基于垂向偏差模型的HSRL海水后向散射反演方法 
 本发明公开了一种基于垂向偏差模型的HSRL海水后向散射反演方法，包括:获取HSRL系统仿真的颗粒散射信号和分子散射信号；计算HSRL直接探测到的后向散射，并根据仿真输入的后向散射真值计算后向散射垂向偏差；根据系统参数、环境参数以及后向散射垂向偏差，得到垂向偏差模型；对近水面数据进行处理，计算不受多次散射影响的后向散射近水面值，并结合颗粒物后向散射比估算散射系数近水面值；基于垂向偏差模型，计算不同深度的垂向偏差；根据得到的垂向偏差剖面反演后向散射剖面。本发明克服了多次散射导致的HSRL海水后向散射反演误差，显著提高了海洋HSRL的探测精度。
一种基于FPGA的神经网络存算资源优化分配方法及系统  一种基于FPGA的神经网络存算资源优化分配方法及系统 
 本发明提出了一种基于FPGA的神经网络存算资源优化分配方法及系统，涉及人工智能技术领域，包括:分析并行因子与神经网络各层的延迟、并行因子与FPGA的计算资源消耗，建立层间计算资源关系模型；基于层间计算资源关系模型，通过计算资源分配方法，得到分配后的神经网络各层的最佳并行因子；分析神经网络层内各模块的延迟与并行度、内存资源消耗，建立层内内存资源关系模型；基于层间计算资源关系模型及层内内存资源关系模型和分配后的神经网络各层的最佳并行因子，实现层内内存资源与延迟的平衡优化。本发明通过合理分配各层并行度，在最小资源占用的前提下减少数据流阻塞，以各层内模块延迟一致与各层间延迟一致为目标，实现总延迟最小的效果。
一种远程互动教研平台终端  一种远程互动教研平台终端 
 本发明公开了一种远程互动教研平台终端，涉及远程教育技术领域，包括监控中心，所述监控中心连接有登录显示模块、教研采集模块、资料处理模块、多源分析模块以及自主学习模块；对教学资料数据进行排列分类，获得公开编码符和封闭编码符；根据公开编码符对教研编码段进行显性加密和学习检索，获得综合学习序列，通过封闭编码符对综合学习序列进行保护解除，获得开放学习序列；对开放学习序列进行规则生成，获得限制节点规则，通过限制节点规则对开放学习序列进行监测学习，获得远程调研成果；简化操作流程，增强参与感和体验，提升终端的整体性能和稳定性，提高互动效率。
一种河流径流还原方法及系统  一种河流径流还原方法及系统 
 本发明公开一种河流径流还原方法及系统，涉及水文水资源领域。该方法包括:从目标流域的多个邻近天然流域中确定最优邻近天然流域；计算目标流域在水库建成前和水库建成后的预设时间段内每日的径流量比的第一变化率；计算最优邻近天然流域在水库建成前和水库建成后的预设时间段内每日的径流量比的第二变化率；根据目标流域在水库建成后的预设监测时间段内每个日期的日径流量和对应日期的第一变化率、第二变化率，确定目标流域还原自然变化特征后在预设监测时间段内每个日期的日径流量；根据每年的年径流量变化率，得到目标流域在每年的预设监测时间段内还原后的每个日期的日径流量。本发明能够提高水库调节后的径流还原成天然径流的精度。
一种兼容CHI协议的芯粒互联接口协议层电路及芯片  一种兼容CHI协议的芯粒互联接口协议层电路及芯片 
 本发明公开了一种兼容CHI协议的芯粒互联接口协议层电路及芯片，本发明的芯粒互联接口协议层电路包括与适配器层和物理层相连接的协议层中的发送单元和接收单元，发送单元包括依次相连的发送端虚通道管理模块、发送缓冲单元和打包模块，发送缓冲单元用于缓存各个通道的微包且分别包括并行的请求‑监听发送缓冲、响应发送缓冲、调测试发送缓冲和数据发送缓冲，接收单元包括依次相连的解析模块、接收缓冲单元和接收端虚通道管理模块，所述接收缓冲单元包括并行的请求‑监听接收缓冲、响应接收缓冲、调测试接收缓冲和数据接收缓冲。本发明旨在使得芯粒互联接口可以兼容CHI协议，使得ARM架构实现的芯粒可以通过CHI协议实现一致性互联。
一种岛礁建筑群受打击后毁伤程度预测方法  一种岛礁建筑群受打击后毁伤程度预测方法 
 本发明涉及一种岛礁建筑群受打击后毁伤程度预测方法，包括如下步骤:将岛礁建筑群划分为n个建筑样本，对每个建筑样本分配不同的毁伤评估权重；筛选影响岛礁建筑群毁伤程度的随机变量，确定随机变量的相关参数；建立岛礁建筑群毁伤模型；基于随机抽样法生成随机变量的m组数据，并将m组数据输入岛礁建筑群毁伤模型进行毁伤模拟，获取每个建筑样本的毁伤数据；设定毁伤阈值，判断每个建筑样本的毁伤数据是否达到毁伤阈值，确定每个建筑样本的毁伤失效率；确定岛礁建筑群平均毁伤目标数。本发明能够对深海岛礁建筑群抗蓄意打击能力和毁伤程度进行韧性评估，考虑了其复杂环境的不确定性数据边界，为深海岛礁的防护等级确定提供科学数据和信息依据。
一种基于融合技术的船舶操纵运动实时预报方法及系统  一种基于融合技术的船舶操纵运动实时预报方法及系统 
 本发明属于船舶操纵运动预测技术领域，公开了一种基于融合技术的船舶操纵运动实时预报方法及系统。该方法对船舶运动数据和海洋环境数据进行标准化处理，使海洋环境数据与船舶运动数据在同一数值范围内输入构建的基于Transformer架构的船舶运动预测模型，使用滑动时间窗口技术，进行在线梯度更新，适应新数据特征；引入物理损失项，获得改进后基于Transformer架构的船舶运动预测模型；进行优化验证，完成非线性船舶操纵运动预报。本发明不仅能够解决传统模型在非线性处理方面的不足，还可以通过物理约束提升数据驱动模型的可靠性，为未来智能船舶的操纵控制与安全航行提供有力的技术支持。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工