高效文本问答系统:利用精简型大型语言模型
2025-02-14 11:25
No.1339920600973713408
技术概要
PDF全文
本技术介绍了一种高效的文本问答系统,该系统基于精简型大型语言模型,属于人工智能技术领域。该方法包括接收输入文本,并将其传递给精简型大型语言模型以获得响应。
背景技术
一方面,基于超大规模参数的语言模型体现出了令人振奋的通用和专用的涌现学习能力,另一方面,训练和推理一个大语言模型所需的算力也使得大语言模型的门槛居高不下。大语言模型的表现和其模型规模直接相关,规模效应十分显著,模型参数量越大,训练数据越多,则模型效果越好,这使得成本和效果成为了困难的权衡,而已投入实用的大语言模型也面临巨量的算力能源消耗。因此,学界和业界一直在努力小型化大语言模型,使得小规模的语言模型能保留接近大语言模型的能力。 目前,小型化语言模型大多关注在模型上微调参数,以忘记一些无需知道的敏感信息,从而保留大语言模型的通用知识能力,使小模型在各个基准测试(benchmark)上取得更好的得分。 但在实际应用中,有很多场景中并不需要大语言模型的通用知识能力,只需要具体领域的知识能力,比如客服、问诊、咨询、导航、推荐等,而这些细分领域的大语言模型更多地是通过对通用大语言模型的微调来得到的,使其一方面有大语言模型的通用能力,另一方面也拥有领域专属的知识能力,这使得专有大语言模型必须保留大语言模型的参数量,同时保留大量任务并不需要的知识能力。另外,微调更新的是模型参数,并没有改变参数量,也没有改变模型的大小和结构。 基于此,我们提出了一种在训练微调模型专有知识能力的同时,尽可能忘记不需要的多任务解决能力,只保留与特定任务相关的通用语言能力的方法。我们提出剪枝以遗忘的方法,通过剪枝来促使大语言模型忘记不重要的知识,但保留当前特定任务相关的重要神经网络通路。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
王棣
技术所属: 苏州元脑智能科技有限公司.
相关技术
一种基于属性感知的Web网页信息抽取方法及装置 一种基于属性感知的Web网页信息抽取方法及装置
一种场景问答模型生成方法及装置 一种场景问答模型生成方法及装置
社交媒体特征数据的预估方法及装置 社交媒体特征数据的预估方法及装置
一种基于数字孪生的双向DC/DC变换器状态监测方法 一种基于数字孪生的双向DC/DC变换器状态监测方法
基于模仿学习的驾驶培训教学方法及系统 基于模仿学习的驾驶培训教学方法及系统
一种多参与方监理数据管理方法 一种多参与方监理数据管理方法
风电低出力事件判别及功率预测模型训练方法及装置 风电低出力事件判别及功率预测模型训练方法及装置
一种基于贪心策略的抗社交网络用户身份关联方法 一种基于贪心策略的抗社交网络用户身份关联方法
直流变换器故障诊断方法、装置、设备、介质及程序产品 直流变换器故障诊断方法、装置、设备、介质及程序产品
一种商业秘密保护泄密点分析的方法 一种商业秘密保护泄密点分析的方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利