高效文本问答系统：利用精简型大型语言模型

123技术园

首页 / 技术内容

2025-02-14 11:25

No.1339920600973713408

技术概要

PDF全文

本技术介绍了一种高效的文本问答系统，该系统基于精简型大型语言模型，属于人工智能技术领域。该方法包括接收输入文本，并将其传递给精简型大型语言模型以获得响应。

背景技术

一方面，基于超大规模参数的语言模型体现出了令人振奋的通用和专用的涌现学习能力，另一方面，训练和推理一个大语言模型所需的算力也使得大语言模型的门槛居高不下。大语言模型的表现和其模型规模直接相关，规模效应十分显著，模型参数量越大，训练数据越多，则模型效果越好，这使得成本和效果成为了困难的权衡，而已投入实用的大语言模型也面临巨量的算力能源消耗。因此，学界和业界一直在努力小型化大语言模型，使得小规模的语言模型能保留接近大语言模型的能力。目前，小型化语言模型大多关注在模型上微调参数，以忘记一些无需知道的敏感信息，从而保留大语言模型的通用知识能力，使小模型在各个基准测试（benchmark）上取得更好的得分。但在实际应用中，有很多场景中并不需要大语言模型的通用知识能力，只需要具体领域的知识能力，比如客服、问诊、咨询、导航、推荐等，而这些细分领域的大语言模型更多地是通过对通用大语言模型的微调来得到的，使其一方面有大语言模型的通用能力，另一方面也拥有领域专属的知识能力，这使得专有大语言模型必须保留大语言模型的参数量，同时保留大量任务并不需要的知识能力。另外，微调更新的是模型参数，并没有改变参数量，也没有改变模型的大小和结构。基于此，我们提出了一种在训练微调模型专有知识能力的同时，尽可能忘记不需要的多任务解决能力，只保留与特定任务相关的通用语言能力的方法。我们提出剪枝以遗忘的方法，通过剪枝来促使大语言模型忘记不重要的知识，但保留当前特定任务相关的重要神经网络通路。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王棣

技术所属：苏州元脑智能科技有限公司.

相关技术

一种基于属性感知的Web网页信息抽取方法及装置  一种基于属性感知的Web网页信息抽取方法及装置 
 本发明公开一种基于属性感知的Web网页信息抽取方法及装置，属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据，将其保存下来作为模型的原始输入，在原始数据上对数据进行预处理，去除script等原始数据中无用的标签输入，减少输入模型的噪声信息；提取网页中的变量节点，构造输入模型的token序列和xpath序列，同时记录序列的位置信息，在预训练模型的基础上增加属性感知嵌入模块，使得预训练模型模型能够感知到性的模式信息，将输入信息的嵌入通过一个分类层，模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率，为下游任务提供丰富的结构化知识，促进下游任务的发展。
一种场景问答模型生成方法及装置  一种场景问答模型生成方法及装置 
 本发明提供一种场景问答模型生成方法及装置，涉及人工智能技术领域。所述方法包括:获取各个预设性格类型对应的多个样本问答对；针对每个所述预设性格类型，使用所多个样本问答对训练基础模型，得到预设性格类型对应的性格模型；利用性格模型生成场景问题对应的场景答复，并基于场景答复获取所述性格模型的偏好分数；基于每个性格模型的偏好分数，将所有性格模型融合为指定场景下的目标问答模型。本发明融合得到的目标问答模型在回答指定场景中的问题时，可给出更加符合用户偏好的回答，可有效提升问答模型在指定场景中的对话自然度。
社交媒体特征数据的预估方法及装置  社交媒体特征数据的预估方法及装置 
 本发明实施例中提供了一种社交媒体特征数据的预估方法、装置及电子设备，属于数据处理技术领域，该方法包括:对采集到的多个社交媒体数据进行数据清洗与格式化操作，得到标准数据；对构建的预测数据D={D1,D2,D3}按时间顺序整理，并将整理后的预测数据分割为训练集和测试集，使用训练集训练LSTM模型，通过调整权重和偏置项最小化预测误差，在训练完成后，将新的目标特征传播量数据输入LSTM模型，基于学习到的模式输出未来预设时间段内的目标特征传播量预测值D4；利用图表库生成目标特征传播量的趋势图、情感分析图和用户互动图。本发明提高了社交媒体特征数据预估的准确性。
一种基于数字孪生的双向DC/DC变换器状态监测方法  一种基于数字孪生的双向DC/DC变换器状态监测方法 
 本发明公开了一种基于数字孪生的双向DC/DC变换器状态监测方法。方法包括建立基于状态空间模型的数字孪生模型；采集双向DC/DC变换器实际运行时的电感电流和输出电压；根据实际运行时的电感电流和输出电压和电感初始值、电容初始值和电阻初始值，利用数字孪生模型，获得电感电流和输出电压的计算值；将实际值与计算值进行比较，计算模型误差；根据模型误差不断迭代更新双向DC/DC变换器的电感、电容和电阻；直至模型误差符合预设误差要求为止；将最后一次迭代更新的电感、电容和电阻，与正常情况下及各种故障情况下的电感、电容和电阻进行比较，实现了各元件状态的检测。本发明方案可实现双向DC/DC变换器各元件的故障检测。
基于模仿学习的驾驶培训教学方法及系统  基于模仿学习的驾驶培训教学方法及系统 
 本发明提供基于模仿学习的驾驶培训教学方法及系统，涉及智驾技术领域，包括获取多个人类驾驶员在多种驾驶场景下的驾驶行为示范数据，并提取所述驾驶行为示范数据中的驾驶行为特征；基于所述驾驶行为示范数据计算人类驾驶员的实际驾驶行为轨迹的第一特征期望；采用强化学习算法优化智能体的驾驶策略，通过所述智能体在模拟环境中执行所述驾驶策略得到智能体的模拟驾驶行为轨迹计算第二特征期望；通过最小化所述第一特征期望与所述第二特征期望之间的差异并且结合生成对抗网络交替优化更新所述隐含奖励函数的参数；将所述智能体驾驶策略用于所述智能体的辅助驾驶决策。
一种多参与方监理数据管理方法  一种多参与方监理数据管理方法 
 本发明具体涉及一种多参与方监理数据管理方法，包括步骤:为所有监理参与方创建分布式数字身份；定义监理数据的不同类别及其敏感级别；当某个监理参与方需要获取监理数据时，该参与方需向监理单位发起数据授权请求；监理单位接收到请求后，基于请求方的身份验证和数据访问规则，决定是否批准请求；如果请求被批准，监理单位将通过自己的身份私钥和请求方的分布式数字身份颁发一个可验证声明；施工单位在收到可验证声明后，将其连同数据获取请求一起发送给数据提供方；数据提供方接收到请求后，提取可验证声明中的信息；数据提供方使用请求方的身份公钥对可验证声明进行验签，确认无误后根据可验证声明中的授权范围提供相应的监理数据。
风电低出力事件判别及功率预测模型训练方法及装置  风电低出力事件判别及功率预测模型训练方法及装置 
 本公开提供了一种风电低出力事件判别及功率预测模型训练方法及装置，涉及风电功率预测技术领域，所述方法包括:对历史风电数据进行主成分分析，对主成分分析结果进行聚类，确定风电低出力事件对应的数据，构成样本集；对样本集中的至少一个气象要素和至少一个气象要素对应的风电功率点进行风电低出力事件类型的标注；基于样本集对风电低出力事件分类模型进行训练，基于样本集对不同风电低出力事件对应的风电低出力功率预测模型进行训练，如此，在后续功率预测场景中，可以根据不同风电低出力事件进行预测，增加风电功率短期功率预测的精度，提高风电功率预测结果对电力调度的积极意义。
一种基于贪心策略的抗社交网络用户身份关联方法  一种基于贪心策略的抗社交网络用户身份关联方法 
 本发明涉及社交网络分析技术领域，公开了一种基于贪心策略的抗社交网络用户身份关联方法。为了有效建模和求解抗社交网络用户身份关联问题并平衡成本与收益，提出了一种基于贪心策略的账号注入方案，将对用户身份关联模型的攻击问题建模为最大化确定的错误配对数量问题，让这些配对的相似度得分一定大于现有账号对之间的相似度得分，从而使对社交网络用户身份关联的攻击问题可解；基于贪心策略采用基于账号网络角色的脆弱性评估方法来识别脆弱性，实现从易到难的渐进式攻击；同时设计了一种基于贪心策略的注入策略搜索方法，用以确定应在注入账号和哪些现有账号之间发起好友连接，从而以低成本实现高效攻击。
直流变换器故障诊断方法、装置、设备、介质及程序产品  直流变换器故障诊断方法、装置、设备、介质及程序产品 
 本发明公开了一种直流变换器故障诊断方法、装置、设备、介质及程序产品，该方法包括:采集直流变换器的历史运行数据和故障样本数据，对历史运行数据和故障样本数据进行预处理，获得数据集，基于数据集构建核函数，构建原始模型，并基于核函数对原始模型进行训练和优化，获得故障诊断模型，原始模型包括支持向量机，采集直流变换器的实时运行数据，并对实时运行数据进行预处理，将预处理后的实时运行数据输入至故障诊断模型进行故障诊断，获得直流变换器的故障概率和故障类型，从而实现对直流变换器的运行状态进行监测，确保故障诊断时效性，有效地提升故障诊断的准确性，为故障处理提供可靠的诊断结果，提升故障处理的响应速度。
一种商业秘密保护泄密点分析的方法  一种商业秘密保护泄密点分析的方法 
 本发明公开了一种商业秘密保护泄密点分析的方法，包括如下步骤:调查得到每个部门员工涉及的数据资产；将数据资产的数据放入数据库；调查部门数据资产流转规则，将不同部门员工数据整合成基础的数据表，对每个数据表加标签，并对数据做替换处理；根据流转规则对数据表做关联处理得到不同的数据关联表；将不同的数据关联表的数据提取，与各个秘密保护单元做差异分析；做出泄密点分析报告；通过本发明的分析方法，借助常规的工具，可将众多隐藏在貌似合理的业务流程中的泄密风险点挖掘出来，做到全面的商业秘密保护工作；通过数据替换，借助常规分析工具的同时能做到分析处理过程中商业秘密的防泄漏性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工