智能感知型大规模数据前缀KV排序技术与系统

123技术园

首页 / 技术内容

2025-02-13 14:23

No.1339602955510489088

技术概要

PDF全文

本技术揭示了一种基于智能感知的大规模数据前缀KV排序技术与系统，该技术涉及利用重要信息收集模块，依据历史查询数据和前缀计算结果，对基数树中每个节点的token进行重要性评估和排序。

背景技术

现有前缀感知的大模型推理系统往往直接使用大模型进行推理可能生成次优的结果。例如，当被问及模型训练数据中未包含的最近事件时，模型可能会给出错误的答案。此外，由于诸如幻觉等问题，模型的回答可能包含不准确或误导性的信息。为了提高回答的质量，应用程序通常会在用户查询(Query)前添加包含含丰富信息的上下文，即前缀(Prefix)，以形成完整的请求(Request)，然后将请求输入到大语言模型(LLM)中。例如，检索增强生成技术会从外部知识库中搜索与用户查询相关的文档。高级的GPT插件，如Chameleon，在系统提示中包括工具定义，并使用少样本示例来引导LLM执行复杂的推理任务。大模型推理的过程中，会为每个token在模型的每层中都计算生成一个K张量和一个V张量。然而，研究人员发现不同的请求的前缀中往往部分或完全相同(例如，类似的查询可能会使用RAG检索部分或全部相同的相关文档；同一个GPT插件可以被多次使用，从而在不同请求中生成相同的系统提示)。因此，现有前缀感知的大模型推理系统通常会存储并重用这些共享前缀的K和V张量(称为前缀KV)以避免前缀部分的KV重新计算。当一个包含重复前缀的新请求到达时，系统会复用其前缀KV加载到GPU内存中，从而避免了前缀KV的重新生成，只需要对查询部分进行计算即可。因此，重用前缀KV会降低大模型生成第一个token的时间(time to first token,TTFT)，提升用户体验。下面用一个例子来说明这个过程：举个例子，假如有一个用户使用一个专门用于中文翻译成英文的大模型插件，用户依次想翻译：苹果、香蕉这两个词。当用户输入“苹果”这个查询(Query)时，系统会在前面添加前缀(Prefix)：“请把用户的中文翻译成英文。”，因此送入大模型的推理请求(Request)实际上是“请把用户的中文翻译成英文。苹果”。大模型会为整个请求中的每个token都计算生成K张量和V张量，并且把整个前缀对应的K和V存储到本地磁盘中(由于数据总量很大CPU内存存不下，需要往本地磁盘存储)。假设前缀的token划分结果是“请把/用户/的/中文/翻译/成/英文。”由于前缀被划分为7个token，所以在模型的每层中就有7个K和7个V张量。当用户第二个查询“香蕉”到来的时候，系统送入大模型的请求是“请把用户的中文翻译成英文。香蕉”，这时，为了完成每层的推理计算，大模型不需要重新计算前缀的KV，因为可以直接复用之前存下来的7个K和7个V，然后只计算“香蕉”的K和V即可，从而避免了冗余计算，缩短了TTFT。此外，现有前缀感知的大模型推理系统还会考虑token重要性，减少部分token的加载，例如在复用前缀KV时，仅加载“请把”、“中文”、“翻译”、“英文”这四个token的K和V就能获得和加载全部前缀KV“请把用户的中文翻译成英文”相同的大模型推理结果，因为其他的token其实并不重要，对推理结果没有帮助。术语的说明： Token：输入给大模型的句子被分词后所形成的词汇/短语等，是后续进入大模型被编码的基本单位。查询(Query)：用户给LLM输入的问题(自然语言描述)；前缀(Prefix)：加在用户输入的查询问题前面的自然语言句子；键(Key,K)：大模型推理时会为每个token在模型的每层计算生成一个K张量；值(Value，V)：大模型推理时会为每个token在模型的每层计算生成一个V张量；前缀KV：前缀在推理中所生成的KV张量。块(Chunk)存储与基数树(Radix Tree)：现有系统为了提高K和V传输到GPU的效率，采用数据块(chunk)为粒度进行存储，即把连续的几个token对应的K或者V存储在一起。例如上面的例子中的“请把”的K和“用户”的K存储成一个块对象。此外，为了尽可能增加重用的前缀KV比例，现有系统采用基数树(Radix Tree)的数据结构来记录已经计算过KV的前缀，方便新请求进行匹配和搜索。在基数树中，每个节点代表前缀中的几个token，并且从根到任意叶子节点的路径表示一个完整的前缀。如果两个前缀有相同的token，那么共同的token将只在树中表示一次。继续以上面的例子来解释这个过程：假设有另一个专用用于中文翻译成日语的大模型插件。用户输入“梨”的时候，该插件实际提交给大模型的请求是：“请把用户的中文翻译成日语。梨”。由于这个插件的前缀与之前插件的前缀并不完全相同，因此仅可以复用前面部分token对应的KV。现有前缀感知的大模型推理系统存在的问题：虽然仅加载部分重要的前缀KV可以降低数据加载量，然而现有系统在加载重要前缀KV时会产生读放大的问题。例如上面的例子中，当加载重要token“请把”的K或者V的时候，由于不重要token“用户”的K或V是存储在同一个数据块中的，因此导致也会把它从本地磁盘加载到CPU内存中，造成了读放大的问题。总的来说，现有系统会读取不必要的数据从而浪费读取带宽，导致读延迟增加。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

何水兵陈伟剑瞿皓阳张瑞东

技术所属：浙江大学

相关技术

一种模块化工业算力设备 一种模块化工业算力设备
本实用新型公开了一种模块化工业算力设备，包括电源单元和算力单元，电源单元包括第一箱体、电源和散热风扇，电源和散热风扇均设置于第一箱体内同侧，散热风扇出风口朝向电源。算力单元包括第二箱体、显示屏、开关重启键、DB9接口、USB接口、WiFi网卡天线、工业主板、显卡和显卡挡板，所有箱体均为可拆卸结构，且侧板均设置有散热槽，所有箱体在竖直方向的贴设面均开设有连通的接线开口槽，电源通过接线开口槽连接工业主板和显卡，工业主板设置于第二箱体的底板上，在靠近工业主板的COM引脚的侧板上设置工业主板的IO挡板，WiFi网卡天线和显卡位于IO挡板所在侧板，显示屏位于显卡对侧，本实用新型的算力机构提高了散热效率，使组件的维护和升级更加便捷。
一种基于边缘计算和大数据算法的RV减速器信息管理系统  一种基于边缘计算和大数据算法的RV减速器信息管理系统 
 本发明公开一种基于边缘计算和大数据算法的RV减速器信息管理系统，所述的数字化车间系统包括零件管理模块、权限管理模块、产品装配模块、产品库存管理模块以及产品检测模块。减速器的关键零部件摆线轮、针齿壳、行星架分别打印标记可读取的二维码标志。本发明利用边缘计算方法对制造车间的每个生产环节设置客户端模块系统对减速器的零件装配、零件加工、产品的出入库环节进行信息管理和追溯；在数据处理中采用智能大数据算法的双向映射提高数据的处理效率。本发明确保RV减速器从业务流程到生产制造的各个环节的信息共享、信息流的准确方向，提高RV减速器制造企业对产品信息管理效率和追溯的准确性。
一种独柱墩桥梁加固后的健康监测预警方法及系统  一种独柱墩桥梁加固后的健康监测预警方法及系统 
 本发明公开了一种独柱墩桥梁加固后的健康监测预警方法及系统，属于桥梁健康监测技术领域，通过定制化监测方案确保数据精准可靠，利用实时监测数据与有限元模型分析，精准评估桥梁状态，及时发现并预警潜在安全隐患。该方法不仅针对加固后桥梁的特定结构问题强化监测，还通过资源优化配置提升监测效率与经济性。结合有限元模型修正，显著提高了桥梁状态预测的精度与实用性。此外，预警指标的自适应调整机制确保了预警的准确性与及时性，有效降低了漏报风险。本发明为加固后独柱墩桥梁的安全管理提供了科学、高效的解决方案。
一种具有无极滚轮和侧滚轮的鼠标 一种具有无极滚轮和侧滚轮的鼠标
本实用新型提出一种具有无极滚轮和侧滚轮的鼠标，涉及鼠标产品技术领域，包括主体、侧滚轮键、侧盖，主体的一侧设有安装槽，侧滚轮键倾斜设置并收容于安装槽内，侧滚轮键与主体固定连接且电连接，侧盖固定连接于主体一侧并与主体的表面呈弧面过渡，侧盖遮挡侧滚轮键的一部分，侧滚轮键的一侧凸出于侧盖；本具有无极滚轮和侧滚轮的鼠标能够便于侧滚轮结构的组装，缩短组装工时，提高生产效率。
一种文本展示方法、装置、设备和存储介质 一种文本展示方法、装置、设备和存储介质
本发明实施例公开了一种文本展示方法、装置、设备和存储介质。该方法包括:获取目标文本；将所述目标文本中同一段落内的句子依次两两输入至预先训练好的神经网络模型以得到同一段落内句子间的相似度；根据同一段落内句子间的相似度展示所述目标文本。本发明实施例实现了过滤文本中不协调的内容。
一种多级行政区划要素的快速检索与展示方法及系统 一种多级行政区划要素的快速检索与展示方法及系统
本发明公开一种多级行政区划要素的快速检索与展示方法及系统，属于地理信息技术领域，包括以下步骤:通过拓扑抽稀技术、数据压缩技术及空间索引技术，对图形数据进行预处理，实现图形数据的高质量压缩和高速访问；采用扁平化存储结构设计，对行政区划属性数据进行优化处理，创建属性索引，实现一步检索命中；通过FTS基于自然语言的搜索技术创建全文检索表，使用simple库进行中文分词支持基于行政区划名称的全文检索；通过内存与Redis键值存储系统结合的二级缓存策略，对属性检索实施缓存优化，提高并发性能。本发明可以有效降低实现此种能力的软件系统的技术成本和硬件资源需求，满足业务使用方基于自有数据搭建个性化、低成本的应用需要，而且运行高效。
一种审计数据价值评价方法及设备 一种审计数据价值评价方法及设备
本发明涉及一种审计数据价值评价方法及设备，该方法包括:构建审计数据规则库；标记数据类型信息所属的来源属性；构建数据价值待评价集合；基于审计数据价值评价体系，将数据价值待评价集合与审计数据规则库中对应种类的规则进行匹配比较，得到每项影响因素评分，计算每项影响因素所占的权重，计算得到审计数据价值评价结果。本发明在构建审计数据规则库时，综合考量了数据字典、国家标准、地方标准、行业标准以及专家知识库，将主观评价与客观评价相融合，并基于数据质量、数据内生价值、数据应用价值和市场价值四项影响因素对审计数据价值进行评价，进而得到了准确性和综合性较高的评价结果。
一种基于智能背心生产质量安全溯源方法及系统 一种基于智能背心生产质量安全溯源方法及系统
本发明涉及生产质量安全溯源技术领域，尤其涉及一种基于智能背心生产质量安全溯源方法及系统。所述方法包括以下步骤:获取智能背心生产环节数据，其中智能背心生产环节数据包括原材料采购阶段数据、监测制造阶段数据、质检阶段数据和包装阶段数据；对原材料采购阶段数据进行物料信息提取，得到智能背心物料信息数据；对监测制造阶段数据进行生产设备运行分析，生成生产设备运行数据；对质检阶段数据进行背心质检，生成背心检验数据；对包装阶段数据进行成品包装状态分析，生成成品包装状态数据。本发明通过物联网技术、射频识别技术、数据分析技术和区块链技术，提高了数据分析的多维度、多层次数据综合分析问题。
一种线程监控的方法、装置、计算机设备和存储介质 一种线程监控的方法、装置、计算机设备和存储介质
本申请涉及一种线程监控的方法、装置、计算机设备和存储介质。所述方法包括:建立指针链表，根据指针链表建立线程，其中，指针链表包括线程名称、堆栈信息；根据线程名称和堆栈信息获得线程捕捉信号；根据线程捕捉信号对当前运行的线程的运行状态进行监控。采用本方法能够提高线程崩溃时分析的效率。
一种无线连接式网络计算机 一种无线连接式网络计算机
本发明属于计算机技术领域，具体的说是一种无线连接式网络计算机，通过在底座的表面开设键盘槽，将键盘固定在滑动装置之上，滑动装置可相对于键盘槽向外滑动，从而调整键盘相对于屏幕的距离，使得不同的使用者都能找到一个适合自己的键盘和屏幕间距，减轻由于键盘位置不适而造成的，颈部、背部和轴部酸痛。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工