循环缓存优化的滑动窗口注意力机制加速技术
2025-02-11 21:19
No.1338982884396244992
技术概要
PDF全文
本技术介绍了一种循环缓存优化的滑动窗口注意力机制加速方法及其装置,旨在提高滑动窗口注意力机制中的内存存储效率,解决大模型在序列处理上速度慢的问题。
背景技术
随着人工智能技术的发展,特别是深度学习技术的进步,注意力机制(AttentionMechanism),因其在处理长依赖关系上的优越性能而逐渐成为自然语言处理、语音识别等技术领域的核心组件。传统的神经网络模型在处理长序列时存在梯度消失或梯度爆炸的问题,同时,随着序列长度的增长,模型计算的复杂度与序列长度的平方成线性关系,这使得大模型在长序列数据上的处理变得非常耗时。 近年来,Transformer架构通过引入滑动窗口自注意力机制(Sliding WindowAttention,SWA),允许模型并行处理固定窗口大小的数据,从而显著提高了训练效率。 SWA的计算过程如下: 其中,为二维矩阵,N1为文本长度,H为隐藏层长度;dk 为矩阵第二维度的长度H,KT 为矩阵K的转置。在进行softmax处理之前乘以一个掩码(),SA的Mask为下三角的矩阵,使得每个文本位置的token只注意到该位置及之前的文本内容。SWA的Mask与SA不同,存在一个窗口大小(window size),使得Attention只关注窗口大小内的文本内容。 在大模型(Large Language Model,LLM)推理过程了为了减少模型的重复计算,一般会使用KV Cache技术对Attention中计算的K、V矩阵进行缓存,避免了新请求Query推理计算时重复历史KV矩阵的计算,降低模型推理的计算量,提高模型的推理速度。 然而现有的一些KV Cache技术对于SWA计算存在内存的利用率较低、存储效率低下的问题。
实现思路
阅读余下40%
技术概要只是部分技术介绍,您可查阅PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
岳丹阳
技术所属: 上海岩芯数智人工智能科技有限公司
相关技术
一种不涉及隐私的云平台管理系统 一种不涉及隐私的云平台管理系统
一种适用于日志虚拟列表场景的搜索滚动定位方法及系统 一种适用于日志虚拟列表场景的搜索滚动定位方法及系统
用于处理算子的方法和装置 用于处理算子的方法和装置
一种非均匀时间步长的热电路仿真方法及相关设备 一种非均匀时间步长的热电路仿真方法及相关设备
基于数字化身份证的物品认证方法、系统及存储介质 基于数字化身份证的物品认证方法、系统及存储介质
一种智能设计过程的流入量图生成方法、设备及存储介质 一种智能设计过程的流入量图生成方法、设备及存储介质
基于动态数据库直方图发布的差分隐私方法、系统及设备 基于动态数据库直方图发布的差分隐私方法、系统及设备
一种煤层开采沉陷的模拟方法及系统 一种煤层开采沉陷的模拟方法及系统
一种基于进化算法的冷藏车辆配送路径优化方法 一种基于进化算法的冷藏车辆配送路径优化方法
冰川跃动预测与数据样本增强管理方法 冰川跃动预测与数据样本增强管理方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利