分布式RAMdisk缓存系统:大模型部署加速方案
2025-02-16 10:08
No.1340625960298618880
技术概要
PDF全文
本技术提出了一种分布式RAMdisk缓存系统,旨在加速大模型的分发和部署。系统包含数据湖存储模块,负责集中存储模型文件,并提供对象存储服务与事件通知功能。
背景技术
大模型的部署通常是百GB模型文件的高并发重复读取。过去常用的基于镜像分发的方案,如图1所示。训练产出的模型首先需要落到临时存储,完成镜像的制作,包括数据打包、压缩等过程,然后再从临时存储写入持久化的镜像仓库。在推理部署时,再从镜像仓库并发拉取到各推理实例的本地存储,然后进行解压和数据校验。可以看到在这个方案下,吞吐主要取决于镜像仓库底层存储的能力,而流程上在镜像制作和镜像分发两个阶段都需要引入额外的开销。同时大型模型,特别是具有数百万或数十亿参数的深度学习模型,会导致笨重的镜像。这导致分发速度慢,下载和上传大型镜像需要相当长的时间和带宽,阻碍了部署速度和可扩展性。并且在存储开销方面,存储多个版本的大型镜像会消耗大量的存储资源。同时在镜像中管理不同版本的模型及其依赖项可能变得复杂,导致潜在的兼容性问题和回滚到以前版本的挑战。而且,更新模型的特定组件通常需要重建整个镜像,即使只有一小部分发生了变化,这是低效且耗时的。最后每个容器化的模型实例都包含整个运行时环境和依赖项,导致冗余和资源利用效率低下,特别是在同一系统上部署多个模型时。 其次,另一种基于传统分布式缓存的加速方案中,没有内存盘,缓存依赖于较慢的存储层,如SSD或HDD,为所有数据提供服务。这不可避免地导致访问模型组件的延迟增加,影响推理速度和吞吐量。其次对于性能关键型应用或具有特定延迟敏感组件的模型,缺少内存盘可能会造成瓶颈,限制整体系统性能。并且没有专用的热数据层,其他存储层可能会因频繁的访问请求而过载,导致资源利用效率低下和潜在的性能下降。最后无法以尽可能低的延迟提供数据可能会阻碍系统的可扩展性,特别是在处理高容量工作负载或实时应用时。。 需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张盛  刘方明  马月  贺澎  岳知润  王博闻
技术所属: 清华大学深圳国际研究生院  鹏城实验室
相关技术
FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
水利对象关联关系建立方法 水利对象关联关系建立方法
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利