本技术提出了一种分布式RAMdisk缓存系统,旨在加速大模型的分发和部署。系统包含数据湖存储模块,负责集中存储模型文件,并提供对象存储服务与事件通知功能。
背景技术
大模型的部署通常是百GB模型文件的高并发重复读取。过去常用的基于镜像分发的方案,如图1所示。训练产出的模型首先需要落到临时存储,完成镜像的制作,包括数据打包、压缩等过程,然后再从临时存储写入持久化的镜像仓库。在推理部署时,再从镜像仓库并发拉取到各推理实例的本地存储,然后进行解压和数据校验。可以看到在这个方案下,吞吐主要取决于镜像仓库底层存储的能力,而流程上在镜像制作和镜像分发两个阶段都需要引入额外的开销。同时大型模型,特别是具有数百万或数十亿参数的深度学习模型,会导致笨重的镜像。这导致分发速度慢,下载和上传大型镜像需要相当长的时间和带宽,阻碍了部署速度和可扩展性。并且在存储开销方面,存储多个版本的大型镜像会消耗大量的存储资源。同时在镜像中管理不同版本的模型及其依赖项可能变得复杂,导致潜在的兼容性问题和回滚到以前版本的挑战。而且,更新模型的特定组件通常需要重建整个镜像,即使只有一小部分发生了变化,这是低效且耗时的。最后每个容器化的模型实例都包含整个运行时环境和依赖项,导致冗余和资源利用效率低下,特别是在同一系统上部署多个模型时。
其次,另一种基于传统分布式缓存的加速方案中,没有内存盘,缓存依赖于较慢的存储层,如SSD或HDD,为所有数据提供服务。这不可避免地导致访问模型组件的延迟增加,影响推理速度和吞吐量。其次对于性能关键型应用或具有特定延迟敏感组件的模型,缺少内存盘可能会造成瓶颈,限制整体系统性能。并且没有专用的热数据层,其他存储层可能会因频繁的访问请求而过载,导致资源利用效率低下和潜在的性能下降。最后无法以尽可能低的延迟提供数据可能会阻碍系统的可扩展性,特别是在处理高容量工作负载或实时应用时。。
需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
实现思路