本技术涉及数据存储技术领域,提出了一种检查点文件保存方案,包括装置、电子设备和存储介质。该方案旨在获取包含主容器的目标容器组,主容器负责执行模型训练任务。
背景技术
在模型训练过程中,会产生检查点文件(checkpoint),检查点文件用于保存模型在训练过程中特定时间点的状态,包括模型网络参数、优化器状态等;相关技术中,通常将检查点文件保存至共享存储中,模型训练和检查点文件的保存同时进行,占用了计算机算力,导致检查点文件的保存速度降低,影响模型训练效率。
由此可见,相关技术中的检查点文件保存方法,存在由于模型训练和检查点文件的保存同时进行,影响模型训练效率的技术问题。
实现思路