本技术属于强化学习技术领域,介绍了一种利用AI大模型辅助决策的系统和方法。该系统在虚拟军事训练环境中,通过强化学习训练智能体,模拟对抗指挥官,以增强训练效果。智能体的在线训练流程包括:数据采集与向量化、基于信息选择动作、执行动作后获取奖励并存储经验、利用预训练神经网络确定训练时机和经验数量,以及在适当时刻启动训练。该发明通过智能体在线训练机制,优化了服务器的数据处理任务分配,降低了处理能力需求的峰值,并确保了智能体的对抗强度。
背景技术
在虚拟环境下的军事训练中,采用强化学习训练的智能体来作为对抗方辅助指挥官进行训练,强化学习需要通过不断地迭代更新智能体的参数来对智能体进行优化,为了让智能体能够快速适应指挥官的策略变化并持续创新,需要对智能体进行在线学习和调整,在指挥官训练过程中,智能体需要同时进行推理和学习,智能体的训练与游戏的运行都需要依赖服务器的网络带宽和处理能力,军事训练进程中的对抗烈度是不一样的,智能体在接收到设定数量的行为奖励之后就会启动一轮训练,对抗烈度更高的时间段环境反馈的给智能体行为的奖励的频率更高,所以智能体更新的频率更高,同时的军事训练的虚拟环境运行所需的数据处理量也更多,在这段时间产生数据处理量的突增,如果冗余配置服务器的处理能力来保证最大数据处理量,则会在其他时间段浪费服务器的处理能力。需要对伴随游戏进程波动的游戏运行数据处理任务和智能体训练的数据处理任务进行合理分配,降低对服务器处理能力的需求。
实现思路