本技术公开了一种复杂场景的机器人智能体强化学习训练方法,其通过构建包含障碍物、动态目标以及环境约束等复杂场景、适用于多智能体系统的强化学习算法环境、状态转移模型,并采用强化学习算法构建为每个机器人智能体构建独立的神经网络;将智能体的给定状态、时序信息、历史状态信息的向量作为所述状态转移模型的输入,输出预测状态的状态转移概率和奖励信息;所述神经网络输出的动作策略和动作价值通过所述状态转移模型中执行并产生新的预测状态和奖励信息;通过调整神经网络的超参数,利用大规模分布式训练架构对所述决策网络和所述评估网络进行协作训练,实现多智能体的并行学习和协同决策,提高智能体在复杂场景中的性能表现和泛化能力。
背景技术
近年来,随着人工智能技术及机器人技术的迅猛发展,多智能体机器人系统(Multi-Agent Robot Systems,MARS)因其独特的优势在多个领域如协同作业、资源优化分配、以及未知环境探索中展现出前所未有的潜力和应用价值。这类系统通过集成多个具备自主决策和交互能力的智能体,能够高效协同完成复杂任务,提高整体作业效率和系统鲁棒性。
目前,机器人智能体在复杂场景中的应用需求日益增长。这些复杂场景包括但不限于城市街道、工厂生产线、自然灾害救援现场等,它们通常具有高度的动态性、不确定性和多样性。
传统的训练方法大多基于预设的规则和模型,缺乏对环境变化和任务需求的适应性。当环境发生变化或任务需求改变时,机器人智能体可能无法做出有效的应对,导致性能受限甚至任务失败。
具体包括:
一方面,复杂场景中的环境状态往往具有高维性和连续性,这使得状态空间的探索变得异常困难。传统的训练方法在处理高维状态空间时往往效率低下,甚至可能陷入局部最优解。
另一方面,复杂场景中的任务需求通常具有多样性和不确定性。机器人智能体需要在不同的任务之间灵活切换,并根据任务需求调整自己的策略。然而,传统的训练方法往往难以处理这种多样性和不确定性,导致智能体在任务切换时表现不佳。
此外,复杂场景中的机器人智能体通常需要与其他智能体进行交互。这种交互可能涉及竞争、合作或协调等多种关系。传统的训练方法往往只考虑单个智能体的优化,而忽略了智能体之间的交互关系,这可能导致智能体之间的冲突和竞争,降低整体性能。
因此,针对复杂场景的机器人智能体强化学习训练的研究具有重要的理论意义和实际应用价值。
实现思路