本技术公开一种基于强化学习的多无人机协同对抗学习方法,设计基于多智能体间的通信机制并结合长短期记忆网络的特征聚合提取模块,准确高效地提取战场态势特征;采用分层强化学习方法,引入底层机动控制模块和上层作战决策模块,分别实现底层控制和上层决策,基于高效环境并行模块进行训练,提升复杂作战场景下的作战策略训练效率;此外,通过基于种群演化多样化的多智能体博弈训练模块提升了作战策略的泛化能力。本发明能够有效提取战场态势特征,进行高效协同作战训练,从而适应复杂多变的战场环境,提高无人机自主协同作战的泛化能力。
背景技术
近年来,随着无人作战飞机(Unmanned Combat Aerial Vehicle, UCAV)技术的迅速发展,智能无人空战系统逐渐成为现代军事对抗中的核心力量。传统的空战决策系统主要依赖于专家知识,通过将战术规则编码成固定的操作指令,或者利用模糊系统、演化学习等技术来生成应对策略。这些方法在面对规则明确、场景简单的任务时能够发挥一定作用,且在某些特定的军事应用中展示出较为稳定的表现。然而,随着空战环境日益复杂化,尤其是在多智能体协同作战的背景下,传统方法的局限性日益显现。具体而言,传统的战术规则和策略生成方法由于对环境和敌对行为的变化缺乏足够的适应性,难以应对现代空战中队友变化、对手未知以及复杂多变的战场条件,从而严重限制了这些系统在实战中的应用效果。
为了应对复杂的空战环境,强化学习技术逐渐被引入到智能无人空战系统的开发中。强化学习通过智能体与环境的不断交互,逐步学习最优的决策策略,在一定程度上克服了传统方法中对固定规则和专家知识的依赖。通过利用大量的交互数据,强化学习算法可以动态适应环境的变化,从而在诸如AlphaGo和AlphaStar等系统中展示出超越人类的决策能力。然而,尽管如此,现有的基于强化学习的UCAV系统依然主要局限于简单和理想化的空战环境中,这些系统通常假设环境规律不变、交互对象固定,且任务种类单一。这种假设导致现有系统在处理现实中复杂多变的空战环境时,表现出明显不足。例如,UCAV系统在多智能体环境中,面对信息不对称、敌我态势变化等挑战时,传统强化学习方法难以有效优化策略,导致系统在实际战斗中的表现不稳定甚至失效。
此外,在多对多的空战环境中,经典的协作多智能体强化学习方法面临着信息特征提取、决策动作空间大以及对手策略泛化不足的多重挑战。首先,空战环境中态势信息复杂多变,智能体通常只能获取局部的观测数据,这些数据往往受到噪声和对抗因素的干扰,难以准确反映实际战场态势。在这种情况下,智能体在策略学习和执行过程中容易受到不稳定信息的影响,导致学习过程难以收敛到全局最优解,最终策略表现欠佳。其次,随着智能体数量和任务复杂度的增加,决策动作空间呈指数级增长,传统的强化学习方法在面对这种庞大的搜索空间时,往往难以有效探索出最优策略,策略优化过程耗时且效率低下。最后,开放环境中的对手策略多样且不可预测,现有的强化学习方法通常在单一场景下训练,所得到的策略在面对新的对手时泛化能力较差,难以适应多变的战场环境。这些问题的存在,使得智能无人空战系统在现实应用中面临重大的挑战,亟需开发出一种能够应对复杂多变环境、提升策略泛化能力的多智能体协同决策方法。
实现思路