本文档介绍了一种多目标强化学习策略生成技术及其相关设备。该技术旨在通过接收多目标策略优化请求,并依据请求中的状态动态调整策略,以实现优化目标。
背景技术
在多目标强化学习领域,传统研究侧重于通过预定义的奖励函数来引导策略优化。然而,由于多维优化目标本身的内在复杂性,以及某些优化维度的状态具有不确定性或难以测量,传统方法在处理复杂现实世界目标时存在挑战。例如,机器狗在学习后空翻动作时,难以设计准确的奖励函数来引导机器狗的学习过程;数据中心机房的冷却需要同时考虑IT设备过热风险和能源效率,而IT设备的内部芯片温度往往难以直接测量,导致无法准确度量优化目标即内部芯片温度的值。为了克服多维优化目标的内在复杂性导致的限制,现有技术利用人类反馈指导强化学习智能体的行为,改善了单目标优化性能及灵活性,从而避免了不确定的目标值、复杂的奖励工程的问题。
然而在多目标强化学习建模方面,针对多维优化目标本身的内在复杂性,现有技术并不足以解决多目标强化学习场景下的策略生成问题,因此,亟需一种基于多目标强化学习的策略生成方法,实现多目标强化学习场景下,针对多维优化目标本身的内在复杂性构建灵活性更高的奖励模型,避免对预定义奖励函数的依赖,提高基于多目标强化学习的策略生成精度。
实现思路