本技术涉及四足机器人技术领域,具体提供一种基于强化学习的步态学习方法、系统、设备及存储介质,包括:收集历史专家策略执行过程中产生的多种状态作为初始化状态;利用预构建的深度强化学习模型,基于所述初始化状态执行步态学习,得到步态控制策略。本发明丰富了深度强化学习模型的初始状态,提升了学习得到的步态控制策略的适应性。
背景技术
灵活高效的运动控制是各类移动机器人特定功能得以实现的基础与前提。为此,机器人领域的学者们不断探索、优化机器人运动控制算法,致力于实现对复杂机器人可靠、精准与高效的控制。相比于轮式或履带式机器人,以四足仿生机器人为代表的腿足式机器人由于自身机械结构复杂等固有特点,其运动稳定性与环境适应性均有待提升。
近年来基于深度强化学习的四足仿生机器人步态控制算法逐渐兴起,即让四足机器人通过不断试错学习到合适的步态控制策略。目前,大多数强化学习任务采用固定的初始状态,
然而对于四足机器人,不同的初始状态对同一动作的影响是不同的。因此采用固定的初始状态,导致深度强化学习得出的策略适应性不强。
实现思路