本技术提出基于模仿学习的人形机器人多运动切换控制方法及系统,以生成式对抗网络为基础进行模仿学习,通过人形机器人执行各项运动技能的表现情况动态调整对每个运动技能的采样概率,以使所述人形机器人均匀的掌握不同运动技能,实现人形机器人能够集成不同的运动技能组合,并有效地减缓了模式坍塌问题的严重程度,具有良好的灵活性和可扩展性。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着人形机器人的日益普及,人们对其功能增强的需求将持续增长。其中一个主要的需求是要求人形机器人能够同时掌握多种不同的运动技能,以更好地应对现实世界应用中的各种不同的场景和任务。这一需求使人形机器人的多运动技能集成成为人形机器人运动控制领域近期的研究热点。多运动技能集成旨在将诸如站立、行走、奔跑、跳跃等多种不同的运动技能集成到人形机器人的单个或多个运动控制器上,并使其能够灵活地在不同的运动技能之间进行切换。
在人形机器人的运动控制领域,现有基于学习的技术主要包括基于强化学习和基于模仿学习两个主流方向。基于强化学习的方法对人形机器人形态的适应性更强,不同运动技能之间的差异是导致现有基于强化学习的方法需要依赖奖励工程的主要原因。对于相似程度较高的运动技能,如行走、奔跑等,往往可以使用一组相似的奖励函数辅助其训练学习;而对于差异较大的运动技能,例如奔跑和跳跃等,往往需要在训练过程中使用不同的奖励函数组合对人形机器人进行不同的行为约束,从而保证其能够学到正确的运动技能。因此,在人形机器人的多运动技能集成任务中,这些方法通常需要针对每一个不同的运动技能进行相应的奖励函数组合设计,从而限制了这些方法的灵活性和可扩展性。
近年来,基于模仿学习的方法已被广泛研究,并产生了许多变体。基于模仿学习的方法则可以通过参考不同的动捕数据学习不同的运动技能,这大大减轻了其对奖励工程的依赖,为其带来了良好的灵活性。DeepMimic让角色动画中的虚拟人周期性跟踪由动捕数据重定向得到的参考运动轨迹,使控制器能够根据输入的周期信号模仿运动轨迹中相应的动作;AMP引入生成式对抗模仿学习框架,让判别器网络以区分生成动作和参考动作的方式辅助控制器的学习,从而让控制器能够学到与参考动作风格一致的动作;ASE引入了共享参数空间,可以以无监督学习的方式将多组不同的运动技能以信息编码的方式集成至共享参数空间中,并将共享参数空间作为所集成运动技能的接口,方便后续以分层强化学习的方式针对不同任务训练对应的高层策略;在ASE的基础上,CALM进一步引入动作编码器将参考动作片段映射为相应的信息编码,从而实现对所集成的运动技能的控制和切换。
而对于现有的基于模仿学习的方法,由于以DeepMimic为例的以轨迹跟踪为基础的方法只能周期性地跟踪参考运动技能中的轨迹,且不同轨迹之间的切换存在困难,因此现有的方法通常以生成式对抗模仿学习框架作为基础,以提高训练得到的控制器的灵活性。然而生成式对抗模仿学习框架普遍存在模式坍塌的问题,也即控制器最终可能无法全部学到所有给定的参考运动技能。该问题同样在很大程度上影响了现有方法可集成运动技能的范围和数量,使其可扩展性受到了限制。
综上,现有人形机器人的运动控制至少存在如下问题:
1、基于强化学习的方法,往往依赖繁杂的奖励工程,学习新的运动技能时需要对其进行相应的奖励设计与调整,灵活性受到很大的影响。
2、基于模仿学习的方法,通常以生成式对抗模仿学习框架作为基础,但生成式对抗模仿学习框架普遍存在模式坍塌的问题,其可扩展性受到了限制。
实现思路