基于模仿学习的人形机器人多运动切换控制方法及系统
2025-02-27 20:20
No.1344766263314096128
技术概要
PDF全文
本技术提出基于模仿学习的人形机器人多运动切换控制方法及系统,以生成式对抗网络为基础进行模仿学习,通过人形机器人执行各项运动技能的表现情况动态调整对每个运动技能的采样概率,以使所述人形机器人均匀的掌握不同运动技能,实现人形机器人能够集成不同的运动技能组合,并有效地减缓了模式坍塌问题的严重程度,具有良好的灵活性和可扩展性。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。 随着人形机器人的日益普及,人们对其功能增强的需求将持续增长。其中一个主要的需求是要求人形机器人能够同时掌握多种不同的运动技能,以更好地应对现实世界应用中的各种不同的场景和任务。这一需求使人形机器人的多运动技能集成成为人形机器人运动控制领域近期的研究热点。多运动技能集成旨在将诸如站立、行走、奔跑、跳跃等多种不同的运动技能集成到人形机器人的单个或多个运动控制器上,并使其能够灵活地在不同的运动技能之间进行切换。 在人形机器人的运动控制领域,现有基于学习的技术主要包括基于强化学习和基于模仿学习两个主流方向。基于强化学习的方法对人形机器人形态的适应性更强,不同运动技能之间的差异是导致现有基于强化学习的方法需要依赖奖励工程的主要原因。对于相似程度较高的运动技能,如行走、奔跑等,往往可以使用一组相似的奖励函数辅助其训练学习;而对于差异较大的运动技能,例如奔跑和跳跃等,往往需要在训练过程中使用不同的奖励函数组合对人形机器人进行不同的行为约束,从而保证其能够学到正确的运动技能。因此,在人形机器人的多运动技能集成任务中,这些方法通常需要针对每一个不同的运动技能进行相应的奖励函数组合设计,从而限制了这些方法的灵活性和可扩展性。 近年来,基于模仿学习的方法已被广泛研究,并产生了许多变体。基于模仿学习的方法则可以通过参考不同的动捕数据学习不同的运动技能,这大大减轻了其对奖励工程的依赖,为其带来了良好的灵活性。DeepMimic让角色动画中的虚拟人周期性跟踪由动捕数据重定向得到的参考运动轨迹,使控制器能够根据输入的周期信号模仿运动轨迹中相应的动作;AMP引入生成式对抗模仿学习框架,让判别器网络以区分生成动作和参考动作的方式辅助控制器的学习,从而让控制器能够学到与参考动作风格一致的动作;ASE引入了共享参数空间,可以以无监督学习的方式将多组不同的运动技能以信息编码的方式集成至共享参数空间中,并将共享参数空间作为所集成运动技能的接口,方便后续以分层强化学习的方式针对不同任务训练对应的高层策略;在ASE的基础上,CALM进一步引入动作编码器将参考动作片段映射为相应的信息编码,从而实现对所集成的运动技能的控制和切换。 而对于现有的基于模仿学习的方法,由于以DeepMimic为例的以轨迹跟踪为基础的方法只能周期性地跟踪参考运动技能中的轨迹,且不同轨迹之间的切换存在困难,因此现有的方法通常以生成式对抗模仿学习框架作为基础,以提高训练得到的控制器的灵活性。然而生成式对抗模仿学习框架普遍存在模式坍塌的问题,也即控制器最终可能无法全部学到所有给定的参考运动技能。该问题同样在很大程度上影响了现有方法可集成运动技能的范围和数量,使其可扩展性受到了限制。 综上,现有人形机器人的运动控制至少存在如下问题: 1、基于强化学习的方法,往往依赖繁杂的奖励工程,学习新的运动技能时需要对其进行相应的奖励设计与调整,灵活性受到很大的影响。 2、基于模仿学习的方法,通常以生成式对抗模仿学习框架作为基础,但生成式对抗模仿学习框架普遍存在模式坍塌的问题,其可扩展性受到了限制。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
宋然  廖鸿浩  张伟  李智亨  谭文浩  方兴  李晓磊
技术所属: 山东大学
相关技术
具有准零刚度特性的三自由度并联隔振平台 具有准零刚度特性的三自由度并联隔振平台
一种基于数字孪生技术的机械臂构建方法 一种基于数字孪生技术的机械臂构建方法
一种用于机械臂的重力平衡装置 一种用于机械臂的重力平衡装置
一种机械臂抓取目标检测方法和系统 一种机械臂抓取目标检测方法和系统
一种基于双层博弈的重载机械臂人机协同控制方法 一种基于双层博弈的重载机械臂人机协同控制方法
基于光热效应的光驱动感知一体化柔性关节及其光路系统 基于光热效应的光驱动感知一体化柔性关节及其光路系统
一种基于质心动力学模型的人形机器人全身协调控制方法 一种基于质心动力学模型的人形机器人全身协调控制方法
一种可末端自锁的双层环形可展开周边桁架 一种可末端自锁的双层环形可展开周边桁架
基于模仿学习的人形机器人多运动切换控制方法及系统 基于模仿学习的人形机器人多运动切换控制方法及系统
一致性约束的检测机器人任务分配方法 一致性约束的检测机器人任务分配方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利