本技术涉及一种机器人铰接操作性能提升技术、装置及存储介质,属于机器人控制技术领域。该技术包括以下步骤:首先,创建环境点云数据集,并完善机器人手指的点云数据,然后对点云进行分割;其次,进行后续操作以优化机器人的铰接物体操作性能。
背景技术
在机器人学习中,操纵铰接物体一直是一个有趣且重要的话题。尽管先前的研究已经在操纵刚体方面取得了进展,但在处理铰接物体时仍然存在挑战,并且在泛化到各种类型的铰接对象时对于灵巧臂手机器人尤其困难。
基于视觉的强化学习(Vision-based reinforcement learning)是一种结合计算机视觉与强化学习的技术,使得智能体能够通过视觉传感器(例如相机)感知环境,并根据视觉特征采取动作来最大化奖励。随着计算机视觉的不断发展,基于点云信息的视觉强化学习算法为机器人提供了丰富的三维几何信息,使得其能够处理形状和结构多样的物体。然而,现有的大部分算法都在努力理解铰接物体的几何形状,使得智能体在确定和物体适当的接触点时具有较大的挑战性。
置信度学习(Affordance learning)是提高智能体与操作对象交互成功率的有效方法。机器人在环境中凭借传感器(如相机或触觉传感器)感知物体,通过置信度学习预测物体的操作置信度地图,以指导智能体实现有效的交互。然而,生成高质量的置信度地图通常需要大量的训练交互,这会显著影响复杂操作任务的学习效率。
线性时间逻辑(Linear temporal logic,以下简称LTL)能够描述具有逻辑组织性的机器人任务,以引导智能体完成复杂操作任务。通过将LTL编码为自动机(Automaton)、奖励机器(Reward machine)或者LTL表征(LTL representation),可以从任务层面引导强化学习实现复杂任务并且提高机器人的学习效率。然而,LTL引导的运动规划本身不能提高机器人操作技能的泛化能力。
扩散决策模型(Diffusion model,以下简称DM),作为一种生成模型,旨在使用参数化估计器基于干净的数据分布生成不同的样本。随着机器人技术的不断发展,DM可以被设计成扩散策略(Diffusion policy,以下简称DP),以和强化学习结合,驱动机器人和环境实现动作交互,以便更好地泛化到不同的任务。然而,现有的DP算法通常基于一定的先验知识——使用离线RL解决问题或者从演示中学习。这样的设置很难应用于灵巧的操作,因为相关的示教过程很难收集且成本高昂。
有鉴于此,特提出本发明。
实现思路