本技术方案专注于图像处理领域,特别提出了一种机器人辅助的图像抓取检测技术。该技术包括获取RGBD图像,并构建一个抓取检测模型的编码器,该编码器通过一系列PRCBlock(可能是某种特定的处理模块)逐步提取特征,以实现精准的抓取检测。
背景技术
近年来,机器人技术的迅猛发展对工业、医疗、农业和教育等各个领域都产生了巨大的影响。在工业领域,机器人的广泛应用提高了生产效率,降低了生产成本,同时也减少了工人的劳动强度,改善了工作环境。抓取作为机器人技术中的一个关键操作,引发了广泛的研究兴趣。在工业场景中,无序分拣任务占据着相当大的比重。与日常环境中的物体不同,工业零件往往具有高度反射性和无纹理特征,这给抓取任务的准确性带来了挑战。目前基于深度学习的抓取检测方法主要分为两种,一种是生成抓取策略,另外一种是判别式抓取估计策略。目前的抓取检测方法在特征融合和注意力机制上还存在许多挑战,未能充分提取特征信息与多尺度多层次融合特征信息。这在面对尺寸多变、物体未知的复杂环境下成功较低。
Wang等人将Transformer与编码器、解码器相结合提出了TF-Grasp,虽然取得了不错的效果,但由于缺乏全局和局部信息,对对象的边缘处理较弱;
zhang等人提出了Double Strand Robotic Grasp Detection Network Based onCross Attention,它在编码器-解码器结构中结合了transformer分支和U-Net分支,但存在未对多尺度感受野的有效利用,降低了对多抓取目标的特征提取能力。
Cao等人提出的Efficient Grasp Detection Network With Gaussian-BasedGrasp Representation for Robotic Manipulation,只是单纯的利用了通道和像素注意力融合,并未很好的利用上下文信息,来获得局部特征信息;而对自注意力机制并未利用,自注意力机制能够有效的联系上下文信息。
实现思路