温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
PointNet
机器人
抓取
姿态
估计
阮国强
2023 年第 5 期仪 表 技 术 与 传 感 器InstrumentTechniqueandSensor2023No 5基金 项 目:国 家 重 点 研 发 计 划“智 能 机 器 人”重 点 专 项(2018YFB1307100);安徽省教育厅科学研究重点项目(KJ2020A0364)收稿日期:20221101基于 PointNet+的机器人抓取姿态估计阮国强1,曹雏清1,2(1 安徽工程大学计算机与信息学院,安徽芜湖241000;2 哈尔滨工业大学芜湖机器人产业技术研究院,安徽芜湖241000)摘要:为解决在无约束、部分遮挡的场景下对部分遮挡的物体生成可靠抓取姿态的问题,基于PointNet+网络改进了一种抓取姿态估计算法,该算法可直接从目标点云中生成二指夹具的抓取姿态。由于该算法降低了抓取姿态的维度,将抓取的7 自由度问题转变成4 自由度问题处理,从而简化学习的过程加快了学习速度。实验结果表明:该算法在无约束、部分遮挡的场景中,能够生成有效的抓取姿态,且较 Contact-GraspNet 算法成功抓取率提升了约 12%,能够应用于家用机器人的抓取任务。关键词:点云;位姿估计;抓取估计;深度学习;损失函数中图分类号:TP391文献标识码:A文章编号:10021841(2023)05004405obot Grasping Attitude Estimation Based on PointNet+UAN Guo-qiang1,CAO Chu-qing1,2(1 School of Computer and Information,Anhui Polytechnic University,Wuhu 241000,China;2 Harbin Institute of Technology Wuhu obot Technology esearch Institute,Wuhu 241000,China)Abstract:In order to solve the problem of generating reliable grasp attitude for partially occluded objects in unconstrainedand partially occluded scenes,this paper proposed a grasping attitude estimation algorithm based on PointNet+network The al-gorithm can directly generate two finger gripper grasp attitude from the target point cloud Because the algorithm reduced the di-mension of grasping attitude,it transformed the problem of 7 degrees of freedom into the problem of 4 degrees of freedom,acceler-ating the rate of learning by simplifying the process Experimental results show that the algorithm can generate effective grab atti-tude in unconstrained and partially occluded scenes,and improves the grabbing rate prediction by about 12%compared with Con-tact-GraspNet,which can be used for grabbing tasks with home robotsKeywords:point cloud;pose estimation;grasp estimation;depth learning;loss function0引言智能机器人在执行抓取任务时需要获取目标的位姿,而常用的位姿获取方法有经验法和深度学习方法。经验法可分为基于模型的方法和数据驱动的方法:基于模型的方法主要针对模型已知物体,即预知数据或者通过测量获得的 3D 模型12,而在实际应用中很难了解物体精确的 3D 模型;基于数据驱动的方法37 主要是利用监督学习获取目标特征,如 V Fer-rari 等8 提出使用由 k 个连接的直线轮廓线段作为局部特征用于物体类检测,由于人工提取特征通常只针对特定场景,所以该方法的泛化性不够强。基于深度学习方法是通过大量图片数据集训练出映射模型,通过该模型可将图像数据映射到1 个或多个抓取位姿表示,如康奈尔大学的 I Lenz 等9 设计了一个以 GBD 图像为输入的两级级联神经网络用于机器人抓取,以获取目标的最优抓取位置;华盛顿大学的 J ed-mon 等10 将目标检测的 onestage 思路引入抓取检测问题中,输入 GB 图片后经过 AlexNet 模型直接输出抓取框的位置;中科院自动化所的闫哲等11 将目标检测引入 Lenz 的方法中,先获取图像中目标物体的类别和位置,再去获得物体的最佳抓取位置;文献 12提出一种 DenseFusion 的通用框架,用于从 GB 图像和深度图像中估计物体的 6D 位姿。这些方法将可能的抓取空间限制为平面抓取,而面向平面抓取会导致大量可能的机器人抓取和机器人的全运动学能力被忽略。考虑到从图像信息中获取物体的姿态再执行抓取时抓取位置的选择不当导致抓取失败,因此,本文提出基于点云1315 直接预测抓取姿态的网络,该网络从目标场景的点云出发,直接预测场景中物体的抓取姿态。由于直接对点云进行姿态估计的计算量较大,因此本文将 7 自由度的抓取姿态问题简化成 4 自由度问题解决,并实现直接从杂乱、部分遮挡的场景第 5 期阮国强等:基于 PointNet+的机器人抓取姿态估计45中估计物体的抓取姿态。1抓取姿态分析在执行抓取任务中,获取目标场景中由物体的 3自由度的空间平移、3 自由度的空间旋转和抓取宽度所组成的 7 自由度抓取姿态是较为不易的,这是因为这种抓取分布是不连续、不平衡的,且由于物体之间存在相互遮挡的现象从而使得抓取分布不准确。为了解决这个问题,本文的抓取姿态获取是利用二指夹具的抓取特点将抓取范围约束在一定范围内,再通过 PointNet+16 网络获取夹具与物体的接触点(p),夹具接近方向(m)、基线方向(n)和抓取宽度(w),从而将抓取姿态的 7 自由度问题转换成 4 自由度问题即 p,m,n,w 这 4 个方面的问题。通过确定 p、m、n、w,来获取 7 自由度抓取姿态 G=gw,g 为接触点对应的位姿。夹具的具体抓取表示如图 1 所示。与估计抓取姿势的其他方法相比,由于将抓取姿态约束在二指夹具的范围上从而降低抓取的维度,简化了学习过程,进而使训练的速度变快,同时也提高了预测抓取姿势的精度。在测试时,我们可以通过采样覆盖场景或对象的整个可观察表面接触点来获取抓取方案,从而很好地预测 7 自由度抓取姿态。由于PointNet+网络具有有效的处理点云和在局部区域中按层次提取点及其特征的能力,且这种预测抓取方式可以与输入点云中的点相互关联,所以在进行抓取图 1二指夹具抓取表示姿态估计时使用了这些功能。2抓取网络面对由多个未知物体所组成的场景,从多个角度生成 7 自由度抓取的问题中,本文使用三维点云数据作为输入并生成相应的抓取姿态。由于需要对点云信息进行特征提取,故本文采用 PointNet+网络作为主干网络,并提出了一种抓取姿态估计算法,该算法获取目标抓取姿态的4 自由度信息从而计算出抓取姿态。接触点的思路借鉴了文献 17提出的 Contact-GraspNet 并在其基础上进行了改进优化,本文在 Con-tact-GraspNet 的基础上将估计的抓取姿态和宽度加入到训练中进行优化。算法结构如图2 所示。算法网络分成特征提取、特征维度调整、位姿获取。图 2算法网络结构2 1点云特征提取先对场景点云进行特征提取,其提取过程如下:首先使用最远点采样(FPS)方法对目标点云数据进行采样,使用球分组方法对采样到的点进行分组,然后使用PointNet 网络对每一组点进行特征提取,再将提取到的特征进行最大池化,从而获取目标点云的全局特征。2 2特征维度调整将提取到的全局特征使用向上插值和拼接,使获取的全局特征传播到采样的点上,并使用多层感知器(MLP)调整输出的特征维度。2 3位姿获取将采样得到的点作为 p,并使用接触点对应的特征去预测 m、n、w 以及对应的成功抓取率(d)。先利用获取的 m 和 n 计算出抓取的旋转矩阵 S,再利用获取的 p、m、n 计算出抓取的平移矩阵 T,最后利用 S、T、w 来计算物体的抓取位姿。计算抓取的旋转和平移矩阵的公式如下:S=?n,?m?n,?m(1)46Instrument Technique and SensorMay 2023T=p+w2?n+l?m(2)式中:p 为夹具与物体的接触点;m 为接近方向向量,|m|=1;n 为基线方向向量,n=1;l 为夹具基线到夹具底座的恒定距离。m 和 n 的获取将在 3 2 节中详细阐述。3模型训练3 1数据集的生成对于模型训练和测试的场景数据是由 ACO-NYM18 数据集和 ShapNetSem1920 网格数据集通过在随机稳定姿势下进行放置生成的 10 000 个桌面场景。其中,ACONYM 数据集包含 1 770 万个平行夹具抓取,跨越 262 个不同类别的 8 872 个对象,每个对象都标有从物理模拟器获得的抓取结果;ShapNetSem网格数据集是一个注释丰富的大规模 3D 形状数据集由 12 000 个模型组成,分布在更广泛的 270 个类别中。本文所用的实验场景都是由数据合成而来,不是真实场景,且每个训练场景中的数据都包含夹具与场景中物体的接触点、成功率和抓取位姿等信息,用于后续的模型训练。3 2训练过程抓取网络模型的训练在服务器(操作系统:Ubun-tu 18 04 LTS,CPU:Intel Xeon 4210 2 4GHz,GPU:NVIDIA GeForce A40)上进行。本文从随机生成的10 000 个桌面场景中随机选择 9 000 个作为训练集,并使用 Adam 优化器在训练过程中对参数进行迭代优化,该优化器的优点在于实现简单、计算高效,对于内存的需求不大,且能够自动调正学习率,适合应用于大规模的数据及参数的场景。训练过程中,优化器初始学习率为 0 001,逐步衰减率为 0 000 1,epochs 为 16。将场景中的物体索引和 ShapNetSem 网格数据集中对应的网格模型渲染成点云集 C=c1,cn,并给每个点赋予成功抓取率,i=1,nd=1minjcipj2r0其他(3)式中:pjC 是非碰撞真实的抓取接触点;r=5 mm 是接触点的最大传播半径。由式(3)将点云集 C 分成两部分:负接触点 C=cidi=0,即在传播半径范围之外的点;正接触点C+=cidi=1,即在传播半径范围之内的点。对于正接触点 C+可以得到每个点对应的旋转矩阵 Si和平移矩阵 Ti,公式如下:SiTiw=SiC+wj2?nj+l?mjwi(4)式中 j 为距离正接触点最小距离的真实抓取点的索引。使用 PointNet+中的特征提取层和特征传播层来构建非对称的 U 型网络。该网络取 20 000 个随机点作为输入,为了确保 GPU 有足够的内存,所以仅从这些输入中预测 2 048 个最远点的抓取点,且预测的抓取点能够覆盖到整个场景中。该网络有 4 个输出分类,针对每个接触点输出 d、a、b 和 k,根据 4 个分类的输出数据计算出所需的抓取表示。将预测的宽度 w 0,wmax 分成 10 个等距抓取框 k,用以抵消数