分享
基于深度语义模型的双目位姿估计_庄宏伟.pdf
下载文档

ID:2372382

大小:486.13KB

页数:6页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 深度 语义 模型 双目 估计 宏伟
第 卷第期 年月光学技术 文章编号:()基于深度语义模型的双目位姿估计庄宏伟,吴东岷,张宝顺(中国科学院 苏州纳米技术及纳米仿生研究所加工平台,江苏 苏州 )(上海科技大学 物质科学与技术学院,上海 浦东 )摘要:位姿估计是现阶段智能和自动化控制领域最热门的研究方向之一,在无人驾驶汽车、智能工业机械臂、民用家政机器人等领域有着诸多应用。但传统方法大多具有计算复杂,实时性困难等问题。提出了一种利用卷积神经网络来做双目相机图像输入端的尺寸压缩和信息提取,并将特征向量通过双向长短时神经网络与激光雷达计算的标准结果进行回归学习的位姿解算方案。训练得到的深度学习方案在精度和速度方面相对于传统方案都有一定的提升。关键词:双目相机;位姿计算;深度学习中图分类号:;文献标识码:,(),)(,):,:;引言位姿解算是物体运动和机器人动力学的基础,简单地可以将位姿解算的方法分为绝对式和相对式两种。绝对坐标式的位姿计算方法大多比较传统,在工业生产活动邻域有着较为广泛的应用。绝对坐标式的方法依赖于一系列简单传感器通过运动学方程计算出物体在空间中的运动和位置。其中,相对典型的方案如:通过霍尔元件、光电元件或电机相位的方式反馈数据以衡量运动的速度和位移,同时辅助以()的陀螺仪和加速度传感器,建立整个运动过程的运动方程,并加上卡尔曼滤波等算法进行优化。目前,工业上使用的绝大多数机械臂都采用此种方案,但绝对式的计算方案也存在诸多不足之处。首先,以 为核心的器件,尽管存在诸如卡尔曼滤波的优化算法,仍会产生较大的漂移,对于加速度变化快且运动不均匀的物体,由于二阶积分的作用往往会迅速地放大误差并产生累积。而电机相位,霍尔、光电元件在不平整路面情况下的长程计量中,同样会累计误差到相当大的程度。这些缺陷进一步地限制了该测量办法的发展。收稿日期:;收到修改稿日期:基金项目:国家重点研发项目()作者简介:庄宏伟(),男,硕士研究生,从事物理系光学专业,计算摄影与影像方向的研究。吴东岷(),男,研究员,博士,从事激光显示技术,器件及加工技术,探针及硅悬梁传感器,生物成像技术等研究。通讯作者:DOI:10.13741/ki.11-1879/o4.2023.02.004相比较而言,相对坐标式的测量方案因为激光雷达和 (,全球定位系统)的逐渐成熟和机器视觉研究的热门而逐渐更受青睐。相对式的位姿计算方法可以进一步地以测量数据方法的不同,细分为主动式和被动式两种。主动式方案以激光雷达为主,被动式的方案则以视觉方案为主流。随着卷积神经网络和深度学习的发展,越来越多图像领域的问题开始着手以深度学习的方案进行求解。年来自剑桥大学的 团队在 上发表了 ,较早的将深度学习引入室内定位,且方法相对简洁,是领域的开创之作。但整个工作还是基于()的数据集完成的,因此性能也被限制在了 数据精度之内。在后续 年,来自慕尼黑科技大学 团队在 上发表了基于 (,;,)的 网 络 结构,并引入了激光雷达的实测数据作为训练基准,使得模型的理论上限得以大大提高,但是想要获取大量标定配准过的激光雷达与图像的数据对是比较困难的。因此近些年来,有不少 ()的研究学者在无监督的模式或者对问题中的部分环节进行探索。在 年 研究人员发表的论文中针对双目图像特征点匹配的问题使用了两个 网络高效且轻量化地取代局部特征子的匹配算法。年 发表的 是在传统的光流法的基础上单目地估计两帧之间的改变去衡量位姿和深度信息。方案及算法设计本课题利用深度学习的方法,研究了一套从数据到位姿的端到端的计算方法。整体算法逻辑框架如图所示。图算法结构框架整体上来说,工作主要分为两大部分,第一部分是预训练数据的生成,以配合 、等库函数来做物理环境的仿真系统,批量大量生成刚 体 运 动 的 双 目 视 觉 数 据 用 以 训练预训练模型。第二部分是通过激光雷达和双目相机同步采集数据,进行迁移学习和数据比对。图双目相机模型 实验基本原理理想双目相机模型如图所示,依照针孔摄像机模型,左右两相机平行对齐放置,两个相机的投影中心位置称之为基线,记为;相机的焦距记为;记左右图像上的成像点坐标为,称两坐标之差为视差 ()由几何的相似关系,可以得到()在相机的内外参数保持不变的情况下,物体的深度与视差成反比。因此双目相机采集得到的数据对本身就内含着周围环境的三维信息。现实情况下的双目相机并不是处于完全理想的状态,但通过张正友的棋盘格相机标定方法,可以计算得到双目相机的内外参数,同时通过图像校正,即可获得满足理想情况的双目图像信号的输入。考虑空间中一个刚体的运动,则刚体中任意坐标点在运动前后分别为,对应的旋转矩阵和平移矩阵为,引入齐次坐标和变换矩阵,则可对应将计算形式写为 ()由上述形式可知,刚体的运动是一个满足 ()群的李群过程。对变换矩阵取逆相当于做一个与原运动相反的运动,即恢复前一姿态的运动。李群是一个只满足乘法的群,故群乘法和求逆是可微的,因此,可以使用李群和李代数来对刚体的运动进行描述和计算。在现实使用的过程中,某些地方还会使用形式更为简洁、易于计算的欧拉角,但由于著名的万向锁问题几乎不可避免的会在计算过程中丢失系统的自光学技术第 卷由度,因此在滤波和优化算法中很少使用。整个空间中刚体的位姿运动问题,在图像中表征的就是特征点的匹配、以及通过特征点进行深度估计和运动估计的过程,整个过程定态可解。传统算法对此有比较多的研究,但如果要满足特征点在时间和空间的维度上的分别匹配,需要的计算资源开销较大。由此,人们将研究方向主要确定在各种优化算法上。实验场景设计实验构建了硬件数据采集和软件仿真的两个场景,硬件部分激光雷达采用的是思岚科技出品的单线激光建图雷达 。采用 连接的形式将所采集的数据上传至上位机。双目镜头所采用的是全瑞视讯出品的 高清双目 摄像头 ,通过 与上位机进行信息和控制信号的交互。实验场地由 高度的粉色塑料围挡圈成,主要作用有两点,一是确定明确的物理边界,易于仿真和激光雷达的检测,二是防止人员活动对固定场景的影响。其中放置一些物体,用作特征点的识别。这些物体主要是一些特定形状的石膏体或纸壳箱。这些物体的位置,放置组合,包括围挡的长宽,都是可以调节的参数。这样的设置能够很方便的地调节不同物体,从而获得更多组实验数据,在保证数据的随机性的前提下,减少更新场景的工作量。同时,物理仿真获取预训练模型的数据也是尽力去拟合设计这样一种场景搭建的思路。实验场地实景如图()所示,模型未对纹理性质做针对性训练,但本方法使用的雷达、双目摄像机以及相关算法对被测对象的颜色与纹理无具体要求或限制。在实验测量数据的阶段,将激光雷达与双目镜头固定在同一个物体上,视作一个刚体,两者的位姿测量方向相互平行。如图()所示。所采集到的雷达数据和双目图像分别如图和图所示。以同一时刻的雷达数据和双目图像构建成一组数据对,用 ()加 速的 ()算法解算此时刚体的位姿,并将此位姿作为双目图像输入的标签。()实验场景()硬件采集系统图实验硬件系统软件物理仿真部分,则遵循如下逻辑:第一步、生成含底无盖的长方体作为场景,长宽图激光雷达点云数据可视化图双目相机同步采集软件高尺寸分别为,均服从正态分布(,)。其中(,.),(,.),(.,.)。底边和侧边倒角半径 ,顶边镶边倒角 。附加限制条件:,。长方体场景材质属性如下:边框围挡颜色属性:()底边颜色属性:()整体场景服从 光照模型。第二步、随机选取一个点作为初始位置,并将此位置定义为(,)坐标点。开启碰撞检测,以距障碍物最远端为初始正方向。设定每次刚体的运动距离和角度服从如下的正态分布:(,),(,.)。朝向的方位角改变量服从正态分布(,.),计算对应直角坐标和方位角结果作为运动标签。运动范围需小于边界界限内 ,如果有超出范围的数据予以删除,重新生成。每组数据 帧,每帧图像有左右两个相机的图样。第三步、石膏体以及牛皮纸箱模拟。石膏体以库函数自带的标准几何体模型(球,正方体,锥体),标准尺寸为 。材质属性为:颜色 (),叠加随机噪波,频率为服从 光照模型。牛皮纸箱以 (),叠加随机噪波,频率以,服从 光照模型。尺寸以 长宽高的位置姿态随机生成,并放置于四个角中的一个角落。第期庄宏伟,等:基于深度语义模型的双目位姿估计步骤一中生成的长方体内,除去牛皮纸箱后的边界再向内收缩 ,并除去以轨迹为圆心的 的范围内,以均匀分布的概率生成石膏体 个。第四步、光照模拟:主照明光源位于场景正中心上 处,光照强度 ,色温 (接近荧光灯色温),设置为点光源,辅助照明光源为环境光,光照强度为 。第五步、照相机模拟:经典焦 距,光 圈,快门速度 秒,图像尺寸 。水平高度 ,左右双目相机基线距离 。输出图像的标签格式为 文件形式,第一个初始化坐标系为(,),其他坐标以此点和此时朝向建立标准坐标系。以相对坐标为每个图的位置输出(,)。计算机仿真生成的双目图像数据如图所示。()仿真左视图()仿真右视图图仿真模拟的场景深度学习结构设计利用卷积神经网络对特征进行高效提取,可以用显式的方式得到关注的点或者光流,用隐式的方式表达。从数据的实现序列性质上来看,语义模型中经常使用的 模型对此效果比较好。该方法可以解决特征点累计导致的数据爆炸等问题,同时,并没有简单的把数据直接丢弃,从而保证了模型的可信度。结合以上两点,系统可以使用 网络来对模型进行端到端的训练。整个神经网 络 的 设 计 训 练 是 在 深度学习的支持库下完成的。硬件系统为 ()。为 。但与此同时,采用深度学习的方法也引入了一些问题,模型的效果对训练的数据集具有很高的要求。采集大量的图像再进行标注,在经济上和时间消耗上是一个成本相当之高的方案。因此本系统采用计算机物理仿真大规模预先生成数据进行预训练的形式,结合小批量地实测数据进行迁移学习。利用物理仿真数据训练预训练网络,由于角度参数呈现明显的周期性,会存在周期截断的问题;对于任意一个空间向量用点向式进行表达,会引入角度截断的问题,不利于神经网络框架的学习,因此可以采用两点式的数据表达方式进行学习。以第一个相机所在的坐标点为原点,并将第一个相机的位姿表预训练数据序列示例 左视图右视图(,)(,)(,)(,)(,)(,)视作正方向,以此为基础建立标准运动参考系。在本问题中,处理问题的过程是在平面内的集合运动,因此可以将数据表示为(,)数据对 :(,):(,),()()()()这样在连续运动过程中,原本会出现 和 截断的角度值,就转变成了在(,)邻域内的连续变化的问题,从而避免了截断对神经网络框架的干扰。从向量角度来看,要约束的两个量分别为和。分别针对位置和姿态进行约束可以得到 (,)()()()()()另一方面,虽然在本问题中,角度可以简单的以一个元素所表示,但是如果将来把模型拓展到三维空间,就需要应用罗德里格斯公式,整个求解过程反而更为繁琐,不如直接估计向量夹角余弦的误差函数模式。本文的模型于卷积层中引入了 结构。层最早于 年被提出,。层的作用原理是以一定的概率让网络中的某些神经元处于被移除的状态。在数据量不足的大型网络面前,训练结果往往表现出过拟合的趋势。而 层则正通常用于大型神经网络的训练中用以避免过拟合的现象。这种操作可以提高网络的泛化能力。整体的深度语义模型结构如图所示,具体的卷积神经网络结构细节如图所示。对于该网络结构,左右两侧的视觉图像在经过畸变矫正之后输入到卷积层模块 中。不同光学技术第 卷图设计深度语义模型神经网络结构图卷积层结构示意图尺寸的平均池化层,相当于较好地增大了卷积模块参数的感受,使其达到了更大规模的卷积核的作用,但待训练参数的数量却大大降低。在本文中可以将该种网络结构看作是一种图像金字塔的变形。这种模型的启发来自于 算法对图像的处理过程,提取不同层次分辨率的图像并相互连接,使得模型对于缩放的适应性能更好。对于卷积层,则采用了卷积核步长的方法对数据进行了压缩处理,采用多层的卷积层相互连接并进行最大值池化,可以对数据进行高度的降维。对于卷积层,采用的是 的变形模式,用 层卷积层层全连接层做数据的向量化,向量大小为 ,并由此将向量化的数据重组输入给

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开