温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
语义
激光
空间
可见
特征
行人
检测
熊璐
0228011-1第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展研究论文融合语义和激光点云空间可见性特征的 3D行人检测熊璐,邓振文,田炜*,王之昂同济大学汽车学院,上海 201804摘要 车载激光雷达为智能驾驶汽车提供精确的周围空间几何信息而成为车载主流传感器。为克服单传感器对目标检测的局限性,对激光点云的几何特征、空间可见性特征和图像语义信息在合理设计的网络框架中进行融合,进一步提升3D行人检测精度。首先采用高效的三维空间光线投射算法形成空间可见性特征编码;其次融合图像语义类别信息,增强点云特征;最后定量和定性分析各附加信息和相关超参数对检测结果的影响。实验结果表明:相比单帧点云,结合历史前 10帧点云后 3D 行人检测精度提升 32.63个百分点;进一步融合图像语义和点云空间可见性信息,相比基准方法,所提方法的检测精度提升 2.42个百分点,且超过部分主流方法,更加适用于交通场景的 3D行人检测。关键词 目标检测;图像与点云融合;点云空间可见性;智能驾驶环境感知中图分类号 TP391.4 文献标志码 A DOI:10.3788/LOP220712Three-Dimensional Pedestrian Detection by Fusing Image Semantics and Point Cloud Spatial Visibility FeaturesXiong Lu,Deng Zhenwen,Tian Wei*,Wang ZhiangSchool of Automotive Studies,Tongji University,Shanghai 201804,ChinaAbstract Vehicular light detection and ranging(LiDAR)has become a standard sensor in automotive by offering accurate geometric information of the surrounding region for intelligent driving vehicles.In order to overcome the limited performance of a single sensor for object detection,the geometric and spatial visibility features of LiDAR point clouds are fused with image semantic information in a network framework to achieve accurate three dimensional(3D)pedestrian detection.First,an effective 3D ray-casting algorithm is introduced to produce spatial visibility feature encodings.Second,the image semantic information is incorporated to improve point cloud features.Finally,the impact of added information and related hyperparameters on detection findings are quantitatively and qualitatively examined.Experimental findings demonstrate that compared with the single frame point cloud,the 3D pedestrian detection accuracy is enhanced by 32.63 percentage points after aggregating the last 10 frames of the point cloud in history.By further fusing image semantics and point cloud spatial visibility information,the proposed methods detection accuracy is enhanced by 2.42 percentage points compared with the benchmark approach,and exceeds some standard approaches.Our enhanced approach is more suitable for 3D pedestrian detection in a traffic environment.Key words object detection;image and point cloud fusion;point cloud spatial visibility;intelligent driving and environmental perception1引言车载激光雷达利用激光束在物体表面的反射探测远距离障碍物的单点精确位置,再通过多激光束旋转或光学相控阵技术生成周围环境的稀疏激光点云。作为有源传感器,车载激光雷达在曝光或低光照的环境下能够实现更可靠的检测而成为自动驾驶研究的主流传感器。但与相机相比,激光雷达容易受雨雾和灰尘影响,且制造成本随激光束增加呈指数增长,导致目前部署的自动驾驶汽车通常配备不超过 64 线的激光雷达。激光点云的稀疏性给目标检测识别任务,尤其是被遮挡或体积较小的行人检测1-2带来诸多挑战。因此,研究多传感器融合的三维行人检测对有效提升感知系统的准确性和稳定性具有重要意义。收稿日期:2022-02-14;修回日期:2022-02-24;录用日期:2022-03-14;网络首发日期:2022-03-26基金项目:国家自然科学基金青年项目(52002285)、上海市浦江人才计划(2020PJD075)、上海市科技计划(21ZR1467400)通信作者:*tian_0228011-2研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展图像包含丰富的语义信息,常与激光点云组成 3D目标检测的数据融合方案。AVOD3提取图像和投影点云的感兴趣区域,然后将区域转换至鸟瞰图或前视图进行特征融合,但点云在投影过程中将丢失部分空间信息。F-PointNet4先完成图像 2D 检测,再将框中的 3D 点云输入至 PointNet5完成 3D 位置和形状回归,但图像 2D检测失效将直接导致 3D检测无法实现。PointPainting6利用图像语义分割类别信息作为激光点云的额外特征,再通过点云处理框架 VoxelNet7或PointPillars8确定 3D 框的类别、位置和尺寸。虽近期提出较多先进框架(如 VPFNet9和 SPG10)进一步提升目标检测精度,但所需运行条件难以满足车载计算平台实时性的要求。考虑车载计算平台条件的限制,本文选用具有高效点云特征编码的 PointPillars8作为基础网络架构。采用高效的三维空间光线投射算法完成点云的空间可见性的特征编码;同时融合激光点云空间可见性特征和图像语义特征,提升 3D行人检测性能并量化各因素影响程度;分析在数据融合过程中相关超参数选择对检测性能的影响。实验结果表明,图像语义和点云空间可见性信息融合在合适的超参数条件下能够提升3D 行人检测精度,并超过部分主流方法,为其他网络架构的设计和优化提供重要参考。2点云空间可见性特征编码基于单模态激光雷达的目标检测算法通常利用深度学习方法提取点云的几何位置特征来进行目标检测和识别,而忽略点云空间“可见性”信息,即激光束发射原点与被测物体之间为无遮挡的空闲空间,被测物体后方仍可能存在其他障碍物。这种空间可见性提供三维空间的占据状态和空闲空间分布等额外信息,可用于进一步提高对障碍物的检测精度。本文采用一种基于 Raycasting11的高效三维空间光线投射算法,该算法可快速计算每条激光射线在空间中经过的体素,适用于实时性要求较高的车载计算平台。首先介绍高效三维空间光线投射算法在二维平面的应用。给定平面网格,对于任意激光射线,需列出所有遍历的体素,如图 1所示,即 a,b,c,d,e,f。设x和y为激光束沿 X 和 Y 方向的速度分量,t为传播时间,则射线传播方程为x,yT=x,yTt+x0,y0T,(1)式中:t0;(x/y)=(xp/yp),(xp,yp)为激光点的位置坐标;(x0,y0)为激光束起点位置坐标。计算激光束起点位置至起始网格 X、Y 边界的时间 tX和 tY,以及激光束掠过单个网格水平和垂直方向距离所需时间 tX和tY,如图 1 所示。确定初始网格坐标(sX,sY)且用 1 或1赋值遍历步长 sX和 sY。在迭代求遍历体素坐标的过程中,如图 2所示,当 tXtY,射线在水平方向上优先到达下一个体素,即当前网格和水平邻近网格均为遍历体素,反之,竖直方向为遍历体素。随后更新参数,进行下一次迭代,直至到达终点。扩展至三维空间,在 Z 维度添加相应变量并在迭代过程中对比 tX、tY、tZ的大小,类似找出整个三维空间中激光束所遍历的体素。算法在初始化阶段需要约 33 次浮点运算,每次迭代仅需 2 次浮点比较、1 次浮点加法、2 次整数比较和 1 次整数加法。单帧点云的空间可见性特征编码时间约为 0.017 s,因而该编码方式适用于车载平台。3融合网络架构3.1网络总体架构激光雷达点云为自车提供周围环境物体准确的几何位置信息,而相机可提供区分物体类别相关的语义信息。本文提出基于 LiDAR 和相机的数据融合方法,利用多传感器的信息互补提升 3D 目标检测精度。融合方法的总体架构如图 3 所示。首先,通过语义分割网络获取物体类别信息,并对激光点云进行特征增强;其次,使用光线投射算法重建感知空间可见性状态;然后,提取增强点云的高维特征,并对其与空间可见性特startsX,sYtXtYtX=tX+tX sX=sX+sX stopYNtY=tY+tYsY=sY+sYreach pointN(next grid)Y图 2二维 Raycasting算法的逻辑图Fig.2Logic diagram of 2D Raycasting algorithm图 1射线遍历网格的示意图Fig.1Schematic of ray traversing grid0228011-3研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展征进行融合;最后,将融合特征输入至三维目标检测框架,完成分类和回归。3.2语义分割及点云增强语义分割网络从输入图像获取各像素点的背景、车辆、非机动车、行人或其他细分类别结果。根据 Siam等12分析和总结的多种语义分割网络,综合考虑车载平台计算性能,本文使用 DeeplabV3+13(ReNet18)作为语义分割网络,其单帧图像分割时间为0.0121 s。通过传感器外参和相机内参,将各激光点与图像像素形成数据关联,如图 4所示,并将图像语义分割的类别结果 cid作为点云的增强特征,则点云特征由(x,y,z,r)增强为(x,y,z,r,cid),其中 x、y、z、r为激光点云原 始 特 征,分 别 表 示 点 云 三 维 空 间 坐 标 x、y、z、反射率。3.3特征编码借鉴 PointPillars8高效特征编码方式,特征增强后的点云回散至水平地面体柱。由多层感知机(MLP)提取各体柱内点云的高维特征,并沿数量维度进行最大池化操作,此时每个体柱表示为固定长度为 D 的特征向量,从而转换为伪图像的混合特征图,如图5所示。根据激光束的传播可以估计空间体素的可见性状态,进而可以得到空间可见性特征。首先对感