分享
基于知识蒸馏和定位引导的Pointpillars点云检测网络.pdf
下载文档

ID:3632486

大小:4.88MB

页数:10页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 知识 蒸馏 定位 引导 Pointpillars 检测 网络
第 39 卷 第 1 期2024 年 1 月Vol.39 No.1Jan.2024液晶与显示Chinese Journal of Liquid Crystals and Displays基于知识蒸馏和定位引导的 Pointpillars点云检测网络赵晶1,4,李少博1,2,郭杰龙2,3*,俞辉2,3,张剑锋2,3,李杰2,3(1.厦门理工学院 电气工程与自动化学院,福建 厦门 361024;2.中国科学院 福建物质结构研究所,福建 福州 350108;3.中国科学院 海西研究院 泉州装备制造研究中心,福建 泉州 362000;4.厦门市高端电力装备及智能控制重点实验室,福建 厦门 361024)摘要:激光雷达数据由于其几何特性,被广泛应用于三维目标检测任务中。由于点云数据的稀疏性和不规则性,难以实现特征提取的质量和推理速度间的平衡。本文提出一种基于体柱特征编码的三维目标检测算法,以 Pointpillars网络为基础,设计 Teacher-Student模型框架对回归框尺度进行蒸馏,增加蒸馏损失,优化训练网络模型,提升特征提取的质量。为进一步提高模型检测效果,设计定位引导分类项,增加分类预测和回归预测之间的相关性,提高物体识别准确率。本网络所做改进没有引入额外的网络嵌入。算法在 KITTI数据集上的实验结果表明,相比于基准网络,在三维模式下的平均精度值从 60.65%提升到了 64.69%,鸟瞰图模式下的平均精度值从 67.74%提升到 70.24%。模型推理速度为45 FPS,在提升检测精度的同时满足了实时性要求。关键词:激光点云;三维目标检测;知识蒸馏;分类置信度中图分类号:TP391.4 文献标识码:A doi:10.37188/CJLCD.2023-0058Pointpillars point cloud detection network based on knowledge distillation and location guidanceZHAO Jing1,4,LI Shaobo1,2,GUO Jielong2,3*,YU Hui2,3,ZHANG Jianfeng2,3,LI Jie2,3(1.School of Electrical Engineering and Automation,Xiamen University of Technology,Xiamen 361024,China;2.Fujian Institute of Research on the Structure of Matter,Chinese Academy of Sciences,Fuzhou 350108,China;3.Quanzhou Institute of Equipment Manufacturing,Haixi Institutes,Chinese Academy of Sciences,Quanzhou 362000,China;4.Xiamen Key Laboratory of Frontier Electric Power Equipment and Intelligent Controly,Xiamen 361024,China)Abstract:Lidar data is widely used in 3D target detection tasks due to its geometric characteristics.Due 文章编号:1007-2780(2024)01-0079-10收稿日期:2023-02-17;修订日期:2023-03-21.基金项目:福建省科技计划(No.2021T3003);泉州市科技计划(No.2021C065L);福建省科技厅自然科学基金(No.2020J01285,No.2022J05285)Supported by Fujian Provincial Science and Technology Plan(No.2021T3003);Quanzhou Science and Technology Plan(No.2021C065L);Natural Science Foundation of Fujian Provincial Department of Science and Technology(No.2020J01285,No.2022J05285)*通信联系人,E-mail:第 39 卷液晶与显示to the sparsity and irregularity of point cloud data,it is difficult to achieve the balance between the quality of feature extraction and the speed of reasoning.In this paper,a three-dimensional target detection algorithm based on body-column feature coding is proposed.Based on Pointpillars network,the Teacher-Student model framework is designed to distill the regression frame scale,increase distillation loss,optimize the training network model,and improve the quality of feature extraction.In order to further improve the model detection effect,the positioning guidance classification item is designed to increase the correlation between classification prediction and regression prediction,and improve the object recognition accuracy.The improvement of this network does not introduce additional network embedding.The experimental results of the algorithm on the KITTI dataset show that the average accuracy of the reference network in 3D mode is improved from 60.65%to 64.69%,and the average accuracy of the aerial view mode is improved from 67.74%to 70.24%.The model reasoning speed is 45 FPS,which meets the real-time requirements while improving the detection accuracy.Key words:laser point cloud;3D object detection;knowledge distillation;classification confidence1 引言激光点云是一种直观、灵活和存储效率高的三维数据表示方法,在三维视觉中已变得不可或缺。大规模激光雷达数据集的出现和端到端 3D表示学习的巨大进步推动了基于点云的分割、生成和检测任务的发展。不论是单阶段还是两阶段检测方法,点云的特征提取质量影响着算法的检测精度。Qi Charles R等1 首次提出以端到端的方式通过多层感知来提取点的特征。随后,作者进一步提出PointNet+2,以分层方式捕获局部结构,采用密度自适应采样和分组的方式提取点云特征。Point和 Point+实现了直接对点云数据的处理和特征提取,被广泛应用到其他算法模型中。Zhou Y 等人提出了VoxelNet3,这是一种单级检测网络,可将点云划分为等间距的三维体素,并使用体素特征编码层进行处理,但是其采用了 3D 子流形稀疏卷积作为特征提取模块,致使网络推理速度相对较慢。Lang A H 等人提出了 Pointpillars4网络模型,提议将点云划分为几个体柱,将其转换为伪图像,可以使用 2D 卷积层进一步处理。此方法极大提高了网络模型的运算速度,使其能够满足自动驾驶实时性的要求,但其点云编码方式影响了特征提取的质量。Point R-CNN5和 Pillar RCNN6是一种两阶段检测方法,首先基于原始点云生成自底向上的 3D提案,然后对其进行细化以获得最终检测结果。随后,Fast point R-CNN7和 PV-RCN8方法出现,利用体素表示和原始点云来发挥各自的优势。图神经网络是点云检测领域新兴的点云结构表示和特征提取方法。如为避免点云中心偏移和比例变化的3D-GCN9,根据学习的特征生成自适应卷积核的 AD-GCN10等。尽管点云的结构表示和特征提取方法多种多样,但复杂精细的结构设计可能会降低网络模型的推理速度。早期的知识蒸馏方法主要是训练学生网络模仿教师网络预测的分类概率分布。近年来,以设计特定的知识提取方法用于提高目标检测的效率和准确性已成为一个新兴的热门话题。Chen等人首先提出将朴素预测和基于特征的知识提取方法应用于目标检测11。Wang等人证明前景对象和背景对象之间的不平衡阻碍了知识提取在目标检测中实现更好的性能12。为了解决这个问题,丰富的知识提取方法试图基于检测结果13、基于查询的注意力14和梯度15找到待提取区域。此外,最近还提出了提取教师与学生之间像素级和对象级关系的方法16。除了用于 2D 检测的知识蒸馏外,还引入了一些跨模态知识蒸馏,以将知识从基于 RGB 的教师检测网络转移到基于激光雷达的学生检测网络。然而,这些方法大多侧重于学生和教师在多模态框架中的选择,而基于纯点云数据三维检测的特定知识提取优化方法尚未得到很好的探索。在 Pointpillars 的检测网络部分,其分类预测和回归框预测存在低相关性。低相关性主要是80第 1 期赵晶,等:基于知识蒸馏和定位引导的 Pointpillars点云检测网络由于在训练阶段分类预测和回归预测使用各自独立的目标函数进行训练,因此正样本的回归框预测和分类置信度之间会存在不对齐的情况17,影响置信度分数预测,最终影响网络模型的检测精度。针对上述问题,本文做了如下工作:(1)依据单阶段网络设计一组Teacher-Student模型框架对回归框尺度进行知识蒸馏。回归框尺度在数据类型上可以从连续表示转到离散表示,将教师网络的输出视为附加的回归框尺度目标,对教师网络和学生网络的回归框尺度输出进行连续值离散化,再做两组概率值拟合,制定蒸馏损失优化学生网络,提升物体的检测精度。(2)设计定位引导分类项,将鸟瞰图视角下的正样本预测框与真实框的 IoU 值作为引导分数,以软化相应正样本硬类别标签,增加分类预测和回归预测的相关性,提高模型检测精度。定位引导分类项没有额外的网络嵌入,不影响网络模型的推理时间,使其保持高效性。2 网络模型2.1总体框架图 1显示了本文的目标检测网络框架:(1)包含一个教师检测网络和一个学生检测网络,其中教师网络和学生网络的特征提取模块使用相同的网络结构。先训练教师网络模型,随后冻结教师网络参数,在训练学生网络模型时教师网络模型进行预加载,对输入学生网络的点云数据做增广,使学生网络探索更大的数据空间,并利用教师网络预测的软目标进行更好的优化。本文所用回归框蒸馏(Regression Box Distillation,RBD)策略作用于检测头的回归分支,而不是深层特征。(2)最终的检测网络是学生网络和其检测模块,为了增加分类预测与回归预测间的相关性而无需额外的网络嵌入,设计了定位引导分 类(Positioning Guidance Classification,PGC)项作用于学生网络的分类预测,并改造分类损失函数。2.2点云编码与特征提取网络的点云编码和特征提取依照Pointpillars4 进行设置。将点云在x-y平面上设置柱体,每个非空柱构成一组子点云SxW,yH=Pi,i=1,2,nx,y,其中每个点Pi用一个向量(x,y,z,r)表示,nx,y是对应集合中的点的数量。将一帧点云编码成一个维度为(D,P,N)的稠密张量。对集合中的每个点用线性层+BatchNorm+ReLU 激活函数处理,生成维度为(C,P,N)的张量,其中 C 是特征通道。再通过每个点的体柱索引值重新放回到原来对应的体柱的x,y位置上生成(C,H,W)维度的伪图像。特征提取网络由下采样网络和上采样网络组成。下采样网络块表示为ConvBlock(Cin,Cout,Sd,Nb),其中C是特征通道数,Sd是下采样因子,Nb是每个网络块中卷积层的数量。上采样网络块表示为DeconvBlock(Cin,Cout,Su),其中Su是2D反卷积的上采样因子。2.3回归框蒸馏与只传递语义知识的分类蒸馏不同,回归框蒸馏能够传递目标物体的位置和尺度信息,来自图 1网络框图Fig.1Network block diagram81第 39 卷液晶与显示教师模型的回归框尺度用作学生模型的额外回归目标,以帮助学生模型收敛到更好的优化点。此策略能够让学生网络模型的回归预测更为稳健,并实现更好的泛化能力,提升检测效果。激光点云的三维目标检测中,网络模型的回归框预测输出为(x,y,z,l,w,h,),共 7 个维度的数据。本方法中,只对预测输出的回归框尺度(l,w,h)进行蒸馏处理。在二维图像目标检测中,其边界框的表示通常有(x,y,w,h)(中心点坐标,长和宽)、(xmin,ymin,xmax,ymax)(回归框左上角点和右下角点)和(t,b,l,r)(采样点到回归框的上、下、左和右的距离)表示方式。其中(x,y,w,h)和(xmin,ymin,xmax,ymax)可以直接互相转换,这两种表示方法进一步用其采样点(xs,ys)和相匹配的真实框(xgt,ygt,wgt,hgt)计算出采样点到真实框上、下、左和右的距离,也就是(t,b,l,r)。不论是Anchor-Base类型的检测网络还是Anchor-Free类型的检测网络,以上回归框的 3 种表示形式可以依据其相匹配的真实框进行互相转换,从离散值转换到连续值,从连续值转换到离散值。但是在带有旋转角的三维目标检测回归框中,其中心点、回归框尺寸和旋转角互相独立,本文的回归框蒸馏其思想是针对连续域上回归的变量先离散化处理,最后进行概率拟合。本文所提的回归框蒸馏方法选择对正样本回归框的尺度Dim=(l,w,h)(回归框的长、宽、高)进行处理,(l,w,h)的每个变量的物理意义都是一致的,记每条边为e。设D为网络预测的 3个回归框尺寸,分别由教师网络的DT和学生网络的DS表示,使用广义的 SoftMax 函数S(,)=SoftMax(,)将DT和DS转换为概率表示pT和pS。当=1时,它等价于原始的 SoftMax 函数;当 1时,输入的参数会携带更多的信息。LRD用于衡量两组概率相似度的蒸馏损失,其定义如公式(1)所示:LRD=LKL(pS,pT)=LKL(SoftMax(DS,),SoftMax(DT,),(1)其中:LKL表示KL发散损失,表示温度系数,S和T分别为教师网络和学生网络,p为概率值,D代表回归框尺度的集合。回归框尺寸S的3个维度的蒸馏可以化为公式(2),其中e代表回归框的边:LRD(DS,DT)=e DLeRD.(2)2.4定位引导分类为了增加分类预测和回归预测的相关性,设计了定位引导分类项,过程示意图如图 2 所示。物体在点云的 BEV 空间中有一个关键优势是位置不重叠,因此在 BEV 空间中真实物体的定位效果和定位质量较好。将网络的正样本回归预测和真实框在 BEV 空间下做 IoU 值计算,将计算得到的 IoU 值作为引导分数,分配给正样本对应的硬类别标签(One-hot),分配后的硬类别标签变为软标签(Soft Label)。整个过程中,具有高IoU 的正样本在分类时被自适应地向上加权,正样本的回归预测质量引导对应的类别标签。定位引导项 g定义如式(3)所示:g=ipos=IoUbevpos=(IoU(bboxpred,bboxgt)bevpos=(IoU(decode(regpred,anchor),bboxgt)bevpos.(3)图 2定位引导分类Fig.2Positioning guidance classification82第 1 期赵晶,等:基于知识蒸馏和定位引导的 Pointpillars点云检测网络目标监督值为:fpos=labelone-hotgt g.(4)其中:i是预测框和真实框的 IoU 值;pos代表正样本;bev是在 BEV 空间中边界框的维度表示;regpred表示预测框偏差值,通过预测框偏差值与先验框anchor解码,得出预测框bboxpred,将其与样本所匹配的真实框bboxgt做 BEV视角下的 IoU值计算,最终得到定位引导分类向量 g;labelone-hotgt是用one-hot向量表示的真实标签;f是引入定位引导项的 soft label表示形式的正样本标签。目前 Pointpillars网络的分类损失是焦点损失(Focal Loss,FL)损失函数,其一般形式如式(5)所示:FL(p)=-(1-pt)log pt,pt=p,y=11-p,y=0,(5)其中:y 0,1 是真实值的类别,p 0,1 是当真实标签y=1时模型预测的类别概率,是可调节焦 点 参 数。焦 点 损 失(FL)是 由 标 准 交 叉 熵-log pt和一个调节因子(1-pt)两部分组成。引入定位引导项g后,正样本真实标签从原本的y=0代表负样本和y=1代表正样本,变为f=0代表负样本和0 f 1代表正样本的 soft label 表示形式。原本的焦点损失不能满足引入定位引导项后的计算要求,需要进行改造。焦点损失采用 sigmoid 算子()的多二进制分类实现多分类,把sigmoid的输出标记为,对焦点损失的两部分进行扩展,将交叉熵部分-log pt扩展为完整的表示形式-(1-y)log(1-)+y log ),代入定位引导项g后,交叉熵部分变为-(1-f)log(1-)+f log )。比例因子部分(1-pt)广义化扩展为估计与其连续标签之间的距离绝对值,即表示为|f-|(0),其中|保证了非负性。最后,将扩展的两部分组合起来,形成完整的分类损失函数,其定义如式(6)所示:Lcls()=-|f-|(1-f)log(1-)+f log(1-).(6)2.5网络总损失函数本文的损失函数中,回归损失选用与 SECOND18相同的回归损失。每个真实目标或者其先验框的3D表示由一个七维向量来表示:(x,y,z,l,w,h,)。其中x、y、z表示 3D 边界框的中心点坐标,l、w、h分别表示 3D 边界框的长、宽和高,表示 3D 边界框的朝向角。在边界框定位回归任务中,真实边界框和先验框之间的残差定义为:x=xgt-xada,y=ygt-yada,z=zgt-zahaw=logwgtwa,l=loglgtla,h=loghgtha=sin(gt-a),(7)其中:xgt和xa分别表示真实边界框和先验框。da=(wa)2+(la)2。边界框回归损失采用 Smooth L1函数表示:Lbox=b(x,y,z,l,w,h,)Smooth L1(b).(8)采用 Softmax 分类损失用于学习目标的朝向,朝向损失记为Ldir。对于分类损失,使用改造过的焦点损失函数,即:Lcls=-|f-|(1-f)log(1-)+f log(1-).(9)回归蒸馏损失为:LRD(DS,DT)=e DLeRD.(10)最终网络模型的总损失可表示为:L=1Npos(0Lbox+1Lcls+2Ldir+3LRD),(11)其中:Npos是正概率锚数;各项损失值的系数0=2.0,1=1.0,2=0.2,3=0.2。3 实验结果分析使用三维目标检测数据集 KITTI 对本文算法进行验证,在 KITTI数据集上进行多种算法对比实验、模型推理速度比较和消融实验。3.1实验环境和优化器设置本文实验环境操作系统为 CentOS 7.6,硬件显卡型号为NVIDIA GeForce RTX 2080 TI,Intel(R)Xeon(R)5220 CPU2.20 GHz。深度学习框架为 Pytorch 1.7,Python环境为 3.7,使用 CUDA 10.1用于 GPU 加速。网 络 训 练 设 置 Batch Size 为 6,训 练 80 个epochs。采用 AdamW 优化器,使用 0.01 的衰减权重。使用周期性重启学习率调整策略,初始学83第 39 卷液晶与显示习率设置为 0.001,最高学习率和最低学习率分别为 10 和 0.000 1,训练期间循环次数为 1 次,学习率增加过程在整个循环中的比率为 0.4。3.2数据集设置在 KITTI 数据集上评估本文所提出的 3D检测网络模型的性能。KITTI 数据集中包含7 481 个训练样本和 7 518 个测试样本。根据通用协议,将 KITTI 训练集分为 3 712 个样本的训练集和 3 769个样本的验证集。对 Car类、Cyclist类和 Pedestrian 类进行评估,其 IoU 阈值分别为0.7、0.5、0.5。此外,该基准在评估中有 3 个难度级别:简单、中等和困难,评估基于目标对象的遮挡和截断水平。按照官方 KITTI评估指标,使用 40 个召回位置计算,以平均精度均值(mean Average Precision,mAP)评价检测结果。在实验中将范围 0,69.12、-39.68,39.68和-3,1 米内的所有点分别沿着 x、y和 z轴体柱化,体柱的分辨率为 0.16,0.16,4,整个体柱网格大小为4964321。最大柱数(P)为16 000个,柱内最大点数(N)为 100个。每个类的锚点由宽度、长度、高度和 z中心来描述,具有 0和 90两个方向。在训练阶段,对输入的点云数据做数据增强处理,在 x轴方向以 0.5的概率随机翻转点云;将全局点云在 z 轴方向按照-/4,/4 均匀分布的角度范围进行随机旋转,对全局点云按照0.95,1.05 的范围进行随机缩放。3.3对比评估为了评估所提模型方法的性能,在 KITTI数据集与其他算法进行 3D检测和 BEV检测对比实验,结果如表 1和表 2所示。表 1KITTI数据集不同算法 3D检测精度(3DR40)对比Tab.1Comparison of 3D detection accuracy(3DR40)of different algorithms in KITTI dataset%两阶段单阶段算法AVOD19PointRCNN5UberATG-MMF20Part-A221SECOND18TANet22Associate-3Det23Point-GNN24Ours数据类型L+RLL+RLLLLLLCar(IoU=0.7)简单83.0786.9688.4087.8183.3484.3985.9988.3388.15中等71.7675.6477.4378.4972.5575.9477.4078.4778.95困难65.7370.7070.2273.5165.8268.8270.5372.2974.97Pedestrian(IoU=0.5)简单36.1049.43N/A53.1051.0753.72N/A51.9252.77中等27.8641.78N/A43.3542.5644.34N/A43.7746.09困难25.7638.63N/A40.0637.2940.49N/A40.1441.09Cyclist(IoU=0.5)简单57.1973.93N/A79.1770.5175.70N/A78.6081.66中等42.0859.60N/A63.5253.8559.44N/A63.4861.31困难38.2953.59N/A56.9346.9052.53N/A57.0857.21注:加粗字体为每项最优值,L代表激光点云,R代表图像表 2KITTI数据集不同算法 BEV检测精度(BEVR40)对比Tab.2Comparison of BEV detection accuracy(BEVR40)of different algorithms in KITTI dataset%两阶段单阶段算法AVOD19PointRCNN5UberATG-MMF20Part-A221SECOND18TANet22Associate-3Det23Point-GNN24Ours数据类型L+RLL+RLLLLLLCar(IoU=0.7)简单89.7592.1393.6791.7089.3991.5891.4093.1193.09中等84.9587.3988.2187.7983.7786.5488.0989.1788.86困难78.3282.7281.9984.4178.5981.1982.9683.9084.50Pedestrian(IoU=0.5)简单42.58N/AN/A59.0455.1060.85N/A55.3658.46中等33.57N/AN/A49.8146.2751.38N/A47.0751.88困难30.14N/AN/A45.9244.7647.54N/A44.6147.43Cyclist(IoU=0.5)简单64.11N/AN/A83.4373.6779.16N/A81.1784.10中等48.15N/AN/A68.7356.0463.77N/A67.2864.03困难42.37N/AN/A61.8548.7856.21N/A59.6759.82注:加粗字体为每项最优值,L代表激光点云,R代表图像84第 1 期赵晶,等:基于知识蒸馏和定位引导的 Pointpillars点云检测网络在 3D 检测对比中,与经典的单阶段检测方法 TANet22和 SECOND18相比,在中等难度级别上,Car类和 Cyclist类分别高 3.01%、1.87%和6.4%、7.46%;与先进的单阶段检测方法 PointGNN24相比,Car 类和 Pedsetrian 类在中等难度级别分别高了 0.48%和 2.32%。与两阶段检测方法 PointRCNN5相比,3 种类别的中等难度分别高出 3.31%、4.31%和 1.71%;与 Part-A221相比,Car类中等难度高出 0.46%,本文模型优于多数两阶段模型方法。在 BEV检测中,本文模型与TANet22 和 SECOND18 相比,在 Car 类中等难度分别高出2.32%和5.09%。结果显示,本文的模型在所有 3个难度级别的 3D 和 BEV 检测中与其他先进方法相比具有竞争力,验证了本文方法的有效性。回归框蒸馏能够传递目标物体的位置和尺度信息,帮助网络收敛到更好的优化点,使回归模型更为稳健;定位引导分类建立了预测框和分类预测间的相关性,提升模型分类效果,最终提升了模型检测精度。本文方法采用体柱特征编码的方式,点云经过编码后,其分辨率显著低于体素特征编码和基于点的特征形式,所以其小目标如 Pedestrian 类的检测精度会低于部分基于体素特征编码和基于点的模型方法。本文的回归框尺度蒸馏中引入温度系数,表 3 中显示了 KITTI 数据集中不同温度系数下的蒸馏结果,在温度系数=2时模型获得最好的效果。为了验证本文方法的检测效率,选择主流算法进行模型推理速度对比,结果如图 3 所示。在模型推理速度方面,本文模型方法是两阶段网络AVOD19 和PointRCNN5 的34倍;与单阶段网络SECOND18和 TANet22相比,推理速度提高了大约 2 倍,达到 45 FPS。虽然检测精度与 Point-GNN24基本持平,但 Point-GNN 由于需要对点云构建“图”结构以及图卷积等操作,需要消耗大量算力,因此模型推理速度慢了许多,不符合实时性要求。与单阶段网络相比,本文网络模型具有检测精度优势;与两阶段网络相比,本文网络模型能够在检测精度上持平,但在推理速度上远高于两阶段网络。如图4所示,将本文针对点云的蒸馏策略与其他蒸馏方法如 Zagoruyko25、Zheng26、Tian27、Heo 等28、Zhang16等方法对比,以 Pointpillars 为基准网络,在 KITTI数据集上进行 Car类和 3 种难度级别的 3D 检测。可以观察到本文方法在Car 类平均检测精度方面比所列蒸馏方法都要高。如图 5所示,在 3D 检测难度级别为中等和困难难度级别中,本文的蒸馏策略比上述蒸馏方法效果提升更明显。3.4消融实验消融实验可以评估本文所提方法各个模块对检测结果的贡献。所有评估测试都在 KITTI表 3蒸馏中温度系数在 ModR40模式下对模型探测精度的影响Tab.3Influence of temperature coefficient on model detection accuracy in distillation under ModR40%教师网络2345Car74.3178.9576.3375.2273.87Pedestrian41.9256.0944.5643.6741.03Cyclist51.9261.3159.8958.0246.63图 3网络模型推理速度对比Fig.3Comparison of network model reasoning speed图 4Car类的平均精度均值对比Fig.4Comparison of average precision of car class85第 39 卷液晶与显示训练集上进行训练,在验证集上进行评估。基准网络为 Pointpillars4网络模型,消融实验的设置以单独和总体结合的形式展示本文方法的有效性。其中“回归框蒸馏”记作 RBD,“定位引导分类”记作 PGC,使用 40个召回位置计算平均精度均值(mAP),结果如表 4所示。只增加 RBD 方法时,网络模型在 3D 检测中简单、中等、困难 3 类的平均均值精度提升了4.48%、2.27%和 1.49%,表明给预测框的尺度增加额外的回归目标可以更好地优化模型,同时教师网络产生的软目标携带更多的信息,让学生网络在训练过程中学习到更多的信息熵,提升模型特征提取的质量,从而提高物体检测精度。只增加 PGC 方法时,3D 检测中简单、中等、困难 3类的平均均值精度提升了 2.5%、1.0%和1.16%。定位引导分类项增加了回归预测和分类预测之间的相关性,具有高 IoU 的正样本在分类时被自适应地向上加权。最终综合评估,本文所提出的两种方法组合使用时,其检测效果提升最大。4 结论本文受图像目标检测中知识蒸馏思想的启发,针对激光点云数据的 3D 目标检测任务设计了预测框的尺度作为约束训练的蒸馏方法。此方法可以为检测网络在训练中提供更多的信息熵,使网络模型拥有更好的泛化能力,提升特征提取质量,提高模型检测效果。针对 Pointpillars网络中回归预测和分类预测间的低相关性,设计了定位引导分类项,同时改造了分类损失函数,将正样本回归预测质量引导类别标签,以提升检测效果。在 KITTI数据集中,本文算法模型比基准网络在 Car 类提升了 5.4%mAP,在一众算法模型中具有竞争力。参考文献:1 QI CHARLES R,HAO S,MO K C,et al.PointNet:deep learning on point sets for 3D classification and segmentation C/Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:77-85.图 53种难度级别的平均精度均值对比Fig.5Comparison of average accuracy of three difficulty levels表 4回归框蒸馏和定位引导分类在 KITTI数据集上的消融实验Tab.4Ablation experiments of regression frame distillation and location-guided classification in KITTI dataset%3DBEVPGCRBDCar(IoU=0.7)简单82.5885.0488.0888.1590.0791.3792.5193.09中等74.3176.2977.1078.9586.5687.5288.5188.86困难68.9972.0474.1274.9782.8182.9583.9384.50mAP75.2977.7979.7780.6986.4888.2888.3288.82Pedestrian(IoU=0.5)简单51.4551.5052.2852.7757.6057.6458.8958.46中等41.9244.1145.7946.0948.6450.7352.6751.88困难38.8939.6540.9741.0945.7846.2747.8547.43mAP44.0845.0846.3546.6550.6751.4553.1452.59Cyclist(IoU=0.5)简单77.1077.6077.5881.6679.9082.0583.3384.10中等58.6560.3059.1761.3162.7363.7664.2964.03困难51.9253.2255.3757.2155.5860.6260.5159.82mAP62.5563.7164.0466.7366.0770.8169.3869.3286第 1 期赵晶,等:基于知识蒸馏和定位引导的 Pointpillars点云检测网络2 QI C R,YI L,SU H,et al.PointNet+:Deep hierarchical feature learning on point sets in a metric space C/Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc,2017.3 ZHOU Y,TUZEL O.VoxelNet:end-to-end learning for point cloud based 3D object detection C/Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4490-4499.4 LANG A H,VORA S,CAESAR H,et al.PointPillars:fast encoders for object detection from point clouds C/Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:12689-12697.5 SHI S S,WANG X G,LI H S.PointRCNN:3D object proposal generation and detectio

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开