基于
深度
学习方法
目标
检测
自动
驾驶
汽车
应用
研究
石启飞
基于深度学习方法的目标检测技术在自动驾驶汽车的应用研究石 启 飞(宿州职业技术学院,安徽 宿州 2 3 4 0 0 1)摘 要:在自动驾驶汽车设计中可能会使用不同的目标检测技术,无线电探测与测距技术(R A D A R)、光图像探测与测距技术(L i D A R)和计算机视觉是公认的检测技术。计算机视觉是一种从数字图像中提取重要特征的方法,使计算机能够感知物体的特征并解释图像。在近几年的研究中,已经发现计算机视觉警示基于深度学习方法可以实时检测目标并应用在自动化领域。关键词:C NN;F a s t e rR C NN;F a s tR C NN;R C NN;S S D;YO L O;自动驾驶汽车中图分类号:U4 7 2 文献标志码:A 文章编号:2 0 9 5 9 6 9 9(2 0 2 2)0 6 0 0 5 8 0 40 引言计算机视觉是人工智能(A I)的一个分支,它使计算机能够像人类一样进行可视化和理解数字图像。深度学习的进步和创新有助于计算机视觉实现图1 自动驾驶汽车的结构更好的观看能力。自动驾驶汽车是一个自我决策系统,如图1所示,它从各种来源提取信息,如相机(计算机视觉)、激光雷达、雷达和传感器,然后进行信息整合,并将其输入先进的控制系统,该系统通过解读感知信息来推动车辆的机械运动。基于卷积神经网络(C NN)的方法是实现这类计算机视觉问题的最流行和最有效的方法。1 对象检测挑战计算机视觉和深度学习方法可以用来解决目标检测的挑战,这些挑战将在下一节中进行详细描述。1.1 数字图像中的目标分类目标分类是指在图像中找到目标的分类,前馈神经网络比传统的机器学习算法更准确地实现图像分类。C NN在单标签图像中实现更好的对象分类精度。对于多类目标分类,递归神经网络(C NN R NN)1模型具有较好的效果。1.2 数字图像中的目标定位图2 对象的分类和定位在数字图像中将定位目标的实际位置称为目标定位问题,即意味着物体的确切位置。通常,检测对象的位置由边界框表示,边界框是根据图像中物体的坐标确定的。研究人员提出了一种基于深度卷积第3 7卷 第6期2 0 2 2年1 2月 景德镇学院学报J o u r n a l o f J i n g D e Z h e nU n i v e r s i t y V o l.3 7N o.6D c e.2 0 2 2收稿日期:2 0 2 2 0 6 2 6基金项目:安徽省高校自然科学重点项目(K J 2 0 2 1 A 1 3 7 8);安徽省高校自然科学重点项目(K J 2 0 2 0 A 0 9 6 9);校级质量工程项目(s z y 2 0 2 1 l z l g c 2 7)作者简介:石启飞(1 9 8 2),男,安徽淮北人。讲师,本科,从事机械工程教学与研究。网络的子对象定位模型来定位图像中的对象,可以在没有人监督的情况下对物体进行定位2。图2展示了对象的分类和定位。1.3 图像中的目标检测在计算机视觉中,目标检测问题是指在一幅图像中识别和检测多个目标。目标的检测可能属于数字图像中的某一类。多类目标检测的一个例子如图3所示。对象检测是在被检测对象周围画一个方框,这个框称为边界框。而在物体识别中,则是用物体上的某些标签来标记物体。图3 多类目标检测的例子利用交并比(I o U)技术对深度学习模型预测的边界框进行评估。它是一种模型评估技术,用于检查模型在对象周围画框的准确性。I o U分数在0到1之间。它将两个盒子的公共部分除以它们结合的面积。I o U=I n t e rs e c t i o na r e ao f 2b o u n d i n gb o x e sU n i o no f a r e ao fb o t hb o x e s 图4用两个边界框说明了对象的定位。以字母M和N表示的包围盒,其I o U分数计算如下:I o U=MNMN I o U分数越高,边界框越精确,其范围就越精确。一般来说,为了更准确地预测,它应该大于0.5。图4 基于地面真实和边界框的目标定位2 目标检测的深度学习方法每个物体都有特定的特征,这些特征决定了对象的类别。已知的深度学习方法通过提取被称为特征图的目标特征来解决目标检测问题。本节将介绍基于C NN的目标检测算法。2.1 基于区域的卷积神经网络(R C NN)范全福等人3使用F a s t e rR C NN进行了车辆检测实验。在K I T T I数据集上应用更快的R C NN进行目标检测。实验研究表明,测试和缩放是提高F a s t e rR C NN性能的主要因素。更快的R C NN也被评价为定位和识别的有效方法,即用平均精度对模型进行评价。在不同尺度模型下,车辆检测的平均精度分别为9 5.1 4%(容易)、8 3.7 3%(中等)和7 1.2 2%(难)。在R C NN中,采用选择性搜索从测试图像中提取2 0 0 0个区域建议,不像C NN提取大量的区域提议和对象检测。在R C NN中,有限的区域提议被包裹,然后利用C NN从每个区域的提议中提取固定长度的特征向量。最后,利用线性支持向量机对提取的每个特征向量进行权重评分,对每个区域建议中的对象进行分类。为了减少定位误差,采用线性回归模型预测边界框边界。该方法在多核C P U上实现了5 3.7%的mA P,检测时间为1 0秒。2.2 基于区域的快速的卷积神经网络(F a s tR C NN)在F a s tR C NN中解决了R C NN的不足4。与R C NN将2 0 0 0个区域提案输入C NN不同,F a s tR C NN将带有感兴趣区域(r e g i o no fI n t e r-e s t,R O I)的整个图像输入多个卷积和池化层生成特征图5 6。然后利用R O I池化层从特征图中提取固定长度的特征向量。最后,全连通层对每个特征向量进行处理,继而生成两层作为输出分支。在一个分支中,s o f t m a x层预测对象类。第二个分支为每个对象类生成四个坐标号。这些数字估计了每个对象类的边界框。2.3 基于区域的更快的卷积神经网络(F a s t e rR C NN)F a s t e rR C NN的工作原理与F a s tR C NN相似,不同之处是F a s tR C NN使用选择性搜索算法预测区域建议,而F a s t e rR C NN使用单独的网络(r e g i o np r o p o s a ln e t w o r k)生成区域建议。R P N为整个图像生成一组矩形区域建议。将卷积网络层和R P N层合并,共享计算。然后利用R O I池化层对每个区域的对象进行分类,并预测边界框。2.4 YO L O在YO L O中,对象检测问题是作为回归问题来952 0 2 2年第6期 石启飞:基于深度学习方法的目标检测技术在自动驾驶汽车的应用研究 解决的7。在YO L O中,一个单一的神经网络以整个图像作为输入来预测边界盒和类概率8。利用整个图像特征来预测每个边界框。对于每个类,它预测了边界框,并能够检测整个图像中对象的存在9。YO L O是一个实时检测系统,可以采集整个图像。YO L O将整个图像划分为S x S网格。该网络为每个网格单元预测了具有置信值的B包围框。置信值决定该对象在框中的存在程度。置信度值0表示网格中没有对象。为了准确检测,置信度得分应该等于或接近预测的边界盒和实际目标。每个网格单元也预测了类概率。一个类概率高于某一置信度的边界框被用来检测图像中的目标。2.5 单射多盒探测器(S S D)在S S D模型中使用前馈C NN生成带有分数的定长边界框。分数决定了这些盒子里物体的可能性水平。在S S D中,整个图像会被输入到v g 1 6网络中,生成特征图。这些特征映射然后被卷积层使用,卷积层执行实际的检测,并为每个对象生成多个边界框1 0。在训练过程中,S S D需要为每个对象输入一个带有地面真实边框的图像。对于每个像素,它生成多个锚框。对于每个边框,S S D预测了边界框的形状偏移和置信度得分。然后这些边框被映射到地面的真实边框上。非最大抑制操作在检查每个边界框的置信度得分后,通过选取一个高分边界框来去除重复的边界框预测。表1为不同目标检测方法的比较。平均精度(mA P)用于评价目标检测方法,如R C NN,F a s tR C NN,YO L O等。它将地面真值框与预测的边界框进行比较。使用不同的欠条阈值来创建精确召回曲线。这条曲线生成mA P的分数。mA P分数越高,说明该对象的存在以及该模型检测的准确性。表1 基于C NN的目标检测方法的平均精度比较A u t h o rM e t h o df p smA P/%G i r s h i c ke t a l6R C NN5 3.3G i r s h i c ke t a l7F a s tR C NN6 6R e ne t a l8F a s t e rR C NN77 3.2R e d m o ne t a l9YO L O4 56 3.4L i ue ta l1 0S S D 3 0 05 87 2.1L i ue ta l1 0S S D 5 0 02 37 5.1表1展示了使用mA P的基于C NN的目标检测方法的性能精度。更快的R C NN在7 f p s下实现了7 3.2%的目标探测。YO L O和S S D 3 0 0分别实现了6 3.4%和7 2.1%的mA P(4 5f p s)和7 2.1%的mA P(5 8f p s)。R C NN和R C NN分别获得5 3.3%mA P和6 6%mA P。R C NN使用选择性搜索区域提议,在训练和测试时花费了大量的时间。F a s tR C NN在物体检测方面比R C NN更好更快,但 需 要 花 费 时 间 来 测 试 图 像。F a s t e rR C NN、YO L O和S S D可以用于实时对象检测应用。3 结论自动驾驶汽车包含多种技术。计算机视觉技术提供了关于视觉图像的宝贵知识,并在独立车辆上实时应用。在目标检测中,分类、位置和检测是一些众所周知的挑战。目标检测需要用矩形框和类标记定位目标对象,对自动驾驶汽车进行实时精确的目标检测是非常必要的。本文对基于深度学习方法下的不同算法进行检测和比较,这些算法包括C NN,F a s t e rR C NN,F a s tR C NN,R C NN,S S D,YO-L O。在目标检测成功率上,F a s t e rR C NN方法明显高于其他方法,但是需要多花出时间来测试图像。同时,F a s t e rR C NN、YO L O和S S D在进行实时对象检测应用中表现良好。参考文献:1 王江,杨毅,毛俊华,等.C NN R NN:多标签图像分类的统一框架C.I E E E计算机视觉与模式识别会议论文集,2 0 1 6:2 2 8 5 2 2 9 4.2B a z z a n i,L o r i s,A l e s s a n d r aB e r g a m o,D r a g o m i rA n g u e l o v,a n dL o r e n z oT o r r e s a n i.基于深度网络的自学目标定位C.I E E E计算机视觉应用冬季会议(WA C V),2 0 1 6:1 9.3 范全福,丽莎布朗,约翰史密斯.近距离观察F a s t e rR C NN用于车辆检测C.I E E E智能汽车研讨会,2 0 1 6:1 2 4 1 2 9.4 陈怡佳.基于F a s t e rR C NN的目标检测系统D.哈尔滨理工大学,2 0 1 9.5 任少青,何开明,孙健.F a s t e r r c n n:面向区域提议网络的实时目标检测O L/D B.2 0 1 5:1 5 0 6.0 1 4 9 7.6G i r s h i c k,R o s s,J e f fD o n a h u e,e ta l.用于准确的目标检测和图像分割