融合
空洞
卷积
量化
目标
检测
李洋
融合空洞卷积的轻量化目标检测李洋,苟刚(贵州大学计算机科学与技术学院公共大数据国家重点实验室,贵阳550025)通信作者:苟刚,E-mail:摘要:为了轻量化模型,便于移动端设备的嵌入,对 YOLOv4 网络进行了改进.首先,用 MobileNetV3 作为主干网络,并使用深度可分离卷积替换加强特征提取网络的普通卷积,降低模型参数量;其次,在 104104 特征图输出时融合空洞率为 2 的空洞卷积,与 5252 的特征层进行特征融合,获取更多的语义信息和位置信息,细化特征提取能力,提升模型对极小目标的检测性能;最后,将原来的池化层使用 3 个 55 的 Maxpool 进行串联,减少计算量,提升检测速度.实验结果表明,在华为云 2020 数据集上,改进算法的 mAP 比 YM 算法提高了 2.33%,在公共数据集VOC07+12 上,mAP 提高了 3.12%,FPS 比原来的 YOLOv4 算法提高了一倍多,参数量降低至原来的 18%,证明了改进算法的有效性.关键词:MobileNetV3;YOLOv4;空洞卷积;轻量化;深度可分离卷积引用格式:李洋,苟刚.融合空洞卷积的轻量化目标检测.计算机系统应用,2023,32(2):379386.http:/www.c-s- Target Detection Based on Dilated ConvolutionLIYang,GOUGang(StateKeyLaboratoryofPublicBigData,CollegeofComputerScienceandTechnology,GuizhouUniversity,Guiyang550025,China)Abstract:Inordertomakethemodellightweightandfacilitatetheembeddingofmobiledevices,theYOLOv4networkisimproved.Firstly,MobileNetV3isusedasthebackbonenetwork,andadeepseparableconvolutionisadoptedtoreplacetheordinaryconvolutionofanenhancedfeatureextractionnetwork,soastoreducethenumberofmodelparameters.Secondly,whenthefeaturemapwithasizeof104104isoutput,thedilatedconvolutionwithadilatedrateof2isfused,anditisthenfusedwithafeaturelayerwithasizeof5252,soastoobtainmoresemanticandlocationinformation,whichcanrefinethefeatureextractionabilityandimprovethedetectionperformanceofthemodelforminimaltargets.Finally,theoriginalpoolinglayerisconnectedinserieswiththreeMaxpoolswithasizeof55toreducethecomputationalloadandimprovethedetectionspeed.TheexperimentalresultsshowthatonHuaweiCloud2020dataset,themAPoftheimprovedalgorithmisimprovedby2.33%comparedwiththeYMalgorithm,andonthepublicdatasetVOC07+12,themAPisimprovedby3.12%,andtheFPShasmorethandoubledcomparedwiththeoriginalYOLOv4algorithm,withthenumberofparametersreducedto18%oftheoriginalone.Asaresult,theeffectivenessoftheimprovedalgorithmisverified.Key words:MobileNetV3;YOLOv4;dilatedconvolution;lightweight;depth-separableconvolution随着计算机视觉研究的不断发展,目标检测在近年来发展迅速,被应用于各行各业,比如行人检测1、车辆检测、自动驾驶、农作物杂草识别等,越来越多的研究者开始关注目标检测算法,但是在目标物体遮计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):379386doi:10.15888/ki.csa.008975http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(62162010);贵州省科技支撑计划(黔科合支撑 2022 一般 267)收稿时间:2022-07-13;修改时间:2022-09-07;采用时间:2022-09-16;csa 在线出版时间:2022-12-23CNKI 网络首发时间:2022-12-27ResearchandDevelopment研究开发379挡、光照变化、图像位置变换等目标检测上,检测效果差强人意,且现有的网络结构复杂,对计算能力要求高,难以嵌入移动端设备广泛使用,这值得我们进一步深入研究.目标检测分为传统方法和深度学习方法.传统的目标检测算法是利用手工特征和分类器,以滑窗方式在图像金字塔上遍历所有位置和大小,进行目标检测.深度学习包括了无需锚框的关键点法、中心域法以及基于锚框的单阶段法、多阶段法,其中单阶段算法包括 SSD2、YOLO36系列算法、Retinanet7等,单阶段(onestage)算法是通过预设一系列不同大小的锚框,将图像输入卷积神经网络,利用区域生成网络(regionproposalnetwork,RPN)对 anchors 进行分类回归,得到候选区域;双阶段(twostage)算法则还需继续利用对图像的感兴趣区域(regionofinterest,ROI)池化提取候选区域的特征,将提取的特征输入 R-CNN 网络,进一步对候选区域分类回归,如 R-CNN8,9系列算法.所以onestage 算法的检测速度更快.为进一步提高目标检测的精度和检测速度,2020 年Bochkovskiy 等6提出 YOLOv4 算法,在 YOLOv3 主干网络 Darknet53 的每个大残差块上加入跨阶段局部网络(crossstagepartial,CSP)10结构,并在 1313 的输出引入空间金字塔池化(spatialpyramidpooling,SPP)11增加网络的感受野,改进 YOLOv3 的特征图金字塔网络(featurepyramidnetwork,FPN),用路径聚合网络(pathaggregationnetwork,PANet)12作为加强特征提取网络,进行特征融合,使用下采样的方法融合不同维度的语义信息特征.文献 13 中,构建以MobileNetV2为核心的轻量级特征提取网络,利用通道和空间注意力机制增强网络对特征的细化能力;多尺度特征融合结构,增强网络对尺度的适应性,提高模型精度.文献 14 将 Darknet-53 的第 2 个残差块输出的特征图混合空洞卷积,与YOLOv3 中 8 倍下采样的特征图融合,使用 FocalLoss损失函数改进负样本的置信度公式,在 VOC 数据集上,精度达到 81.5%.文献 15 为解决串联操作只是将通道维度上不同尺度特征融合,不能反映通道间特征相关性的问题,提出一种基于注意力机制的特征融合算法,对通道特征进行权重的重新分配,使用 FocalLoss和 GIOULoss 重新设计损失函数,在 VOC 数据集上,精度达到 82.69%.由于发展的需要,复杂的目标检测网络不适应当前社会的发展,难以进行移动端设备的嵌入,轻量级的网络应运而生.本文借鉴前人的研究方法,改进 YOLOv4算法,使用轻量级的 MobileNetV316网络替换 YOLOv4的主干网络部分;为提升网络模型的检测精度,对特征不明显的小目标的检测能力,引入空洞卷积,扩大感受野,将主干网络 104104 的特征图卷积后添加空洞卷积,与 5252 输出的特征图进行特征融合,得到的新特征包含更多语义信息和位置信息,能提升模型的检测能力;改进 SPP 结构,将 3 个 Maxpool 串联后再特征融合,降低计算量;在 VOC07+12 的数据集上进行检测,改进模型的精度达到 87.32%,与使用 MobileNetV3 作为主干网络的轻量化 YM 模型相比 mAP 提升了 3.12%.1相关工作 1.1 YOLOv4 算法YOLOv4 是在 YOLOv3 的基础上进行改进的,在Darknet-53 的每个 residualblock 加上 CSP 结构,取消bottleneck结构,使模型更容易训练,CSP 的结构图如图 1 所示.Base layerPart 1 Part 2DenseTransitionTransitionTransitionDenseBase layer(a)DenseNet(b)CSPDenseNetblockblock图 1CSP 结构图输出 3 个特征尺度检测层,其中 5252 用于检测小目标物体,2626 用于检测中目标物体,1313 用于检测大目标物体;另外,增加了 SPP 层,增强网络的感受野;利用 YOLO-Head 输出 3 个检测头,该算法的每个 YOLO-Head 都包含了 3 个先验框,每个先验框包含了中心点(x,y)、宽 w、高 h、置信度 confidence 五个参数,输出计算如式(1)所示,通过调整这些参数生成最优值,num_anchors 代表先验框的个数,num_classes代表数据集的种类.out=num_anchors(5+num_classes)(1)计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第2期380研究开发ResearchandDevelopment 1.2 损失函数YOLOv4 损失函数的计算包括 3 部分:回归损失、置信度损失、分类损失.IoU(intersectionoverunion)是目标检测算法中常用的指标,用于计算预测框和真实框之间交集与并集的比值,如式(2)所示,A 代表预测边框,B 代表真实边框.IoU=|AB|AB|(2)CIOU 计算如式(3)所示,表示预测框与真实框中心点间的欧氏距离,p、g 分别表示预测框和真实框的中心点,c 表示同时包含了预测框和真实框最小闭包区域对角线的距离.影响因子 v 拟合了预测框与真实框的纵横比.CIOU=1IoU+2(p,g)c2+(3)Iobjij?CiCi?pi(c)pi(c)YOLOv4 的损失函数如式(4)所示.KK 表示对所有预测框遍历,M=3,代表每层有 3 个先验框,coord表示正样本权重系数,表示第 i 个网格第 j 个检测框是否存在目标,存在则为正样本,否则判定为负样本,wi、hi表示预测框中心点的宽和高,表示样本值,表示预测值,noobj表示负样本的权重系数,表示预测框类别概率,表示真实框类别概率.Loss=coordKKi=0Mj=0Iobjij(2wihi)(1CIOU)KKi=0Mj=0IobjijCilog(Ci)+(1Ci)log(1Ci)noobjKKi=0Mj=0InoobjijCilog(Ci)+(1Ci)log(1Ci)KKi=0Mj=0Iobjijcclasses pi(c)log(pi(c)+(1