分享
改进YOLOv3-SPP水下目标检测研究_叶赵兵.pdf
下载文档

ID:2371132

大小:2.09MB

页数:10页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
改进 YOLOv3 SPP 水下 目标 检测 研究 叶赵兵
2023,59(6)近年来,我国围绕“进一步关心海洋、认识海洋、经略海洋”做出重要部署,强调海洋强国战略,加强深海研究。而对于海洋的探索远离不开水下光学、声学技术的支持,无论在资源开发、海底捕捞、遗迹探寻,还是军事行动中,都具有重要研究价值。相较于声学,水下光学具有分辨率高、信息丰富和成本低等特点,因此成为水下近距离环境感知主要手段,广泛应用于海底生物监测、水下机器人视觉技术等多种场合1-3。然而,由于水下环境和光照条件较为特殊,水下视觉信号通常会退化,形成对比度低、颜色失真和模糊感强烈的水下图像(如图1所示,水下原始图像),因此水下目标检测难度较大。早期水下目标检测主要是基于人工特征提取的机器学习方法,即通过颜色、形状、纹理等特征来刻画水下改进YOLOv3-SPP水下目标检测研究叶赵兵,段先华,赵楚江苏科技大学 计算机学院,江苏 镇江 212100摘要:针对水下目标检测任务中图像模糊、背景复杂以及目标小而导致误检和漏检问题,提出一种改进YOLOv3-SPP的水下目标检测算法。利用UWGAN网络对水下原始图像进行恢复,采用Mixup方法增强数据,减少错误标签记忆;以YOLOv3-SPP网络结构为基础,增加网络预测尺度,提高小目标检测性能;引入CIoU边框回归损失,提高定位精度;利用K-Means+聚类算法,筛选最佳Anchor box。将改进YOLOv3-SPP算法在处理后的URPC数据集上进行实验,平均检测精度由79.58%提升到88.71%,速度为28.9 FPS。结果表明,改进算法综合检测能力优于其他算法。关键词:水下目标;图像增强;YOLOv3-SPP;UWGAN;CIoU;K-Means+文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2204-0264Research on Underwater Target Detection by Improved YOLOv3-SPPYE Zhaobing,DUAN Xianhua,ZHAO ChuSchool of Computer Science,Jiangsu University of Science and Technology,Zhenjiang,Jiangsu 212100,ChinaAbstract:To solve the problem of faulty and omitted detection that results from blurred images,complex backgroundsand small targets in underwater target detection tasks,an improved YOLOv3-SPP underwater target detection algorithm isproposed.Firstly,the original underwater image is recovered by UWGAN network,and the Mixup method is employed tostrengthen the data and diminish the mislabeled memory.Secondly,the YOLOv3-SPP network structure is used as thebasis to increase the network prediction scale to raise the small target detection performance.Then the CIoU border regres-sion loss is introduced to improve the localization accuracy.Finally,theK-Means+clustering algorithm is applied to fil-ter the best Anchor box.The improved YOLOv3-SPP algorithm is experimented on the processed URPC dataset,and theaverage detection accuracy is improved from 79.58%to 88.71%with a speed of 28.9 FPS.The performance show that theimproved algorithm has better comprehensive detection capability than other algorithms.Key words:underwater target;image enhancement;YOLOv3-SPP;UWGAN;CIoU;K-Means+基金项目:国家自然科学基金(61806087);江苏省研究生科研与实践创新计划项目(KYCX21_3489)。作者简介:叶赵兵(1996),男,硕士研究生,CCF会员,研究方向为图像处理与计算机视觉,E-mail:;段先华(1965),男,博士,教授,研究方向为模式识别、图像处理与计算机视觉等;赵楚(1996),女,硕士研究生,研究方向为图像处理与计算机视觉。收稿日期:2022-04-21修回日期:2022-06-15文章编号:1002-8331(2023)06-0231-10图1水下原始图像Fig.1Underwater original imageComputer Engineering and Applications计算机工程与应用231Computer Engineering and Applications计算机工程与应用2023,59(6)物体4,尽管具有方法简单、实时性好等优点,但时间冗余度高,基于手工设计的特征鲁棒性较差,并且严重受制于硬件设备和周围环境,无法高精度检测目标物体,造成大量信息误差,难以应用于实际工程中。然而,随着人工智能计算机视觉方向技术的不断发展,深度学习(deep learning,DL)5-7方法逐渐应用于目标检测。从算法思路上来说可以分为两大类:一类是two-stage 方法,主要以 FasterR-CNN8、Mask R-CNN9等算法为主,其显著优势在于检测精度高;另一类是one-stage方法,主要代表有YOLO(you only look once)10,SSD(single shot detection)11,直接通过网络计算输出目标预选框和标签,因此检测速度较快。大量学者研究表明,与传统手工相比,当前深度学习技术广泛应用在海洋研究之中。例如李庆忠等人12提出基于改进YOLO和迁移学习的水下鱼类检测算法,该算法采用直方图均衡化增强水下降质图像,利用迁移学习训练网络模型,既实现图像恢复,也能提升检测精度,但水下目标往往重叠、模糊以及较小现象,该模型不能够很好地检测出来;朱世伟等人13提出类加权YOLO网络应对水下目标检测,该算法构造类加权损失函数权衡不同类别之间的难易度,并通过K-means重新聚类锚框,结果表明,该方法能够提升一定的检测精度,但是对于水下小目标问题依旧难以很好解决;刘萍等人14提出改进 YOLOv3 网络的海洋生物识别算法,该算法将UGAN-P网络与YOLO网络相结合,实现增强与检测一体化,尽管检测精度提升,但是速度太慢。综上所述,在深度学习方法引入目标检测以来,取得了极大的成果,但是不同于普通目标检测,水下环境复杂,图像质量更低,样本重叠、模糊和遮挡问题依旧难以解决,严重影响着检测精度。针对上述问题,本文将以YOLOv3-SPP(spatial pyramid pooling,SPP)15为基准检测框架,并针对水下图像模糊、小目标漏检以及精度低问题,在原有框架基础上改进,最终与当前常用检测算法进行实验对比。相关改进工作主要有以下几点:第一,针对水下图像模糊问题,采用UWGAN16网络对原始数据集增强以生成图像清晰、对比度高的新数据集;第二,针对小目标漏检及检测精度低的问题,在YOLOv3-SPP的Darknet-5317网络结构中新增一个尺度为152152的预测层;第三,采用一种与数据不相关的增强方式,即Mixup18,可在一定程度上解决水下目标遮盖,重叠在一起问题;第四,原边框回归损失函数,对于两框具体位置不能很好反应,以及训练收敛较慢,从而引入CIoU19损失,为预测框提供更准确的收敛方向,加快训练时的收敛速度,解决IoU中预测框与真实框不相交的缺点,并采用DIoU-NMS作为边框筛选指标;第五,K-Means在获取Anchor box存在误差较大,采用K-Means+策略进行优化。1YOLOv3-SPP相关介绍1.1网络结构YOLOv3-SPP在YOLOV3原有基础上进行一些改进,其一使用Mosaic图像增强方法,随机将四张图片进行拼接在一起,然后进行网络训练,可增加数据多样性、丰富检测物体背景以及BN能一次统计多张图片参数,减小 bath_size设置;其二在第一个预测图层之前引入SPP结构实现不同尺度的特征融合,可提高最终检测精度。YOLOv3-SPP算法仍采用含有残差结构20的DarkNet-53作为特征提取backbone,然后将提取到的特征利用文献21中的特征金字塔网络(feature pyramid network,FPN)将不同尺度特征图融合,提取更多细节信息,最终输出三种尺度预测结果,分别用于检测不同大小目标。FPN具体如图2所示,左侧骨干网络Darknet-53采取自下而上(下采样)策略,进行特征提取;然后再利用FPN思想将深层与浅层特征进行融合,生成三个加强特征。YOLOv3-SPP算法最主要创新点是在第一个预测特征层前面的第五和第六卷积层之间加入空间金字塔池化结构,采用四种不同尺度的最大池化操作,尺度分别为1313、99、55、11(不处理),能够极大增加感受野,进而提高网络对小目标检测能力。如图3所示。该模型使用多个窗口,可以实现任意输入尺寸,因此在Yolo网络中,对于宽高比和尺寸不同的输入图像,SPP均可以处理,因此提高图像尺度不变性,降低过拟合问题。而且实际而言,训练图像尺寸多样化远比单一尺寸在训练过程更易于收敛。1.2目标边界框预测YOLOv3-SPP将需要检测图像划分成三种不同大小的SS个网格,如图4所示。每个网格宽、高分别为Cx、Cy,以及最终输出预测边界框相对于Anchor box偏移量为tx、ty、tw、th,则边界框预测公式17为:predictpredictpredictFPNDarknet-53图2FPN具体网络结构Fig.2Specific network structure of FPNConvolutionalConcatenateMaxpool55/1Maxpool99/1Maxpool1313/1图3SPP结构图Fig.3SPP structure diagram2322023,59(6)bx=(tx)+Cx(1)by=(ty)+Cy(2)bw=pwetw(3)bh=pheth(4)式中,bx、by、bw、bh为预测边界框在特征图上实际中心点坐标以及宽和高;pw、ph是Anchor box宽和高;为Sigmoid激活函数,将tx、ty映射在区间0,1内,确保目标中心落在预测框网格中。往往实际过程中产生的预测框存在多个,需采用非极大值抑制方法(non-maximumsuppression,NMS)进行筛选,首先计算每个预测框置信度得分,选出最高分框记为A,然后将其他剩余框与A计算IOU值,如果IOU值超过设定的阈值,则进行抑制操作;接下来在剩余框中依旧选择最高分框重复以上步骤,直到每个目标仅剩一个预测框为止。2相关改进工作2.1网络结构改进YOLOv3-SPP通过采用多尺度检测方法将输入图像划分成1919、3838、7676大小网格,形成三种尺度预测,综合检测不同大小

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开