温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
YOLOv7
声光
融合
水下
目标
检测
方法
葛慧林
基于改进基于改进 YOLOv7 声光融合水下目标检测方法声光融合水下目标检测方法葛慧林,戴跃伟,朱志宇,王彪(江苏科技大学海洋学院,江苏镇江212003)摘 要:多变的光照条件及天气状况将会严重影响水下光学图像的成像质量,为提升水下目标检测的稳定性及检测精度,基于深度神经网络模型,对结合光学图像和声呐图形的多模态方法进行研究。首先,针对实时神经网络检测器架构 YOLOv7,通过改进该检测器,使其适用于多模态输入。其次,为了有效地结合来自不同模态的影响特征,提出全新的融合模型 YOLOv7-Fusion,并通过引入 CE-Fusion 模块,实现融合效率和准确度的提升。最后,为了解决数据集缺少的问题,利用快速风格和图像处理算法转化的方法,生成人工数据集。所设计的算法及模型目标识别准确率为 0.995,具有较高检测精度;Fps 为 43.4,具有较高处理效率。该模型可支持真实应用,适用于不同类型的水下场景。关键词:改进 YOLOv7;水下目标检测;声光融合;光学图像;声呐图像中图分类号:TB566文献标识码:A文章编号:16727649(2023)12012206doi:10.3404/j.issn.16727619.2023.12.023Research on acoustic-optical image fusion underwater targetdetection method based on improved YOLOv7GEHui-lin,DAIYue-wei,ZHUZhi-yu,WANGBiao(OceanCollege,JiangsuUniversityScienceandTechnology,Zhenjiang212003,China)Abstract:Lightingandweatherconditionsseriouslyaffectthequalityofunderwateropticalimages.Toimprovethestabilityanddetectionaccuracyofunderwatertargetdetection,amulti-modalmethodcombiningopticalimagesandsonargraphicsisstudiedbasedonthedeepneuralnetworkmodel.Firstly,thearchitectureofreal-timeneuralnetworkdetectorYOLOv7isstudied,andthedetectorisimprovedtobesuitableformulti-modeinput.Secondly,inordertoeffectivelycom-binetheinfluencecharacteristicsfromdifferentmodes,YOLOv7-FusionwasproposedandCE-Fusionmodulewasintro-ducedtoimprovefusionefficiencyandaccuracy.Finally,inordertosolvetheproblemofthelackofdataset,faststyleandimageprocessingalgorithmtransformationisusedtogenerateartificialdataset.Thetargetrecognitionaccuracyofthede-signedalgorithmandmodelis0.995andFpsis43.4,withhighdetectionaccuracyandprocessingefficiency.Therefore,themodelcansupportrealapplicationsandissuitablefordifferentunderwaterscenes.Key words:improvedYOLOv7;underwatertargetdetection;acoustic-opticalimagefusion;opticalimage;sonargraphic0引言基于光学传感器获得的图像具有较高的图像细节及颜色信息,适用于环境监测或地质勘探等应用场景。光学相机提供的高分辨率数据,在诸如珊瑚礁监测1、船体检查2、运动估计3和考古调查4等应用中具有重要意义。然而,光学相机的成像范围有限,水下光的衰减、水的浊度或天气改变等因素都将进一步影响到光学传感器的范围和性能。照明系统可以在一定程度上缓解这些问题,但不均匀的照明也是光学图像的干扰因素之一,并且由于成本及功率的限制,高质量的照明系统并不适用于多数应用场景。此外,在水下环境中,潜艇会扬起淤泥,干扰光学传感器的性能。声呐可以适应昏暗的环境,拥有更大的感知范围,但是与第 45卷第12期舰船科学技术Vol.45,No.122023年6月SHIPSCIENCEANDTECHNOLOGYJun.,2023收稿日期:20230116基金项目:国家自然科学基金资助项目(62006102);镇江市重点研发计划(社会发展)项目(SH2022013)作者简介:葛慧林(1989),男,硕士,副研究员,研究方向为深度学习、水下信息感知。光学相机相比,声呐的分辨率较低,而且不包含颜色。结合光学和声呐数据,可实现各自优点的整合,提高水下目标检测的准确度5。目前相关研究多数集中于如何创建高效的整合模型。Moroni 等6利用光学数据建立一个三维纹理的场景,利用声呐数据的阴影形状产生一个三维水深轮廓,通过整合每一个表征并使用文献 7 中启发的方法,投影到多维状态空间图中的参考层。然而,算法没有对声光图像数据进行直接的融合。Negahdaripour 等8设计的模型在特征层面上明确地融合光学和声呐数据,不仅改进了运动估计,还克服了单眼视觉固有的模糊性。Babaee 等9提出一种利用前视声呐 DIDSON 和光学相机图像从遮挡表面法线建立三维物体模型的方法,与单纯的光学传感器技术相比,可以在更高的浊度水平下生成更好的物体三维模型。在目标检测任务中,执行光学图像和声呐图像的融合需要对影像进行校准。在使用深度学习的多模态输入中,根据声光图像信息被结合的时刻,一共分为3 种解决方案:早期融合、后期融合和中间融合。早期融合方法主要是在神经网络处理之前,在原始数据层面上结合光学和声呐图像。后期融合是指对来自光学和声呐图像进行独立处理后,融合处理结果。中期融合模型接受多种输入,在网络内部融合数据。为了克服样本的不足,可利用零散的方法来增加样本数量1011。对预训练的 CNN 进行微调是声呐图像检测中一个有用的方法。Lee 等12采用 StyleBankNet对人体的光学图像进行风格转移模拟,进一步提高了声呐物体检测的精度,但该样本由计算机辅助设计软件生成,需要大量的模拟工作来生成样本。Li 等13充分利用风格转移白化、着色变换方法和遥感图像模拟声呐图像进行目标风格转移。Yu 等14通过使用 Trans-former-YOLOv5,提高准确率。Huang 等15结合三维模型、放大数据、设备噪声和图像机制,通过 DCNN 和微调风格转换方法提取目标特征并模拟目标损伤和姿态。Song 等16提出了一种基于斑点噪声分析的高效声呐分割方法,该方法便于进行像素级分类,并采用具有多个侧向输出的单流深度神经网络来优化边缘分割。为提升水下目标检测与识别的准确度,本文研究实时神经网络检测器架构 YOLOv7,并使其适用于多模态输入,实现声光数据融合。通过设计全新的融合模型 YOLOv7-Fusion 以及引入 CE-Fusion 模块,进一步提升融合效率和准确性。利用快速风格和图像处理算法转化的方法,生成人工数据集,丰富样本集数量。本文提出的算法可充分利用声、光图像的优势,显著提升水下目标检测识别的效率、准确性以及稳定性。1YOLOv7-Fusion 多模态网络设计本文网络主干选择为 YOLOv7,YOLOv7 是一种单阶段的物体检测算法,其架构是在 YOLOv4,ScaledYOLOv4 和 YOLO-R 模型架构的基础上开发。YOLOv7采用了扩展的高效层聚合网络(E-ELAN)架构,通过实现输入的不同变化,如位置变换、扩展和合并,使网络的学习能力得到不断提高,进而网络在梯度路线改变时也能保持较高学习性能。YOLOv7 架构包括1 个骨干层、1 个瓶颈层和 1 个头部。模型的输出位于头部,并包括主导头和辅助头,主导头负责预测结果,而辅助头支持中间层的训练。基于 YOLOv7,将光学图像和声呐图像融合为 6 通道的张量,其中 3 个通道为 RGB 图像数据,另 3 个通道为声呐数据。使用2 个不同的特征提取网络进行独立处理,特征图在不同层级使用支系间连接进行组合,实现水下目标检测准确率的提升。所设计的 YOLOv7-Fusion 如图 1 所示,分别在骨干层的倒数第 1、第 2、第 3 层提取特征图输入进 CE-Fusion 模块,输出融合特征图,分别连接到瓶颈层的对应部分。为了在中间融合时,有效地结合来自不同模态的影像特征,提出一个新的 CE-Fusion 模块,具体结构如图 2 所示。模块包含自我注意力和多模态融合机,定义 ti和 gi代表第 i 层的光学特征图和声呐特征图。ti=ChannelAttn(ti),(1)gi=SpatialAttn(gi),(2)bi=Conv(tiWi1giWi2),(3)fi=Residual(bi,ti,gi)。(4)Wi1 RDiLi,Wi2 RCiLi,|Residual式中:为哈达玛积;Conv为 33 卷积层;Residual为残差层。由于低层 CNN 特征可能包含噪声,为促进全局信息的表达、增强局部细节并抑制不相关区域,参照CBAM24 实现通道注意力和空间注意力方法。此外,利用哈达玛积对来自 2 个分支特征之间的细粒度互动进行建模。最后,结合交叉特征和刺激特征,并通过一个残差块,产生特征 fi,该特征可有效捕捉当前空间分辨率下的全局和局部环境。使用 YOLOv7在 COCO 的预训练权重初始化 YOLOv7-Fusion,由于原版模型没有 CE-Fusion 模块,在初始化后进行预热训第45卷葛慧林,等:基于改进 YOLOv7 声光融合水下目标检测方法123练,在预热训练阶段,冻结转移的权重,专门训练CE-Fusion。2基于风格转移的人工资料集目前,许多研究注重转移学习和数据增强,在声呐目标检测中,基于风格转移的模型性能有了明显的提高,并成为声呐目标检测的一个技术趋势。一般来说,风格转移主要包括 2 个步骤:风格转移网络在风格图像和内容图像上训练,生成一个风格模型;将图像输入生成的模型中,并输出风格化图像。然而,直接使用风格转移方法,会失去声呐图像中目标的关键特征。为了增强特征,提出一系列增加特征的图像工学操作,通过使用 3 个图像操作来增强目标的阴影和特征,具体表示如下:?y=g(I(AutoLevel(x),),0,5。(5)式中:AutoLevel 为自动色阶;I 为颜色反转;g 为伽马y值调整;为伽马函数的阈值;为最终结果。该方法也可以应用于其他类型的声学图像。在快速风格转移中,定义 2 个 Loss 函数,Lstyle和Lcontent。LStyle为 f 在风格方面与 p 更相似。Lcontent为 f 在内容方面与 a 更相似,则L(a,f,p)=Lstyle(p,f)+Lcontent(a,f)。(6)式中:p 为声呐图像的背景;a 为光学图像;f 为具有声学图像风格的转移图像。在实际环境中,由于水下环境多变,如低光照、失焦、抖动等,获取到的光学图像无法达到稳定的质量,而声呐可以获得相对稳定的数据。为了模拟应用中的不可控因素,对随机的光学图像进行高斯模糊,并改变其伽马值。最终通过融合光学及声学图像数据,实现检测及识别效果的提升。生成人工资料集的具体操作如图 3 所示,对于每一种光学