基于
改进
YOLOv5
检测
技术研究
消防科学与技术2023年 8 月第 42 卷第 8 期消防设备研究基于改进 YOLOv5的林火检测技术研究王乃宇1,王琢1,2,张子超1,吴金霆1(1.东北林业大学 机电工程学院,黑龙江 哈尔滨 150040;2.东北林业大学 林业人工智能研究院,黑龙江 哈尔滨 150040)摘要:为提高林火检测的准确率和检测速度,增强林火检测模型的实用性,提出了一种改进 YOLOv5 的林火检测算法。该算法将改进后的 MobileViT 作为 YOLOv5 的骨干网络,使网络能够更有效地提取林火特征信息,同时为进一步降低模型复杂度,采用深度可分离卷积替代模型中的普通卷积,在训练阶段引入了 Mosaic数据增强的方法,以提高模型的泛化性。结果表明:改进后模型的林火检测精确率提高了 2.25%,mAP 提高了4.48%,检测速度提高了 4 帧/s,检测准确率和检测速度均取得了良好的效果。改进后模型能够很好地检测林火,提高了林火检测模型的实用性。关键词:林火检测;YOLOv5;MobileViT;深度可分离卷积中图分类号:X932;S126 文献标志码:A 文章编号:1009-0029(2023)08-1117-04森林资源与人类社会息息相关,一旦发生火灾,生态环境会遭到破坏,严重影响人类的生活环境和经济,甚至威胁人们的生命安全和健康1-2。火焰检测对于林火的发现和扑灭有重要意义,利用神经网络结合图像处理技术检测火焰成为各国学者的研究热点。在目前的研究中,叶铭亮等3将 KNN 自注意力引入到 Swin Transformer 模型中,提高了火焰检测的准确率。张苗等4基于 YOLOv3 网络架构实现了火灾的实时检测。ZHAO S 等5改进了 YOLOv4 和视觉背景提取器(ViBe)算法,降低了火灾检测的误检率。蒋文萍等6基于多重迁移学习得到的 YOLOv5在检测火焰上取得了较为理想的效果。王国睿7改进了 CSPDarknet53 骨干网络,进行多尺度特征图融合,提高了 YOLOv4的精度。研究表明,基于 YOLO 和 Transformer的火焰检测能够较为快速地提取火焰的特征,但 YOLO 和 Transformer在实用性、可靠性方面仍处于初级阶段。笔者提出了一种基于 YOLOv5的网络模型,融合了 Transformer算法的优势,在实时性与准确率中取得了良好的效果。1算法介绍1.1YOLOv5算法YOLOv5网络模型由 4部分构成:输入层 Input,骨干网 络 Backbone,颈 部 Neck,预 测 部 分 Prediction。YOLOv5 采用 CSPDarknet 作为骨干网络,通过堆叠 CSP 模块进行特征提取,颈部是模型的中间连接模块,将提取的特征图进行特征加强与特征融合后,传递给预测部分进行预测与分类,得到目标的预测信息。YOLOv5包含了 5种 模 型:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其中 YOLOv5s 在实时性和准确率方面取得了平衡。因此,选用 YOLOv5s模型进行研究。1.2骨干网络的优化YOLOv5 仍然存在模型参数冗余、计算开销较大等问题,且骨干网络选用了基于 CNN 的 CSPDarknet,难以提取林火的全局特征信息。1.2.1MobileViTMobileViT 则可以解决 CSPDarknet 存在的部分问题,MobileViT 网络的核心模块为 MobileViT Block模块,该 模 块 的 结 构 如 图 1 所 示。图 1 中 L 表 示 MobileViT Block中 Transformer模块的个数。MobileViT Block模块虽然可以整合 CNN 和 Transformer 的部分优势,但是仍然不能很好地利用特征,且仍有冗余参数。1.2.2MobileViT Block的改进针对原始 MobileViT Block 模块存在的问题,对其进行改进,改进后的模块结构如图 2所示。包含了 3个子模块:局部特征建模模块、全局特征建模模块和特征融合模块。局部特征建模模块实现局部特征的提取,全局特征建模模块通过 Unfold、Transformer 以及 Fold 完成全局特HWLocalRepresentationsConv-33Conv-11UnfoldTransformers as Convolutions(global representations)LTransformerFoldConv-11Conv-33FusionHWConcat图 1MobileViT Block模块Fig.1MobileViT block module基金项目:中央高校基本科研业务费专项资金资助项目(2572019CP21);黑龙江省自然科学基金项目(TD2020C001)1117Fire Science and Technology,August 2023,Vol.42,No.8征的提取,特征融合模块通过 shortcut捷径分支对特征图进行 concat,最终得到融合了局部特征信息与全局特征信息的输出特征图。与原始 MobileViT Block 模块融合输入特征和全局特征不同,改进后的 MobileViT Block模块是将局部特征与全局特征直接进行了融合,这不仅能够充分利用特征信息,更好地整合 CNN 和 Transformer的优势,而且减少了 1个卷积层,拥有更低的参数量。为降低资源消耗与算法的复杂度,引入了改进的 selfattention 计算,过程如图 3 所示。以特征图通道数C=1为例,特征图高度为H,宽度为W,将特征图划分为若干个 22 大小的图像块(红色边框方块),每个图像块包含4个像素点(不同颜色的小方块),各个图像块间相同颜色的 像 素 点 进 行 selfattention 计 算,复 杂 度 为O(H W C4),而传统 selfattention 是让整张特征图每个像素点之间都进行 selfattention 计算,其复杂度为O(H W C),改进后算法复杂度是传统算法的1/4。为使模型具有空间归纳偏置的性质,实际的 selfattenton 引入了 Unfold 和 Fold 操作,其实现过程如图 4 所示,首先通过 Unfold将特征图进行重组,每个图像块相同位置的像素点重组为一个序列,然后进行 selfattention操作,最后再折叠为原特征图大小。1.3基于深度可分离卷积的网络改进由于常规的卷积操作运算量大,难以满足实时性的要求,采用深度可分离卷积(Depthwise Separable Convolution)替代原模型中的常规卷积,如图 5所示。深度可分离卷积由 Depthwise(DW)卷积与 Pointwise(PW)卷积组成。该结构和常规卷积类似,可用来提取特征,但其参数量和运算成本较低。1.4改进后网络的整体结构基于 CNN 的 CSPDarknet虽然可以提取图像的局部特征信息,但是却忽略了全局特征信息,相比而言,基于Transformer 的 MobileViT 则更善于提取全局特征信息。将 YOLOv5的骨干网络 CSPDarknet替换为改进的 MobileViT,使模型兼具 CNN 和 Transformer 的优势,能够有效利用局部特征与全局特征,而常规卷积替换为深度可分离卷积则可以大大减少算法复杂度。改进的 YOLOv5网络结构如图 6所示。CBS 模块为该模型的基本模块,其由卷积层、Batch Normalization层以及 SiLu激活函数组成,SPPF模块是将输入串行通过 3 个最大池化层,然后进行 concat操作,在一定程度上解决了火焰尺度变化幅度大的问题,C3 模块是对残差特征进行学习的主要模块,其结构分为两支,一支通过了 CBS模块后再经过 Bottleneck,另一支仅通过一个 CBS 模块,最后将两支进行 concat操作再经过 CBS 模块进行输出。2试验与分析2.1数据集介绍公开火焰数据集大多用于图像分类,且存在图像分辨率较低、火灾场景简单等问题,难以满足当前检测任务的要求。针对现有数据集存在的问题,构建了 NEFU_fire数据集,收集火灾相关图片 5 173张,使用 LabelImg 进行标注,其中 80%作为训练集,20%作为验证集。HWLocalRepresentationsConv-33Conv-11UnfoldTransformers as Convolutions(global representations)LTransformerFoldConv-11FusionHWConcat图 2改进 MobileViT Block模块Fig.2Improved MobileViT block moduleHW图 3改进 self-attentionFig.3Improved slef-attentionUnfoldFold图 4Unfold、Fold模块Fig.4Unfold、Fold module(a)DW 卷积(b)PW 卷积图 5深度可分离卷积模块Fig.5Depthwise separable convolution module1118消防科学与技术2023年 8 月第 42 卷第 8 期2.2试验平台试验平台为 AMD R5 5600H 处理器,NVIDIA RTX 3050 GPU,使用 Win11 操作系统,Pytorch_1.11.0 深度学习框架,cuda11.3,python3.9.7。2.3训练策略对 NEFU_fire 数据集进行了在线增强,在训练时对加载数据进行 Mosaic 数据增强,以提高模型的泛化性。试验中设置的训练参数为:输入图像尺寸为 640640,batch size为 8,epoch为 150。2.4试验结果为了直观地看到改进后神经网络的有效性,利用Grad-CAM 对改进前后网络提取的特征图进行可视化处理,可视化结果如图 7 所示,原网络关注的特征区域比较杂乱,而改进后的网络能更好地关注到火焰的特征,验证了本算法的有效性。最后检验模型的实际检测效果,图 8为网络上收集的和试验图片,分别在改进前后网络上的检测结果,由图可知原网络会出现漏检情况,改进后网络的检测精度高于原网络,且对小型火焰目标的检测更准确。fire 0.89(b)改进后网络检测结果(a)原网络检测结果fire 0.92图 8检测结果Fig.8Test results2.5不同模型性能对比采 用 YOLOv3、YOLOv5s、YOLOv5m、YOLOX 以及本算法进行对比,评价指标包括:精确率、平均精度均值 mAP、检测速度以及综合排名,综合排名以检测速度优先原则,综合考虑精确率、mAP、检测速度 3个指标。试验结果如表 1 所示。本算法的精确率为 83.28%,排名第二,高于 YOLOv3、YOLOv5s和 YOLOX,mAP 为80.62%、检测速度为 31 帧/s,均排名第一,综合排名第一,试验表明本算法的实用性优于其他算法。2.6消融试验为验证本算法中不同方法对模型性能的贡献,以YOLOv5s为基准模型设计了消融试验,结果如表 2所示。320320160160808040402020骨干网络Conv-33S2MV2MV2S2MV2MV2MV2S2MobileViTBlock(L2)MV2S2MobileViTBlock(L4)MV2S2MobileViTBlock(L3)MV2SPPF颈部CBSUpsampleConcatC3C3ConcatCBSCBSUpsampleCBSC3ConcatConv-11Conv-11DetectConv-11C3Concat预测部分图例CBSConvBNSiLuSPPFCBSMaxpool55Maxpool55Maxpool55ConcatCBSConcat CBSCBSCBSC3BottleNeck图 6改进 YOLOv5网络结构Fig.6Improved YOLOv5 network structure(a)原网络(b)改进后网络图 7Grad-CAM 可视化结果Fig.7Visualization result of Grad-CAM1119Fire Science and Technology,August 2023,Vol.42,No.8单独引入改进的 MobileViT 模块后,模型的检测精确率提升了 2.25%,且检测速度有少许提升。单独引入深度可分离卷积后,模型的检测速度会有较大幅度提升。联合改进 MobileViT 模块和深度可分离卷积的模型在检测速度和精确率中取得了平衡,综合排名第一。结果表明,MobileViT 模块和深度可分离卷积均能使模型性能提升,当两种方法都添加时,模型的性能最优。3结 论针对林火检测问题提出了一种改进 YOLOv5 算法,该算法将 YOLOv5 的骨干网络 CSPDarknet 替换为改进的 MobileViT,并把普通卷积替换为深度可分离卷积,增强了模型的特征提取能力,提高了模型检测的精确率和检测速度。通过 Grad-CAM 可视化验证改进后模型特征提取能力的有效性。模型与一些主流模型的对比表明,该模型在检测准确率与实时性方面均有很好的效果。消融试验对比了不同改进方法对模型性能的影响。模型虽然可以胜任林火检测任务,但仍有提升的空间,如何进一步提升网络的实用性是下一步研究的方向。参考文献:1 杨鸿雁,周汝良,王艳霞.森林小面积火灾烟雾增强识别仿真J.计算机仿真,2023,40(1):359-363.2 王万富,王琢,刘佳鑫,等.基于改进 A*和内螺旋算法的林草火灾救援路径规划J.消防科学与技术,2022,41(8):1138-1142.3 叶铭亮,周慧英,李建军.基于改进 Swin Transformer 的森林火灾检测算法J.中南林业科技大学学报,2022,42(8):101-110.4 张苗,李璞,杨漪,等.基于目标检测卷积神经网络的图像型火灾探测算法J.消防科学与技术,2022,41(6):807-811.5 ZHAO S,LIU B,CHI Z,et al.Characteristics based fire detection system under the effect of electric fields with improved YOLOv4 and ViBeJ.IEEE Access,2022,(10):81899-81909.6 蒋文萍,蒋珍存.基于多重迁移学习的 YOLOv5 初期火灾探测研究J.消防科学与技术,2021,40(1):109-112.7 王国睿.基于 Transformer改进 YOLOv4 的火灾检测方法J.智能计算机与应用,2021,11(7):86-90.Reserch on forest fire detection base on improved YOLOv5Wang Naiyu1,Wang Zhuo1,2,Zhang Zichao1,Wu Jinting1(1.School of Mechanical and Electrical Engineering,Northeast Forestry University,Heilongjiang Harbin 150040,China;2.Research Institute of Forestry Artificial Intelligence,Northeast Forestry University,Heilongjiang Harbin 150040,China)Abstract:In order to improve the accuracy and speed of forest fire detection and enhance the practicability of forest fire detection model,an improved YOLOv5 forest fire detection algorithm was proposed.In this algorithm,the improved MobileViT was used as the backbone network of YOLOv5,so that the network could extract forest fire feature information more effectively.Meanwhile,in order to further reduce the complexity of the model,depthwise separable convolution was used to replace the common convolution in the model,and Mosaic data enhancement method was introduced in the training stage to improve the generalization of the model.The results show that the forest fire detection accuracy of the improved model is increased by 2.25%,mAP by 4.48%,and detection speed by 4 frames/s.Both the detection accuracy and detection speed have achieved good results.The improved model can detect forest fire well and improve the practicability of forest fire detection model.The algorithm in this paper is more competent for the task of forest fire detection.Key words:forest fire detection;YOLOv5;MobileViT;depthwise separable convolution作者简介:王乃宇(1998-),男,河南新乡人,东北林业大学机电工程学院硕士研究生,主要从事图像处理、林火检测研究,黑龙江省哈尔滨市香坊区和兴路26号,150040。通信作者:王 琢(1979-),男,东北林业大学林业人工智能研究院副教授,硕士。收稿日期:2022-12-30(责任编辑:梁兵)表 1不同模型试验结果对比Table 1Comparison of experimental results of different models模型YOLOv3YOLOv5sYOLOv5mYOLOX本算法精确率(排名)60.51%(5)81.32%(4)83.95%(1)82.81%(3)83.28%(2)mAP(排名)51.75%(5)76.14%(4)80.52%(2)79.15%(3)80.62%(1)检测速度/帧/s(排名)16(5)27(2)20(4)25(3)31(1)综合排名52431表 2消融试验Table 2Ablation experiment改进的 MobileViT模块-深度可分离卷积-精确率(排名)81.32%(3)83.57%(1)79.51%(4)83.28%(2)检测速度/帧/s(排名)27(4)28(3)31(1)31(1)综合排名43211120