温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
SSD
轧制
设备
安全
检测
方法
研究
海涛
【22】第45卷 第02期 2023-02收稿日期:2021-04-19基金项目:广东省科技计划(2021A0101180005);中山市科技计划项目社会公益重点项目(2018B1018)作者简介:易海涛(1996-),男,江西萍乡人,硕士研究生,研究方向为深度学习、图像处理。通讯作者:李博(1977-),男,广东茂名人,副教授,硕士,研究方向为机器视觉检测、工业自动化。基于改进SSD的轧制设备手部安全检测方法研究Research on improved SSD based hand safety detection method for rolling equipment 易海涛1,李 博2*,刘 旗1,骆德汉1YI Hai-tao1,LI Bo2*,LIU Qi1,LUO De-han1(1.广东工业大学 信息工程学院,广州 510006;2.电子科技大学中山学院 机电工程学院,中山 528402)摘 要:针对轧制行业容易发生机器轧伤工人手部的安全事故,研究一种视觉快速识别手部进入危险区域的方法,提出一种基于SSD(Single Shot Multibox Detector)改进的轻量型手部检测算法。将改进的神经网络MobileNet作为SSD主干网络对输入数据进行特征提取,并重新设计六个特征提取层;借鉴特征金字塔网络(Feature Pyramid Networks,FPN)设计特征融合策略,使较浅特征层获取更丰富的语义信息;使用K-means聚类算法对模型默认框进行调整,使模型检测更加具有针对性;最后引入迁移学习策略对网络训练进行加速。从现场生产视频中获取真实环境下的人手数据样本进行实验,该改进算法检测速度达到20FPS,平均精度均值(mAP)可以达到99.44%,模型大小仅为25.7MB,检测性能优于当前主流的目标检测方法。关键词:手部安全检测;SSD目标检测算法;特征融合;K-means聚类中图分类号:TP391.4 文献标志码:A 文章编号:1009-0134(2023)02-0022-080 引言在轧制行业中由于工人操作不慎导致机器轧伤人手的事故时有发生,本文研究视觉快速识别工人手部是否进入危险区域的方法,以实现设备智能化的安全控制。早期的手部检测方法主要通过肤色1、纹理2、轮廓3、像素标记4等人工提取的特征来进行,但是由于实际场景中手部的检测容易受到光照变化、运动模糊、手部姿态变化及物体遮挡等因素的影响,早期手部检测方法的鲁棒性不强且效果并不理想。近年来,人工智能技术发展迅速,基于卷积神经网络(Convolutional Neural Networks,CNN)的目标检测算法在提高物体检测性能方面也取得了重大进展。目前主流的目标检测算法可以分为两类,基于区域的方法和基于回归的方法。基于区域的方法是在图像中生成一组区域或对象建议,然后对每个建议进行分类5。典型代表算法为R-CNN6、Mask-RCNN7、Fast R-CNN8、Faster R-CNN9等,但是由于区域提案必须在每一帧中进行计算和分类,因此计算速度较慢,难以满足实时性的需求。相比于区域方法,基于回归的方法可以直接预测边界框的位置,而不是对对象建议进行分类,因此在检测性能上优于区域的方法。其典型代表为YOLO10系列算法和SSD11算法。由于深度学习方法相比于传统目标检测方法具有更好的检测性能和更强的泛化能力,越来越多的人将此类算法应用于人手的检测。Liu等12在Faster R-CNN检测框架的基础上,提出融合彩色和深度双通道信息来提升手部检测性能。Deng等13在Faster R-CNN中感兴趣区域(Region Of Interest,ROI)池化后加入去旋转层以生成旋转不可知区域建议,再与原ROI生成的区域建议结合用以检测手部区域和估计手部旋转角度。Zhang等14使用CNN提取深度图像的特征图,使用区域提案网络(Region Proposal Network,RPN)在特征图上生成3D区域建议以检测手部区域位置和进行3D手势估计。Gao等15借鉴DSSD16的思想,将VGG1617网络替换为Resnet10118并使用反卷积将深层与浅层特征融合提出FF-SSD网络,以提高手部检测的准确度。然而,由于这些网络模型复杂且计算量大,难以满足实时性的检测需求。针对上述问题,本文提出一种改进的SSD算法,将轻量型神经网络MobileNet19作为SSD的主干网络,提高算法的检测速度,降低模型参数量。为了提高MobileNet网络的特征提取能力,减少模型漏检率,本文借鉴特征金字塔网络(Feature Pyramid Networks,FPN)20设计特征融合策略,将前四个特征提取层进行上采样级联融合,使得较深特征层提取的高级语义信息与较浅特征层提取的空间细节信息相结合,提高网络浅层特征层的语义表征能力。通过K-means算法对目标真实框宽高比进行聚类分析,调整算法默认框宽高比使网络回归框的预测更加准确,最后引入迁移学习策略加速网络的训练和收敛。最终在真实生产环境中采集的人手数据样本进行实验,本文所提改进算法相比当前主流目标检测算法检测性能更好,验证了所提改进第45卷 第02期 2023-02【23】方法的有效性。1 SSD目标检测算法1.1 SSD模型结构SSD是经典的单阶段多框目标检测算法之一,其主要由三部分组成:特征提取网络、目标检测器、非极大值抑制。首先特征提取网络使用6个不同尺度大小的特征层对输入图像进行特征提取生成特征图,然后目标检测器使用2组卷积核对各个特征图进行卷积生成带有位置和类别信息的预测框,以此实现多尺度目标检测。对预测框类别信息进行评分并通过非极大值抑制算法(Non-Maximum Suppression,NMS)进行筛选,取出类别置信度大于等于阈值(0.5)的预测框作为最终检测结果。SSD的网络结构如图1所示。InputVGG16300300Conv4_3FC7Conv6_2Conv7_2Conv8_2Conv9_2Detection:8732383819191010553311Fast NMS图1 SSD网络结构1.2 SSD默认框尺度计算SSD对6个特征层进行密集采样生成8732个默认框即先验框,对每个特征层上先验框的长宽和中心点位置参数进行微调得到预测框。先验框尺寸占原图比例的计算公式为:(1)式(1)中,m为特征层数,SSD中m为6;Smin为先验框最小占比,Smax为最大占比,SSD中Smin设置为0.2,Smax设置为0.9。此外,SSD算法先验框宽高比的系数r1,1/3,1/2,2,3,每个先验框Skn的宽度(Wkn)和高度(Hkn)的计算公式为:(2)(3)上式中,rn为5种先验框的宽高比。当宽高比系数为1时,SSD额外增加一个先验框Sk6,其宽高计算公式为:(4)在不同特征层上,SSD设置的先验框数量不同。SSD在Conv4_3、Conv8_2、Conv9_2三个特征层上预设了r1,1/2,2等4种不同尺寸的先验框,在FC7、Conv6_2、Conv7_2上预设了r1,1/3,1/2,2,3等6种类型的先验框以完成目标的分类检测任务。2 轻量型神经网络MobileNet2.1 深度可分离卷积与模型压缩MobileNet是一种轻量级的深层神经网络,具有模型参量少、计算量小的特点。其使用深度可分离卷积(Depthwise Separable Convolution)替换标准卷积对输入图像进行特征提取,深度可分离卷积由逐通道的可分离卷积Depthwise和点卷积Pointwise构成。其首先使用可分离卷积对输入图像进行逐通道卷积运算,再通过点卷积将可分离卷积的输出进行组合提取图像特征,这种结构整体上和标准卷积效果类似,但是网络的计算量和模型参数量可以得到有效缩减,因此将MobileNet网络替换VGG16有利于提高算法检测速度和降低模型大小。标准卷积和深度可分离卷积计算如图2所示。DKDKM.NStandard Convolutional Filters.M11NPointwise Convolutional FiltersDepthwise Convolutional FiltersMDKDK1.图2 标准卷积和深度可分离卷积其中,深度可分离卷积与标准卷积计算量比值公式如下:(5)式(5)中,DK为卷积核的宽高;M为输入特征图通道数;N为输出特征图通道数。由(5)式可知,当N比较大时,采用33卷积核的深度可分离卷积相比标准卷积计算量可以降低9倍,极大缩短了算法检测时间和降低了模型对硬件设备的算力要求,有利于模型的嵌入式部署和实时检测。2.2 MobileNet网络结构MobileNet网络由28个卷积层组成,其第一层为33卷积核的标准卷积层,最后一层为全连接层,中间由13个深度可分离卷积层构成,所有卷积层后面均使用批量归一化处理和ReLU激活函数,用以加快神经网络收敛及提高网络的泛化性能。标准卷积层和深度可分离卷积层结构如图3所示。11 ConvBNReLU33 ConvBNReLU33 Dephwise ConvBNReLU图3 标准卷积层和深度可分离卷积层结构【24】第45卷 第02期 2023-023 改进后的SSD目标检测算法3.1 基于Mobilenet的SSD算法网络结构本文基于Mobilenet设计SSD的基础网络,移除Mo-bilenet网络最后一个全连接层,并额外增加四层标准卷积层构成新的主干特征提取网络,改进后的网络结构如图4所示。尺度越大的特征层保留的图像细节信息越多,适用于检测小目标物体;尺度较小的特征层细节信息丢失而空间语义信息丰富,适用于检测较大的目标物体。由于手部属于较小目标,因此本文选取尺度更大的深度可分离卷积层Conv3(7575128)来检测较小手部,由于该卷积层太浅,虽然保留了大量的图像细节信息,但是图像语义信息的缺乏导致其并不能对这些信息进行有效利用,因此本文借鉴FPN网络重新设计了特征融合模块(FFM),将较深特征层的语义信息与较浅特征层的细节信息相融合,使得SSD算法各个特征层提取到的特征信息进行共享,有效改善了较浅特征层语义信息不足的问题。同时将Mobilenet网络中Conv6的步长调整为1,Conv9的步长调整为2,此时Conv7、Conv8的尺寸由原先的1919增大到3838,选取Conv8作为3838尺度的特征层,以此加深该尺度特征层的网络深度,扩大该特征层的感受野,提高其特征信息提取能力。其他4个特征层分别为Conv11(1919512)、Conv13(10101024)、Conv14_2(55512)、Conv15_2(33256),6个特征层上先验框的种类分别设置为4,6,6,6,4,4,因此SSD先验框数量由8732个提升到了34066个,最后通过非极大值抑制算法筛选掉冗余的窗口,得出最终预测结果。额外增加的4个标准卷积层参数信息如表1所示。Detector:34066Fast NMSInput3003003757512838385121919512101010245551233256Conv3Conv8Conv11Conv13Conv14_2Conv15_2FFM_3(7575256)FFM_2(3838256)FFM_1(1919256)UpsamplingUpsamplingUpsamplingMobileNet图4 改进后的算法网络结构表1 新增卷积层参数信息卷积层名称卷积层结构输出尺寸Conv14_111256,s=11010256Conv14_233512,s=255512Conv15_111128,s=155128Conv15_133256,s=2332563.2 特征融合模块设计SSD中的特征层分别对输入图像进行特征提取,各个特征层提取到的信息不共享,尺度较大的特征层由于所处网络位置较浅,经过的卷积层数较少,特征提取能力有限,导致SSD的小目标检测效果不好,很容易出现漏检的情况发生,因此本文对SSD进行特征层融合设计