温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
SSD
口罩
佩戴
检测
算法
林思海
人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)基于改进SSD的口罩佩戴检测算法林思海(安徽理工大学,安徽 淮南 232001)摘要:新冠疫情期间,佩戴口罩成为出入公共场合的行为规范。但在商场、火车站、机场等人员密集、人流量较大的场所,仅仅由工作人员进行监督、督促口罩佩戴不但检测效率低,而且还极大地浪费了人力资源。除此之外,疫情传播的风险也随之升高。为减轻防疫压力,文章提出一种基于改进SSD的口罩佩戴检测算法。为提高特征提取能力,将原先的VGG-16特征提取网络替换为ResNet50特征提取网络。围绕行人人脸目标尺寸小、外观信息少等特点,从特征上下文信息的关联角度提出一种基于权重的特征融合的子网络,有效地融合低层特征信息与高层抽象语义信息。并在特征融合层后添加裁剪-权重分配网络(SENet),对预测特征层的通道进行权重分配,提升有用的特征权重并抑制无效的特征权重。实验结果表明,改进后的算法在训练数据集上较原有算法的评价精度在IOU为0.5、0.75、0.50:0.95下分别提升4.1%、9.9%、5.3%。关键词:口罩检测;SSD;SeNet;ResNet;特征融合;数据增强中图分类号:TP3文献标识码:A文章编号:1009-3044(2023)04-0037-03开放科学(资源服务)标识码(OSID):新型冠状病毒是人类面临的第三次冠状病毒大流行。2020年1月30日WHO宣布新冠肺炎疫情构成国际关注的突发公共卫生事件。2020年3月13日,WHO评估认为新冠肺炎可被定为大流行病1。新冠疫情期间,佩戴口罩成为出入公共场合的行为规范。在机场、地铁站、医院等公共服务和重点机构场所规定需要佩戴口罩,口罩佩戴检查已成为疫情防控的必备操作2。本文提出一种基于深度学习的复杂场景下口罩佩戴实时检测算法。与人工现场监督相比,基于深度学习的监督系统不需要管理人员实时监控和与人流密切接触。同时少量的管理人员即可在管理中心通过多块监视器管理大片区域,不仅提高了效率,还减少了管理人员与人流的长时间接触。目前,主流的目标检测算法分为两阶段(two-stage)方法如 R-CNN3算法及其变体与一阶段(one-stage)方法如SSD4和YOLO5。目前已有许多优秀的研究基于上述算法框架进行改进。张洁等基于Faster R-CNN框架,通过结合k-means+算法对标注人头检测框进行聚类6,并优化原模型非极大值抑制(non-maximum suppression)7算法惩罚函数剔除无效人头预测框,改善行人之间由于遮挡导致的召回率低的问题。董艳花等人基于ResNet8残差结构加深网络的思想在SSD 网络的定位分类前添加残差结构,将特征提取网络和分类定位层进行分离,进而使得进入分类定位层的卷积特征更加抽象,有效解决SSD网络同时学习局部信息和高层信息双重任务的问题,维护特征提取网络的稳定性9。曾成等对YOLOv3框架的特征金字塔框架进行重构。通过增大尺寸和增加先验框数量10,降低神经网络感受野,以此增强网络对小目标的敏感度。1 改进SSD算法1.1 ResNet-B SSD算法网络整体结构本文提出的基于SSD改进的口罩佩戴检测算法(ResNet50-Bidirectional Attention Feature Fusion SSD)的网络整体结构如图1所示:图1R-B网络结构首先,使用ResNet50替换原有的VGG-16特征提取网络,并将Conv4_x中Block1的第一个卷积核与捷径分支上的卷积核的步长由原先的2调整为1;其次,为了丰富中低层特征图的语义信息,针对中间三层特收稿日期:2022-11-02作者简介:林思海(1998),男,硕士研究生,主要研究方向为计算机视觉。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.4,February202337DOI:10.14004/ki.ckt.2023.0203本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)征 图 提 出 BAFF(Bidirectional Attention Feature Fusion),将临近的低层特征信息跨层与临近高层抽象语义信息相融合,然后,与本层特征相融合后经过SeNet11进行预测;最后,第一层与最后两层直接通过非极大值抑制(Non-Maximum Suppression)进行预测,总共生成6个有效特征图进行目标检测。1.2 ResNet50 SSD特征提取网络本文选取ResNet50作为骨干网络,相比原先的VGG-16特征提取网络,ResNet50由于其使用跨层连接的思想,使得网络层数更深的同时不容易发生梯度爆炸与梯度消失,能够更好地提取图像信息。首先,将输入尺寸为 300X300 的 RGB 对训练图像,经过前三个模块后得到38X38的特征图Conv3_x。然后,通过SeNet对预测特征层的通道进行权重分配,得到第一个预测特征层Con4_x,同时将Bolck1中步距全部修改为1。对于额外添加层,其由卷积、批量归一化、Relu激活函数、卷积、批量归一化、Relu激活函数构成。最后,将Conv4_x和5个额外添加层作为6个预测特征层,通过非极大值抑制算法(Non-MaximumSuppression)对结果进行预测。1.3 BAFF特征融合机制本文提出一种将注意力机制与特征融合相结合的特征强化模块BAFF(Bidirectional Attention Feature Fusion)。对于预测特征层的中间三层使用BAFF模块强化输出特征图的表征能力。首先,将上一层与下一层的特征图经过1X1的卷积操作,将通道数调整到与本层通道数一致。然后,对上层特征图进行尺寸为33,步距为2,padding为1的卷积操作;对下层特征图进行尺寸为33步距为2的转置卷积操作。将高层与低层的特征图调整到本层的尺度后,通过简单的注意力机制分别为其添加权重,以此来调整上下一层对本层特征图的调优结果。最后,将上下两层相加后与本层特征图进行融合,输入SENet网络后得到新的预测特征图。图2BAFF_1融合模块2 实验结果与分析2.1 实验环境与评价指标本实验在Windows10操作系统上运行,内存容量32G,处理器为AMD Ryzen 7 5800X3D,GPU显卡型号为3090ti,显存容量为24G,使用CUDA11.3以及Cudnn驱动加速计算机的运行,在Pytorch深度学习框架上完成模型的搭建、训练以及测试。实验采用COCO评价指标。首先单独计算0.5到0.95每间隔0.5依次计算每个IoU(交并比)对应各个类别的平均精度值(Average Precision,AP)后,对10个IOU值对应的平均精度取平均值,这是评估检测效果的重要指标。最后取各个类别AP的平均值,得到平均精度均值(mean Average Precision,mAP)用于评估目标检测模型的精度,避免某些类别极端化而弱化了其他类别的性能,计算公式如下所示:mAP=qCAP(q)C(1)P=TPTP+FP(2)IoU=A BA B(3)其中TP为真正例,FP为假正例。2.2 数据集本文选用百度飞桨上的口罩佩戴数据集及自行采集标注的数据,总计2707张图像。本文采用8:2的比例划分训练集和测试集,其中训练集包含2166张图片,测试集包含541张图片。2.3 实验结果与分析训练过程中采用训练集中的20%作为验证集,优化器为Adam,初始学习率与权重衰减系数为0.0005。每 15 训练轮次更新一次权重,更新系数 gamma 为0.55,总计训练200轮。训练批量大小为16。选用骨干网络为VGG16的SSD、Faster R-CNN算法与本文算法进行比较,结果如表1所示。表1不同算法在不同IOU下检测精度结果算 法SSDFaster R-CNN本文算法IOU0.5085.7%86.4%88.5%0.7559.4%60.3%69.3%0.50:0.9553.1%54.7%58.4%由表1可知,本文算法优于上述两种一阶段与二阶段的经典算法。特别是在IOU为0.75与0.50:0.95下提升明显。主要的原因有两点:首先采用了网络层次更深、特征提取能力更强的RestNet50骨干网络。使得网络对输入图像提取的图形与语义信息更加丰富。其次本文算法结合注意力机制与特征融合,对中间三层结合上下层进行特征融合,在特征融合时进行权重分配,提高预测效果好的特征层的权重,降低预测效果差的特征层的权重,以此达到弥补低层预测特征层语义信息不足和高层分辨率低对细节感知能力较差的缺点。对于上述两点原因,本文进行了消融实验证明两者对网络性能的影响。实验结果如表2所示:38人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)表2消融实验算 法SSD本文算法本文算法网络主干VGG16ResNet50ResNet-50&BAFFIOU0.5085.7%87.2%89.8%0.7559.4%61.6%69.3%0.50:0.9553.1%55.1%58.4%SSD算法与本文改进算法检测效果对比图如图3所示。由效果图可知针对远处以及较小人脸,本文算法相比原始算法具有更高的检测精度和更低的漏检率。(a)SSD算法检测结果(b)本文算法检测结果图3检测结果3 结束语本文提出了一种基于SSD改进的口罩佩戴检测算法。首先使用网络层次更深、特征提取能力更强的ResNet50替换原有算法的VGG16作为骨干网络。同时针对原始SSD算法多个预测特征层信息交互能力较弱的问题,提出BAFF特征融合机制。实验证明,本文提出的算法在百度飞桨上的行人口罩佩戴数据集上有良好的表现能力。改进后的算法在训练数据集上较原有算法的评价精度在 IOU 为 0.5、0.75、0.50:0.95下分别提升4.1%、9.9%、5.3%。参考文献:1 WHO.WHO timeline-COVID-19 EB/OL.Geneva:WHO,2020-04-272020-05-19.https:/www.who.int/news-room/detail/27-04-2020-who-timeline-covid-19.2 吴尊友.新型冠状病毒肺炎无症状感染者在疫情传播中的作用与防控策略J.中华流行病学杂志,2020,41(6):801-805.3 Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networksJ.IEEETransactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.4 Liu W,Anguelov D,Erhan D,et al.SSD:single shot MultiBox detectorM/Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:21-37.5 Redmon J,Farhadi A.YOLOv3:an incremental improvementEB/OL.2018:arXiv:1804.02767.https:/arxiv.org/abs/1804.02767.6 张洁,陈莉,李铮,等.基于聚类与Faste