基于
边缘
计算
双模
量化
目标
检测
常志宇
第 44 卷 第 4 期2023 年 4 月 激光杂志LASER JOURNALVol.44,No.4April,2023http /收稿日期:2022-09-27基金项目:国家自然科学基金(No.61871351)作者简介:常志宇(1998-),男,在读硕士,主要研究方向:深度学习、边缘计算等。E-mail:287548248 通讯作者:陈平(1983-),男,博士,教授,博士生导师,主要研究方向:信号与信息处理、图像处理与重建、人工智能等。E-mail: 基于边缘计算的双模态轻量化目标检测常志宇,陈 平中北大学信息探测与处理山西省重点实验室,太原 030051摘 要:针对当前在智能监控系统中产生的大量视频数据无法被实时、准确地分析问题,提出了一种基于边缘计算的 anchor-free 轻量级双模目标检测方法。结合注意力机制 SE 模块与 Ghost 模块构建轻量级特征提取网络,增加 PAN 网络以丰富高层特征,同时改进标签分配策略和损失函数,使训练更加稳定和高效。并在公共红外数据集 OTCBVS 以及可见光数据集 ShanghaiTech 上进行实验验证,改进后的网络参数量仅有 2.08 M,在数据集上准率达到 70.5%,推理总时延为 39 ms,帧率达到 25.73 帧/s。相较于 Yolox-Tiny 在精度降低 7.2%的情况下,参数量降低 58.9%,推理时延降低 33 ms,速度提升 46%,能满足移动边缘设备对目标检测速度和精度的要求。关键词:边缘计算;目标检测;注意力机制;轻量化中图分类号:TN391.4 文献标识码:A doi:10.14016/ki.jgzz.2023.04.080Dual-mode lightweight object detection network based on edge computingCHANG Zhiyu,CHEN PingShanxi Key Laboratory of Signal Capturing and Processing,North China University,Taiyuan 030051,ChinaAbstract:Aiming at the problem that a large amount of video data generated in the current intelligent monitoring system cannot be analyzed in real time and accurately,a lightweight dual-mode object detection method based on edge computing is proposed.Combining the attention mechanism SE module and Ghost module are combined to construct a lightweight feature extraction network,add PAN network to enrich high-level features and improve the label allocation strategy and loss function,make the training more stable and efficient.Experimental verification is carried out on the public infrared dataset OTCBVS,and ShanghaiTech,and the improved network parameter number is only 2.08 m,the accuracy rate on the dataset reached 70.5%,the total delay of inference was 39 ms,and the frame rate reached 25.73 frames/s.Compared with Yolox-Tiny,the accuracy is reduced by 58.9%,the inference delay is reduced by 33 ms,and the speed is increased by 46%,which can meet the requirements of mobile edge devices for target detection speed and accuracy.Key words:edge computing;target detection;attention mechanism;lightweight1 引言随着物联网的快速发展和 4G/5G 无线网络的普及,大量摄像头被应用于各种场景用以分析数据,复杂场景下的可见光与红外的双模相机应用也逐渐普及,这些设备的广泛部署产生了大量视频和图像数据,导致视频流量呈指数级增长1。将这些视频的原始数据上传至云计算中心,会给通信网络带宽带来巨大压力和延迟2。显然,传统云计算无法满足视频处理的快速响应,仍然面临着监控系统对延迟敏感的巨大挑战,基于边缘计算的视频处理成为了一种可行的http /方法3-4。2006 年,Hilton 等人首次提出了深度学习(DL)的概念5-6,许多深度神经网络(DNN)被提出,卷积神经网络(CNN)7作为其中最具代表性的网络被广泛使用。2014 年,Girshick 等人开发的 R-CNN8第一次成功将卷积神经网络应用在目标检测中。2015年,He 等人9提出了残差神经网络(ResNet)则解决了深层网络中梯度消失和梯度爆炸问题。但是随着网络层数增加,网络结构也越加复杂,使得这些目标检测网络只能在云服务器上运行。为解决这个问题,大量轻型神经网络模型被提出,使得这些模型可以在嵌入式设备或边缘设备上运行10-13。目标检测网络根据是否产生候选框分为 two-stage 目标检测算法与 one-stage 目标检测算法,其中的 one-stage 由于不需要产生 region proposal,单次检测即可直接得到最终检测结果,有着更快的检测速度,典型算法如 YOLO、RetinaNet 等算法14。但由于嵌入式设备存在内存少以及计算能力不足等问题,单阶段目标检测算法难以满足其实时处理的需求。针对此问题,大量 Yolo 的 Tiny 版本出现,2020 年 6 月,以 Yolov4 算法为基础,进行尺度缩放的 Yolov4-Tiny发布,其参数量仅有原算法的 10%,在公共数据集COCO 上,帧率达到 443 FPS,同时检测精度为 42%。同年,Yolov5 算法被提出,按照模型权重大小分为 s、m、l、x。Yolov5-s 在 Nvidia Tesla V100 上运行速度达到 2 ms,同时在 COCO2017 验证集上的 mAP 达到55.4%15。2021 年旷视科技 YoloX 发布,其轻量级网络在 COCO 上取得了 50.0%的 mAP16。在嵌入式设备上,上述目标检测算法仍存在网络结构复杂、综合性能不平衡或嵌入式设备部署困难等问题。针对上述问题,提出一种基于 FCOS 的轻量化一阶全卷积目标检测模型,首先,采用 ShuffleNetV2 网络作为骨干网络替换 ResNet50 和 ResNet101,同时引入 SE 模块与 Ghost 模块提升精度;同时针对原有的FPN 网络,加入 PAN 网络实现多尺度特征图的提取与融合;最终去掉 FCOS 系列使用共享权重的检测头,归一化方式则使用 Batch Normalization 替换掉原来的 Group Normalization,使得归一化的参数直接融合进卷积中以节省时间,最终提高实时的目标检测。2 网络结构设计对 FCOS 网络修改后的整体网络结构如图 1 所示,将输入的红外图像与可见光图像设置为 320320输入特征提取网络,对目标进行分类。图 1 网络整体结构 骨干网络通过构建更改后的 ShuffleNetV2 进行特征提取,经过 C1,C2,C3,C4,C5,5 个卷积层,将所得到的特征图变为上一层的一半,其中 C3、C4、C5,分别对应原图大小的 1/8、1/16、1/32。在 FCOS 中通过FPN 网络得到 P3、P4、P5,在此基础上加入 PAN 网络增加一条自底向上的通道得到 N3、N4、N5 特征图,实现多尺度目标检测。在轻量化检测头中使用深度可分类卷积替代常规卷积的同时减少卷积数与通道数,同时将分类和框预测分支共享参数,最后得到类别张量和预测框张量。2.1 特征提取2.1.1 ShuffleNetV2在 ShuffleNetV2 中通过卷积对相应的信道分组进行操作,从而降低计算成本,并通过 Channel Shuffle 确保不同信道分组的特征映射在不增加计算量的情况下交换信息。图 2 为 ShuffleNetV2 网络结构,先对输入的特征图进行通道划分(Channel Split),分成两个分支(branch),当卷积完成后,两个分支会进行 Con-18常志宇,等:基于边缘计算的双模态轻量化目标检测http /cat 操作,通道数相加,融合特征,最后通过 Channel Shuffle 实现不同组之间的信息交流。图 2 ShuffleNetV2 网络结构2.1.2 SENetSENet17是典型的通道注意力网络,由于在神经网络中所提取到的特征重要程度不同,通过增强重要特征、抑制一般特征可提高模型效果。在 SENet 中,主要分为 Sequeeze(压缩)、Excita-tion(激励)与 Scale(特征重标定)三步,首先将图像进行全局平均池化,进而获取到 11C 的特征图。之后经过两个全连接神经网络,对压缩之后的向量做一个非线性变换得到特征权重。最终将权重乘到输入特征上实现增强重要特征的目的。SE 模块具有即插即用的便利特征,已经在一些网络中得到应用。2.1.3 GhostNetGhostNet18将线性操作与常规卷积方法相结合,通过对普通卷积的特征图进行线性转换获得相似特征图,从而达到高维卷积的效果,避免了高维卷积带来的巨大参数,以此降低计算量。整个 Ghost 模块分为常规卷积、Ghost 生成和特征图拼接三步,首先通过较少的普通卷积产生固有特征图,这些本征特征图作为低维度的特征层参与计算;其次将这低维度的本征特征层进行简单的线性运算,生成高维的特征图,称为 Ghost 特征层;最终将这个低维度的本征特征层和与高纬度的 Ghost 特征层在通道维度上进行拼接,得到最终的输出层。2.1.4 轻量化 bakbone(骨干网络)由于 ShuffleNetV2 在边缘设备上部署时具有较高的实时性,因此,首先将整个 bakbone 由 ResNet50 和ResNet101 替 换 为 ShuffleNetV2。其 次,针 对 不 同channel 之间存在的相互依赖性,在模块中添加 SE 模块,并通过借鉴 MobileNetV3,将 SE 模块的两层激活函数分别设置为 ReLU 和 H-Sigmoid,通过 SE 模块学习不同 channel 特征的重要程度,根据 channel 的重要程度进行权重分配以学习 channel 之间的相关性,提高模型性能。最后,由于红外图像所生成的特征图为灰度信息,其色域划分不像可见光图像那么明显,因此,会出现大量具有重复特征的特征图,这些重复特征图增加了模型的参数同时对于模型精度提升的效果有限,因此,针对监控系统中的红外图像,加入Ghost 模块,避免了大量的冗余特征图,实现了模型的参数量和计算量减少。得到最终如图 3 所示骨干网络结构。图 3 骨干网络结构2.2 轻量化检测头2.2.1 特征金字塔对于目标检测网络来说,其特征图的分辨率随着网络深度的变深而变差,虽然获得了图像