基于
改进
YOLOX
算法
交通标志
检测
研究
五邑大学学报(自然科学版)JOURNAL OF WUYI UNIVERSITY (Natural Science Edition)第 37 卷 第 3 期 2023 年 8 月 Vol.37 No.3 Aug.2023 文章编号:1006-7302(2023)03-0073-06 基于改进 YOLOX 算法的交通标志检测研究 王惠吾,洪智勇,王宪伟,余文华,李泽亮(五邑大学 智能制造学部,广东 江门 529000)摘要:为进一步提升交通标志图像视觉检测算法的性能,本文提出了一种改进的 YOLOX_M算法.首先为 YOLOX_M 构建了新的特征融合网络 Multi-branch FPN,该网络通过多分支结构提取模型底层的特征信息,并通过 FPN 进行特征融合,可进一步提高模型利用特征的能力.其次,在 YOLOX_M 检测头引入的 Alpha-GIoU 损失函数,可以更好地应用于带噪声的边界框,提高边界框的回归精度.实验表明,改进后的 YOLOX_M 模型在数据集 TT100K 上的 mAP 提高了 1.8%,具备较好的检测性能.本文研究结果对交通标志检测具有一定的参考价值.关键词:交通标志检测;特征融合;YOLOX;Multi-branch FPN;Alpha-GIoU 中图分类号:TP391.4 文献标志码:A Traffic Sign Detection Based on Improved YOLOX Algorithm WANG Hui-wu,HONG Zhi-yong,WANG Xian-wei,YU Wen-hua,LI Ze-liang(Faculty of Intelligent Manufacturing,Wuyi University,Jiangmen 529020,China)Abstract:Abstract:In order to further improve the performance of traffic sign image visual detection algorithm,this paper proposes an improved YOLOX_M algorithm.Firstly,a new feature fusion network Multi-branch FPN is constructed for YOLOX_M.The network extracts the feature information at the bottom of the model through a multi-branch structure,and carries out feature fusion through the FPN,which can further improve the feature utilization ability of the model.Secondly,the Alpha-GIoU loss function introduced in YOLOX_M detection header can be better applied to the boundary box with noise to improve the regression accuracy of the boundary box.The experiment shows that the mAP of the improved YOLOX_M model on the data set TT100K has increased by 1.8%,with good detection performance.The research results of this paper have a certain reference value for traffic sign detection.KeKey wordsy words:Traffic sign detection;Feature fusion;YOLOX;Multi-branch FPN;Alpha-GIoU 目前,交通标志图像的视觉检测依然是一项具有挑战性的任务,主要原因是交通标志在整个交通场景图像中所占的比例非常小,可视化特征较少;在检测过程中,带噪声的边界框回归定位不准确;检测精度与检测速度不平衡,难以满足实时性场景的需要.随着大数据时代的到来和计算机性能的提升,卷积神经网络(CNN)1引起了研究人员的关注.基于 CNN 的目标检测算法可以分为“单 收稿日期:2022-08-17 作者简介:王惠吾(1993),女,广东江门人,在读硕士生,主要从事小目标检测技术研究;洪智勇,教授,博士,硕士生导师,通信作者,主要从事人工智能、大数据应用技术研究.五邑大学学报(自然科学版)2023 年 74 阶段(one-stage)”和“两阶段(two-stage)”两类.常见的两阶段检测算法有 R-CNN2系列算法,这类算法虽然准确率高,但速度较慢,难以适应实时性的要求.近年来,许多学者将目光转向单阶段检测算法.Zhang 等3通过调整 YOLOv24卷积层的数量,使得检测模型更适用于实时场景.Rajendran 等5则提出了一种基于 YOLOv36的识别系统.然而,这些单阶段算法虽然提升了检测的速度,但并没有充分利用网络底层的特征,导致模型检测精度较低,在面临带噪声的边界框时,回归、定位也不够准确.为解决上述问题,本文为 YOLOX_M7构建新的特征融合网络 Multi-branch FPN,并引入 Alpha-GIoU 损失函数,以期进一步提升模型的检测性能.1 YOLOX 算法介绍 YOLOX 是对 YOLO 系列8-9的持续改进,它依然延用 YOLOv49中的 CSPDarknet53 作为骨干网络进行特征提取,并使用路径聚合网络(PANet)10对骨干网络提取的 3 个不同尺度的特征层进行特征融合,最后用检测头进行目标分类以及边界框的预测工作.YOLOX 相较于之前的版本,主要创新是提出了无锚框机制、解耦头和标签分配策略 SimOTA.交通标志检测模型不仅要注重检测精度,检测速度也是需要考量的重要因素.选择 YOLOX 用于实时交通标志检测主要有 3 个原因:第一,YOLOX 的无锚框机制减少了整个网络模型的参数量,简化了网络的训练和预测过程.第二,YOLOX 的解耦检测头比耦合检测检测头收敛速度更快,检测精度更高.第三,YOLOX 的 SimOTA 标签分配策略可以为不同大小的目标动态匹配正样本,避免了额外的超参数,进一步加快了检测速度.YOLOX 包含 6 个模型,分别是 YOLOX_Nano、YOLOX_Tiny、YOLOX_S、YOLOX_M、YOLOX_L 和 YOLOX_X.YOLOX_M 是 YOLOX 系列中的中等型号模型,网络参数较少,可以同时兼顾检测精度与检测速度,更适合部署在车载移动设备上.因此,本文选择基于 YOLOX_M 模型进行改进.2 改进的 YOLOX_M 算法模型 交通标志在图像中占比小,YOLOX_M 模型在检测过程中存在错检和漏检的现象.因此,本文为 YOLOX_M 搭建了新的特征融合网络 Multi-branch FPN,以便更好地融合来自网络底层的特征,改善尺度小目标的可视化特征少这一问题.边界框回归时同样是偏移一个像素点,小目标受到的误差影响会比大中型目标更大,因此,本文在 YOLOX_M 检测头中引入 Alpha-GIoU11损失函数,以降低噪声对边界框回归的干扰,进一步提升模型的检测精度.2.1 Multi-branch FPN 的构建 卷积神经网络底层的特征图由于下采样次数较少,所以包含的语义信息较弱,但此时图像分辨率高,包含丰富的位置、纹理信息,有利于目标定位;高层的特征图经过多次下采样后图像分辨率会降低,丢失了部分特征信息,但其包含丰富的语义信息,有利于分类.特征金字塔结构正是结合了二者的特点,通过自底向上、横向连接和自顶向下 3 条路径,将各个特征层同尺度的信息进行融合,有效提高了目标检测的准确率.PANet 对 FPN 做出了改进,它在 FPN12的基础上再次增加了自底向上的融合结构,采用在深度方向拼接的方式,实现特征层之间的进一步融合.虽然 YOLOX 采用了 PANet 的思想,将来自骨干网络的 3 个特征层进行特征融合,选取的这 3 个特征层虽然位于整个骨干网络的中、后层,但缺乏目标的位置、纹理等信息.为了解决这一问题,本文对 YOLOX_M第 37 卷 第 3 期 75 王惠吾等:基于改进 YOLOX 算法的交通标志检测研究 模型的结构进行了改进,提出了特征融合网格 Multi-branch FPN,其结构如图 1 所示.图 1 带有 Multi-branch FPN 的 YOLOX_M 网络结构 Multi-branch FPN 将 CSPDarknet 骨干网络中只经过第一个残差模块的特征层抽取出来,如图 1蓝色部分所示,与原 PANet 的 3 个特征层进行特征融合,使网络在检测时进一步融合了来自底层的高分辨率信息,有了更丰富的图像位置和纹理信息,能够更精确地定位目标位置,从而可以更好地检测出在图像中占比非常小的交通标志.2.2 损失函数的改进 YOLOX 网络模型的损失函数由类别损失clsL、定位损失regL和物体损失objL构成,如下:clsregobjposLossLLLN,(1)其中,为定位损失regL的平衡系数,posN为被分为正样本的网格的数目.定位损失regL采用 GIoU(Intersection Over Union)损失13,它会同时计算正、负样本的损失.计算公式如下:GIoU()1IoU+CABLC,(2)其中,C代表A与B相交的最小外接矩形框区域,GIoU在IoU损失函数14的基础上增加差集来表示相交时的衡量标准,即:CAB差集越小,说明预测框越接近真实框.()CABC是一个惩罚项,可以缓解梯度消失的情况.GIoU除了关注重叠区域,还关注了非重叠区域,能够更好地反应预测边界框与真实边界框重合度.GIoU虽有上述优点,但并不能解决边界框在回归的时候,容易受到五邑大学学报(自然科学版)2023 年 76 背景等噪声的影响的问题,因此,本章使用 Alpha-GIoU 对GIoU进行了替换.Alpha-GIoU 通过在现有的基于GIoU的损失函数中引入power变换,使原函数转变为由一个幂次GIoU项和一个附加的幂次正则项构成,Alpha-GIoU 的计算公式如下:GIoU()1IoU+CABLC,(3)由上式可知,Alpha-GIoU 就是在原GIoU损失的基础上增加了一个超参数,通过调节,可以提高边界框的回归精度,有利于小目标的定位检测.3 实验与结果分析 3.1 数据集 本实验的所有网络模型均在 TT100K15数据集进行训练和验证,该数据集提供了 10 万个图像,每张图像为2 048*2 048像素,其中包含 3 万个交通标志实例,共 182个类别,每个标志在图像中的占比都小于 2%.这些图像涵盖了光照程度和天气、遮挡等各种变化因素,且每个交通标志都用类标签、边界框和像素掩码进行了标注,如图 2 所示.3.2 实验设置 实验选取 YOLOX_M 模型作为基础模型进行改进,选取数据集中实例个数大于 100 的 45 个类别进行实验,共9 176张图片,训练集与验证集按照:9 1的比例进行划分.输入图像的大小为 640*640像素,在训练过程中,将训练分为冻结和解冻两个阶段,采用 Mosaic 数据增强方式,选取随机梯度下降方式,将初始学习率设为 0.01,使用余弦退火策略来降低学习率,epoch 和批处理大小分别设置为 200 和 4.本实验采用的硬件配置为单块的 NVIDIA Geforce RTX 3090 显卡,软件配置为 CUDA 11.4、采用 pytorch 深度学习框架.3.3 实验分析 召回率表示所有真实目标中,模型预测正确的比例.由表 1 可知,改进后的 YOLOX_M 方法在警告(w 类)和强制(i 类)两类交通标志检测上的召回率大幅度地超越了 TT100K 数据集作者搭建的多级网络和 YOLOX_M,其中 il100、il60 和 w59 3 类的召回率可达 1.0.对于禁止类(p 类)标志,改进方法也能获得更良好的检测效果,因此,改进的 YOLOX_M 方法更能准确识别出数据集中的小尺寸交通标志.表 1 不同检测算法召回率的对比 交通标志种类 算法名称 i2 i5 il100 il60 io p12 pg pne po w13 w32 w55 w57 w59 多级网络 0.82 0.95 0.97 0.91 0.89 0.89 0.91 0.93 0.67 0.65 0.71 0.72 0.79 0.82 YOLOX_M 0.81 0.97 0.85 0.96 0.83 0.85 0.90 0.93 0.67 0.70 0.43 0.80 0.79 0.89 改进的 YOLOX_M 0.83 0.96 1.00 1.00 0.90 0.90 0.92 0.94 0.72 0.89 0.73 0.92 0.94 1.00 为了进一步证明改进方法的优越性,我们在 TT100K 上将改进的 YOLOX_M 与 CenterNet16、YOLOv3、YOLOv5、YOLOX_S、YOLOX_M、FRCNN w EFPN17这几个模型进行比较,结果如表 图 2 TT100K 图像标注展示 第 37 卷 第 3 期 77 王惠吾等:基于改进 YOLOX 算法的交通标志检测研究 2 示.由表 2 可知,改进方法的 mAP 达到了 89.44%,远高于其他的单阶段检测器,比原始 YOLOX_M 的 mAP也提升了 1.8%.之所以能取得这样的效果,是因为构造的 Multi-branch FPN 可以更好地提取模型的底层特征,使 模 型 学 习 到 更 多 的 目 标 的 位 置、纹 理 信 息,且Alpha-GIoU 可以更好地帮助带噪声的边界框回归,提高定位准确性.消融实验结果如表 3 所示.由表 3 可知,本文提出的 Multi-branch FPN 模块与所引入的 Alpha-GIoU损失函数都能够提升性能表现.其中,Multi-branch FPN 模块所带来的性能提升较大,主要是因为它融合了来自网络底层的特征,使模型能够更好地实现多尺度学习,进而提升小目标检测的能力.Alpha-GIoU模块使模型的 mAP提升了 0.45%,能为模型在有噪声情况下进一步提升性能表现.图 3 展示了部分检测结果,可以发现,各类标志在图中所占面积极小,并且存在不确定的噪声干扰,本文方法可以更好地识别图中的小尺度交通标志,改善了漏检和误检的情况.a.原始图像 b.检测结果 c.放大效果 图 3 实例检测展示 4 结论 本文改进了 YOLOX_M,构造了 Multi-branch FPN 特征融合网络,并在检测头引入了 Alpha-GIoU损失函数.实验表明,改进后的 YOLOX_M 模型能更好地检测小型交通标志,证明了提取底层特征表 2 不同检测算法的检测能力的对比 算法名称 mAP/%检测速度/fps CenterNet-ResNet50 37.08 059 YOLOv3 61.86 027 YOLOv5 60.18 105 YOLOX_S 68.60 059 YOLOX_M 87.64 042 FRCNN w EFPN 77.60-改进的 YOLOX_M 89.44 035 表 3 消融实验结果对比 变量 mAP/%检测速度/fps Baseline 87.64 42.0+Multi-branch FPN 88.96(+1.32)33.5+Alpha-GIoU 88.09(+0.45)37.7+Multi-branch FPN+Alpha-GIoU 89.44(+1.80)35.0 五邑大学学报(自然科学版)2023 年 78 进行融合,并提高带噪声边界框的回归准确性可以提升小目标检测模型的理论.未来工作将进一步探究提升模型检测速度的方法,以适应现实场景中高速移动目标的检测任务.参考文献 1 ALBAWI S,MOHAMMED T A,Al-ZAWI S.Understanding of a convolutional neural network C/2017 International Conference on Engineering and Technology(ICET).Antalya:IEEE,2017:1-6.2 GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation C/2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.3 ZHANG J,HUANG M,JIN X,et al.A real-time chinese traffic sign detection algorithm based on modified YOLOv2 J.Algorithms,2017,10(4):127.4 REDMON J,FARHADI A.YOLO9000:better,faster,stronger C/2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6517-6525.5 RAJENDRAN S P,SHINE L,PRADEEP R,et al.Real-time traffic sign recognition using YOLOv3 based detector C/2019 10th International Conference on Computing,Communication and Networking Technologies(ICCCNT).Kanpur:IEEE,2019:1-7.6 胡鹏,黄辉,王琼瑶,等.基于 YOLOv3 的交通标志检测与识别算法J.五邑大学学报(自然科学版),2021,35(02):59-64.7 陈民,吴观茂.基于改进 YOLOX 的交通标志检测与识别J.现代信息科技,2022,6(2):101-103+106.8 REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection C/2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779-788.9 陈红,王相超,陈志琳.自然场景下的交通标志检测与识别J.电子测量技术,2021,44(12):102-109.10 LIU S,QI L,QIN H,et al.Path aggregation network for instance segmentation C/2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.11 HE J,ERFANI S,MA X,et al.Alpha-IoU:a family of power intersection over union losses for bounding box regression J.Advances in Neural Information Processing Systems,2021,34:20230-20242.12 LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection C/2017 Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR).Honolulu:IEEE,2017:2117-2125.13 REZATOFIGHI H,TSOI N,GWAK J,et al.Generalized Intersection over union:a metric and a loss for bounding box regression C/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:658-666.14 YU J H,JIANG Y N,WANG Z Y,et al.Unitbox:an advanced object detection network C/Proceedings of the 24th ACM international conference on Multimedia.New York:ACM,2016:516-520.15 ZHU Z,LIANG D,ZHANG S,et al.Traffic-sign detection and classification in the wild C/2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:2110-2118.16 DUAN K,BAI S,XIE L,et al.CenterNet:keypoint triplets for object detection C/2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:6568-6577.17 DENG C,WANG M,LIU L,et al.Extended feature pyramid network for small object detection J.IEEE Transactions on Multimedia,2021,24:1968-1979.责任编辑:韦 韬