基于
SOLOV2
改进
实例
分割
算法
研究
收稿日期:2022-07-06摇 摇 摇 摇 摇 摇 修回日期:2022-11-08基金项目:安徽省自然科学基金(1708085QF133);安徽师范大学创新基金项目(2018XJJ100);安徽省智能机器人信息融合与控制工程实验室资助(IFCIR2020004)作者简介:曾浩文(1998-),男,硕士生,研究方向为深度学习、计算机视觉、实例分割;通讯作者:汪慧兰(1978-),女,副教授,研究方向为深度学习、行人检测。基于 SOLOV2 改进的实例分割算法研究曾浩文,汪慧兰*,赵摇 侃,王桂丽(安徽师范大学 物理与电子信息学院,安徽 芜湖241002)摘摇 要:实例分割在图像分类的基础上为每一个物体生成像素级别的分割掩码,是当前计算机视觉领域热门研究课题,也是极具挑战性的任务之一。针对当前算法存在的分割精度和鲁棒性不高等问题,提出了一种改进的 SOLOV2 算法。首先,以 FCN(Fully Convolutional Networks for Semantic Segmentation)算法为整体框架,采用 ResNext 作为骨干网络,在不增加网络参数量和计算量的前提下可以有效提升网络的精度;其次,采用改进的 NAS-FPN(Neural Architecture Search FeaturePyramid Network)作为特征金字塔网络结构,这是一种可以在 FPN 中进行特征图的搜索和组合结构,使网络可以重新搜索并融合已经提取的特征图,以此来解决网络不能充分感知特征图从而导致网络精度不高的问题;最后,通过调整超参数得到整个分割网络模型。通过在 COCO2017 数据集上与 BDD100K 数据集上进行实验分析比较可知,改进的基于 SOLOV2 实例分割算法精度达到 41.8%,在兼顾实时性的同时网络精度提升了 2.1%。通过实验证明改进的算法可以适应多种交通场景,可以完成交通场景目标的检测与分割。关键词:实例分割;ResNext;SOLOV2;特征金子塔网络;NAS-FPN中图分类号:TP301摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0045-07doi:10.3969/j.issn.1673-629X.2023.09.007Research on Improved Instance Segmentation AlgorithmBased on SOLOV2ZENG Hao-wen,WANG Hui-lan*,ZHAO Kan,WANG Gui-li(School of Physics and Electronic Information,Anhui Normal University,Wuhu 241002,China)Abstract:Instance segmentation generates pixel-level segmentation masks for each object based on image classification,which iscurrently one of the popular research topics and challenging tasks in computer vision.To address the problems of poor segmentationaccuracy and robustness of current algorithms,we propose an improved SOLOV2 algorithm.Firstly,FCN(Fully Convolutional Networksfor Semantic Segmentation)is used as the overall framework,and ResNext is adopted as the backbone network,which can effectivelyimprove the accuracy of the network without raising the number of network parameters and computational effort.Secondly,a modifiedNAS-FPN(Neural Architecture Search Feature Pyramid Network)is used as the feature pyramid network structure,which is a structurethat allows the search and combination of feature maps in the FPN,so that the network can re-search and fuse the already extractedfeature maps,as a solution to the problem that the network cannot fully perceive the feature maps and thus the network accuracy is nothigh.Finally,the whole segmentation network model is obtained by adjusting the hyperparameters.The experimental analysis andcomparison on the COCO2017 dataset and the BDD100K dataset shows that the improved SOLOV2 instance segmentation algorithmachieves 41.8%accuracy,which improves the network accuracy by 2.1%while taking into account the real-time performance.It isproved through experiments that the improved algorithm can adapt to a variety of traffic scenes and can complete the detection and seg鄄mentation of traffic scene targets.Key words:instance segmentation;ResNext;SOLOV2;feature pyramid network;NAS-FPN0摇 引摇 言近年来随着深度学习的快速发展,计算机视觉任务也发展得非常迅速1-2。其中较热门的领域有目标检测3、语义分割4、实例分割5等。实例分割需要将图像中所有的物体都准确地区分出来,同时在语义层面的像素点级别上分割出每个实例,是一项具有挑第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023战性的任务。实例分割的研究长期以来都依赖较为复杂的两阶段(two-stage)方法,即先通过目标检测方法找到实例所在区域,再在检测框内进行语义分割,每个分割结果都作为一个不同的实例输出。例如 Mask RCNN6-7、PANet8、HTC9等都是使用此方法。两阶段方法的精度较高,但是速度较慢,不能适应实时性的场景,从而导致它的实用性并不高。所以,出现了单阶段(one-stage)实例分割方法。单阶段实例分割方法是先将输入图像进行像素级别的语义分割,再通过聚类、度量等学习方法在语义层面的像素点上区分并分割不同的实例,最后进行实例输出。经典的方法如 YOLACT10、PolarMask11、Ten鄄sorMask12等。以上单阶段的方法提高了速度,但是普遍存在精度有所下降的问题。基于此,Wang 等人在 2020 年 提 出 SOLOV2(Dynamic,FasterandStronger)13单阶段的算法,通过提出“实例类别冶的概念,根据实例的位置和大小,对每个实例的像素点赋予一个类别,巧妙地将实例掩码分割问题转换为一个分类问题,SOLOV2 算法从精度和速度上超越目前存在的实例分割算法,得到了广泛的应用。Liu 等人14通过对卷积结构进行优化并将其应用到农业上;Zhu 等人15将其应用到无人机中可以快速地检测与分割目标。SOLOV2 是一种以 ResNet16为基础网络的实例分割算法,并且在骨干网络后连接 FPN 结构进行特征提取和特征融合,以此提高算法的精确度。最后通过Category Branch(分类分支)和 Mask Branch(掩膜分支)分别得到语义分类和掩膜输出的结果,并输出最后的图像。但 ResNet 网络的计算量随着网络深度加深会逐渐增大,基于此,该文使用 ResNext17作为骨干网络,在与 ResNet 相同参数量和计算量的情况下网络精度有所提升。此外,使用 NAS-FPN18代替 FPN19结构进行特征的提取和融合,NAS-FPN 使用重新组合和融合特征图的方式使网络能够充分地感知特征图从而 提 升 网 络 精 度。实 验 结 果 表 明,改 进 后 的SOLOV2 算法在速度不变的情况下精度提升 2.1%,证明了算法的可行性。1摇 SOLOV2 算法框架SOLOV2 是一种单阶段逐像素的实例分割算法,并且是以 FCN 为基础架构添加两个并行分支组成,可以实现端到端的目标检测与分割。SOLOV2 网络整体架构如图 1 所示。图 1摇 网络整体结构摇 摇 整体网络架构由 ResNet 特征提取网络、FPN 特征金字塔网络、语义类别分类分支和掩膜分支、像素级实例分类与掩膜输出 4 个部分组成。SOLOV2 的核心思想就是将实例分割问题重新表示为类别预测和实例掩码生成两个问题。具体就是,算法将输入图像划分为若干一致的网格,即 S 伊 S。如果物体的中心落在某网格内,该网格负责预测语义类别和分割该物体实例。具体过程如图 1 中语义分类分支和实例掩膜分支所示。语义分类:对于每个网格,SOLOV2 预测一个 C 维度的输出,表示语义类别的概率,C 是类别的个数。这些概率值取决于这些网格。如果将图像划分为 S 伊 S个网格,则输出空间为 S 伊 S 伊 C,如图1 语义分类分支所示。这样设计是基于一个假定,即每一个网格都属于一个单独的实例,因此只属于一个语义类别。在推理时,C 维度的输出表示每个实例的类别概率。由于此分支需要对 C 维度的网格进行分类,但一般网格是实例所在区域概率较小,大部分是背景区域,这种差异如果较大则会影响检测结果,所以此分支中使用 Focalloss 损失函数可以很好地抑制这种差异较大导致精度降低的现象。实例掩膜:与语义类别预测平行,每个网格都会输出一个相应的实例掩码。给定一个输入图像 i,将之划分为 S 伊 S 个网格,总共就有至多 S2个预测掩码。在 3D 输出张量中,将在第三个维度中直接对这些掩码进行编码。输出的实例掩码的维度就是 H1伊 W1伊S2。第 k 个通道负责在第(i,j)个网格中分割实例,k=iS+j(i,j 都是从 0 开始)。这样就在语义类别和掩64摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷码之间构建起了一一对应的关系,如图 2 所示13。当此分支开始对拥有实例的网格进行掩膜时,有些网格中实例占比可能较少,从而导致掩膜精度降低,所以使用 Dice loss 损失函数来抑制这种现象,从而有效提升精度。HW2SSSC图 2摇 实例掩膜对应关系2摇 改进 SOLOV2 算法2.1摇 ResNext 网络结构SOLOV2 常用的骨干网络是 ResNet-50/101 残差网络,ResNet 网络中加入了一个残差结构,解决了随着网络加深准确率下降的问题。ResNet 网络残差结构如图 3 所示16。Weight layerWeight layerreluXidentityF(x)F(x)+x图 3摇 ResNet 网络残差结构残差结构对每层的输入做一个反馈(X),通过加深层学习形成残差函数,这种残差函数更容易优化,能使网络层数大大加深。但是随着网络层数的不断增加,网络计算量和参数也随之增加,导致速度降低精度却没有增加,所以,该文采用改进的 ResNext 网络,在ResNet 网络残差结构中增加了 Inception 结构20,如图4 所示。1x1 convPreviouslayer3x3 conv1x1 conv1x1 conv1x1 conv3x3 maxpooling5x5 convFilterConcatenation图 4摇 Inception 结构从图 5 中可以看出,改进后的 ResNext 网络在ResNet 网络结构的基础上增加了平行堆叠拓扑结构,在网络深度不变的情况下增加了基数,将多维度的乘积运算变为更低维度的求和运算,网络的参数量和计算量不会变多,但能有效提升网络精度。表 1 显示了ResNet 网络和 ResNext 网络参数量和计算量的对比。256,1x1,6464,3x3,6464,1x1,256256,1x1,644,3x3,44,1x1,256256,1x1,44,3x3,44,1x1,256256,1x1,44,3x3,44,1x1,256256-d in256-d out256-d in256-d out32paths (a)ResNet(b)ResNext图 5摇 网络结构对比表 1摇 网络参数量和计算量对比stageoutputResNet50ResNeXt50(32x4d)conv1112伊1127伊7 64,stride 27伊7 64,stride 2conv256伊563伊3 max pool,stride 2 3伊3 max pool,stride 21伊1摇 641伊1摇 1283伊3摇 64伊33伊3摇 128 C=32伊31伊1摇 641伊1摇 256conv328伊281伊1摇 1281伊1摇 2563伊3摇 128伊43伊3摇 256 C=32伊41伊1摇 5121伊1摇 512conv414伊141伊1摇 5121伊1摇 5123伊3摇 256伊63伊3摇 512 C=32伊61伊1摇 1 0241伊1摇 1 024conv57伊71伊1摇 5121伊1摇 1 0243伊3摇 512伊33伊3摇 1 024 C=32伊31伊1摇 2 0481伊1摇 1 0241伊1global average pool1000-d,fc,softmaxglobal average pool1000-d,fc,softmax#params25.5伊10625.1伊106FLOPs4.1伊1094.2伊1092.2摇 NAS-FPN 结构传统的 FPN 结构如图 1 中 FPN 方框中所示。FPN 结构从不同的网络层次提取不同尺度的特征图,将提取的特征图每个都做 1 伊 1 卷积,从而减少卷积核的个数。经过处理的特征图从顶层开始依次向下做上采样操作,目的是为了和上一层的特征图尺寸一样从而做特征图的融合操作。可在融合之后还会再采用3伊3 的卷积核对每个融合结果进行卷积来消除上采样的混叠效应。经过融合操作后最底层的特征图所包含的特征语义信息最多,但是还会对过程中的每个特征图都做预测操作,这样就大大减少了在特征融合过程74摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 曾浩文等:基于 SOLOV2 改进的实例分割算法研究中因为卷积所损失。但是 FPN 的这种结构不能充分的利用特征图,所以使用改进的 NAS-FPN 结构来提升网络精度。NAS-FPN 结构对于 FPN 的改进之处在于将原来的 FPN 结构中所得到的那些特征图重新进行组合,不再是通过从高层次特征图依次向下和低层次的特征图融合的这种方式。NAS-FPN 结构如图 6 所示。图 6摇 NAS-FPN 结构NAS-FPN 对 5 个尺度上的特征图进行重组,5 个尺度的特征图分别表示为:C3,C4,C5,C6,C7,相对输入图像的步长(缩放倍数)分别为8,16,32,64,128,其中 C3、C4、C5 是 ResNext 提取的三个尺度上的特征层,C6 和 C7 是把 C5 特征层池化后得到的。NAS-FPN 的核心设计是合并单元,它负责搜索、抽取输入特征图以及经过二元操作得到输出特征图。具体步骤如下:(1)从候选特征层中选取 2 个作为输入特征层。(2)选择输出特征的分辨率。(3)选择一个二元操作将两个输入特征层整成新的输出特征,并加入候选特征层中。上述步骤重复进行,最初的候选特征层就是 5 个尺度的特征图,最后 5 个循环分别生成最终输出特征层P3,P4,P5,P6,P7,这 5 个特征层的分辨率分别与最初的 5 个候选特征层相对应。合并单元通常会叠加多个,上一个合并单元的 5 个输出特征层作为下一个合并单元的 5 个初始候选特征层。合并单元的操作过程和二元操作如图 7 所示18。3x3Convfeature layersmerging cellappend(a)Sumsummax pool?(b)Global poolings图 7摇 合并单元和二进制操作过程实验使用 ResNext 网络作为特征提取骨干网络,为了可以在不增加网络参数量和计算量的情况下提升网络精度,使用 NAS-FPN 结构对特征图进行重新组合和融合。为了使网络可以更好地感知特征图,改进后的网络结构如图 8 所示。图 8摇 改进后的网络3摇 改进 SOLOV2 算法基本流程3.1摇 算法基本流程在 SOLOV2 测试模型时,给定一个输入图像,先通过骨干网络处理得到一系列特征图,再通过金字塔结构将特征图进行处理,并传入到能对特征图进行分类和预测的算法头部中,最后得到一个带有将目标用掩膜覆盖的图像。整个算法步骤大致如下:(1)对输入图像进行预处理操作。(2)搭建如图 8 所示的网络框架,将输入图像送入 ResNext 基础网络得到输入图像的特征图,在特征图的每一点上面进行回归操作,训练获取网络模型。(3)将预训练的网络模型应用到测试图像中,从特征金字塔的多个 Head 获得预测结果;其中 Head 检测网络分为语义分类分支和实例掩膜分支。并且两个分支使用不同的损失函数,语义分类分支使用的是Focal loss 损失函数,掩膜分支使用的是 Dice loss 损失函数。(4)使用 NMS 后处理操作得到最终预测结果。3.2摇 损失函数介绍(1)Focal loss 损失函数。此损失函数主要是为解决类别不平衡的问题所提出的。因为网络在处理数据时负样本数量太大,占总的损失的大部分,而且多是容易分类的,由于负样本太多可能会不能够正确地识别正样本,从而导致准确率变低。计算公式为:FL(pt)=-琢t(1-pt)酌log pt摇(1)其中,(1-pt)酌为调制系数,pt的范围是 0 到 1,为任意数,琢 一般会取 0 到 0.5 来增加-1 这个类的样本的权重。(2)Dice loss 损失函数。Dice loss 损失函数源于二分类,本质上是衡量两个样本的重叠部分。该指标范围从 0 到 1,其中“1冶表示完整的重叠。其计算公式为:84摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷Dice=2A 疑 BA+B(2)其中,A 疑 B表示集合 A、B 之间的共同元素,A表示 A 中的元素个数,B 也用相似的表示方法。为了计算预测的分割图的 dice 系数,将A 疑 B近似为预测图的每个类别的得分和目标之间的点乘,并将结果函数中的元素相加。4摇 实验结果及分析基于 Pytorch 深度学习框架上实现 SOLOV2 实例分割模型并进行模型的训练和测试。操作系统为Linux 16.04.5LT,服务器的处理器为 Intel Xeon(R)CPU E5-2678V3 内 存 64G,实 验 显 卡 为 NVIDIAGeForce GTX1080TiGPU,GPU 数 量 为 4,使 用 的CUDA 版本为 10.2。4.1摇 实验数据集及损失值分析实验 采 用 Microsoft COCO2017 标 准 数 据 集,COCO2017 数据集分为目标检测、关键点检测、实例分割、全景分割、图像说明等 5 种标注类型;标注信息使用 JSON 格式存储,预处理通过 COCO API 用于访问和操作所有“标注冶。其中训练数据集图像 11 万 8 千多张,测试数据集图像 5 千多张。数据集中包含人、车等 80 个类别。为了加速训练,实验使用迁移学习来训练。首先加载已经训练好的 ResNext 模型的权重,使用 monentum=0.9,weigt_decay=0.000 1 的 SGD 优化器,使用 GN,一共迭代 100 000 次大约 12 个 epoch。初始的学习率设为 0.01,在第 7 个 epoch 和第 10 个epoch 分别将学习率除以 10。模型改进前后的损失值如图9 所示,其中 loss_cls 为语义分类中的损失值,loss_mask 为实例掩膜中的损失值,loss 为总的损失值。图中下方曲线为改进后的损失值曲线。从图 9(a)语义分类损失中可以看出,改进后的损失值从 1.0下降到 0.2 左右,比原先的 0.25 更小,且在迭代 70k次后学习率衰减 10%,损失值逐渐趋于稳定。图 9(b)中看到在迭代 20k 次时损失值产生震荡,后继续下行缩小,最后在 0.5 左右趋于稳定。从图 9(c)总的损失中可以看出,改进后的损失值下降更为迅速,且损失值趋于稳定后相对较小。通过分析改进前后的损失变化情况可知,改进后的损失下降迅速,说明网络收敛速度较快,稳定后的损失值较小和整体震荡较小,证明网络的鲁棒性较好。4.2摇 分割结果分析实验采用 AP 作为准确度的评价指标,同时也展示了 AP50、AP75的精度。计算公式如式(3)所示:precision=TPTP+FPAP=移precision/N(3)其中,precision 为准确率,AP 为平均准确率,N 为一个类别的图像总数,TP 为正确识别并标定目标的数目,FP 为错误识别但标定目标的数目。表 2 展示了不同模型之间的精度与改进前后的模型精度对比。图 9摇 改进前后的损失值对比由表 2 数据可以看出,改进前单阶段 SOLOV2 算法精度已经高于表中所列出的其它单阶段和两阶段算法。进一步可以看出改进后的精度,当只对骨干网络改进时即使用 ResNext 网络作为特征提取网络,AP 精度相较于原来提升了 1 百分点,这是因为 ResNext 网络在不改变网络参数量和计算量的情况下增加了网络基数,减少了超参数,从而提升了网络精度。当只对FPN 结构进行改进时,AP 精度相较于原来提升了 0.8百分点,NAS-FPN 结构可以将提取的特征图进行随机的组合和融合操作,使网络可以更好地感知特征图,从而提升网络精度。当同时对骨干网络和 FPN 结构进行改进时,从表 2 可以看出 AP 精度相较于原来提升了 2.1 百分点。图 10 为改进前后网络的实例分割效果对比图以及道路场景下的效果图。94摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 曾浩文等:基于 SOLOV2 改进的实例分割算法研究表 2摇 不同模型的精度对比%算法backboneAPAP50AP75two-stageMNCRes-101-C424.644.324.8FCISRes-101-C529.249.5MASK R-CNNRes-101-FPN35.758.037.8MASKLab+Res-101-C437.359.839.6MASK R-CNN+Res-101-FPN37.859.840.7one-stageTensorMaskRes-50-FPN35.457.237.3TensorMaskRes-101-FPN37.159.339.4YOLACTRes-101-FPN31.250.632.8PolarMaskRes-101-FPN30.451.931.0SOLORes-101-FPN37.859.540.4SOLOV2Res-101-FPN39.760.742.9改进后SOLOV2Res-X101-FPN40.761.944.3SOLOV2Res-101-NASFPN40.561.344.0SOLOV2Res-X101-NASFPN41.863.845.9图 10摇 改进前后交通场景效果图对比从图中可以看出,SOLOV2 算法可以很好地应用在各种交通场景中,如城市街头人流量和车辆较多的情况等,且改进后的 SOLOV2 算法能更好地将小目标进行掩膜输出,这是因为 NAS-FPN 结构对于特征图的感知更加精确。也可以看出,改进后的 SOLOV2 算法对于多个实例的分割效果更好,边缘效果处理得也更好。结合效果图可以看出,改进后的 SOLOV2 算法精度更高且能用于实际场景,证明了算法的可行性。5摇 结束语以 SOLOV2 算法为基础,通过改变骨干网络和FPN 结构来达到提升精度的目的。首先,以 ResNext骨干网络为基础,因为可以在不改变网络参数量和计算量的前提下减少了超参数的量,从而有效提升了网05摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷络的精度;其次,采用 NAS-FPN 结构与骨干网络结合来实现目标特征的提取和融合,由于 NAS-FPN 结构可以对特征图进行重新组合和融合的操作,不再是原来的自顶向下的方式,使网络可以更好地感知特征图,从而提升整个模型的精度。实验使用 COCO2017 数据集验证整体模型精度提升了 2.1%,证明了改进网络的有效性。参考文献:1摇 张摇 慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望J.自动化学报,2017,43(8):1289-1305.2摇 张摇 顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视觉领域的应用J.计算机学报,2019,42(3):453-482.3摇GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich fea鄄ture hierarchies for accurate object detection and semanticsegmentationC/Proceedings of the IEEE conference oncomputer vision and pattern recognition.Columbus:IEEE,2014:580-587.4摇 CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Deep鄄Lab:semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected CRFsJ.IEEETransactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.5摇CHEN Hao,SUN Kunyang,TIAN Zhi,et al.BlendMask:top-down meets bottom-up for instance segmentationC/Proceedings of the IEEE conference on computer vision andpattern recognition.Seattle:IEEE,2020:8570-8578.6摇HE Kaiming,GKIOXARI G,DOLL魣R P,et al.Mask R-CNNC/Proceedings of the IEEE international conferenceon computer vision.Venice:IEEE,2017:2980-2988.7摇 伍锡如,邱涛涛,王耀南.改进 MaskR-CNN 的交通场景多目标快速检测与分割J.仪器仪表学报,2021,42(7):242-249.8摇LIU Shu,QI Lu,QIN Haifang,et al.Path aggregation net鄄work for instance segmentation C/Proceedings of theIEEE conference on computer vision and pattern recognition.Salt Lake City:IEEE,2018:8759-8768.9摇CHEN Kai,PANG Jiangmiao,WANG Jiaqi,et al.Hybridtask cascade for instance segmentationC/Proceedings ofthe IEEE conference on computer vision and pattern recogni鄄tion.Long Beach:IEEE,2019:4974-4983.10 BOLYA D,ZHOU Chong,XIAO Fanyi,et al.YOLACT:real-time instance segmentationC/Proceedings of the IEEEinternational conference on computer vision.Seoul:IEEE,2019:9156-9165.11 XIE Enze,SUN Peize,SONG Xiaoge,et al.PolarMask:sin鄄gle shot instance segmentation with polar representationC/Proceedings of the IEEE conference on computer vi鄄sion and pattern recognition.Seattle:IEEE,2020:12190-12199.12 CHEN Xinlei,GIRSHICK R,HE Kaiming,et al.Tensor鄄Mask:a foundation for dense object segmentationC/Pro鄄ceedings of the IEEE international conference on computervision.Seoul:IEEE,2019:2061-2069.13 WANG Xinlong,ZHANG Rufeng,KONG Tao,et al.SO鄄LOv2:dynamic and fast instance segmentationC/Confer鄄ence on neural information processing systems.Online E鄄vent:s.n.,2020:115-127.14 刘文波,叶摇涛,李摇颀.基于改进 SOLO v2 的番茄叶部病害检测方法J.农业机械学报,2021,52(8):213-220.15 朱会杰,王摇 勇,赵振宇.无人机精确定位中的目标实例分割算法J.指挥与控制学报,2021,7(2):5-6.16 HE K,ZHANG X,REN S,et al.Deep residual learning forimage recognitionC/Proceedings of the IEEE conferenceon computer vision and pattern recognition.Las Vegas:IEEE,2016:770-778.17 XIE Saining,GIRSHICK R B,DOLL魣R P,et al.Aggregatedresidual transformations for deep neural networksC/Pro鄄ceedings of the IEEE conference on computer vision and pat鄄tern recognition.Honolulu:IEEE,2017:5987-5995.18 GHIASI G,LIN Tsung-Yi,LE Q V.NAS-FPN:learningscalable feature pyramid architecture for object detectionC/Proceedings of the IEEE conference on computer vi鄄sion and pattern recognition.Long Beach:IEEE,2019:7036-7045.19 LIN T Y,DOLL魣R P,GIRSHICK R,et al.Feature pyramidnetworks for object detectionC/Proceedings of the IEEEconference on computer vision and pattern recognition.Hon鄄olulu:IEEE,2017:936-944.20 SZEGEDY C,LIU W,JIA Y,et al.Going deeper with con鄄volutionsC/Proceedings of the IEEE conference on com鄄puter vision and pattern recognition.Boston:IEEE,2015:1-9.15摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 曾浩文等:基于 SOLOV2 改进的实例分割算法研究