基于改进RoI
Transformer的遥感图像多尺度旋转目标检测
基于
改进
RoI
Transformer
遥感
图像
尺度
旋转
目标
检测
文章编号:1002-2082(2023)05-1010-12基于改进 RoITransformer 的遥感图像多尺度旋转目标检测刘敏豪1,2,王堃1,2,金睿蛟1,2,卢天2,李璋1,2(1.国防科技大学空天科学学院,湖南长沙410000;2.国防科技大学图像测量与视觉导航湖南省重点实验室,湖南长沙410000)摘摘 要:要:旋转目标检测是遥感图像处理领域中的重要任务,其存在的目标尺度变化大和目标方向任意等问题给自动目标检测带来了挑战。针对上述问题,提出了一种改进的 RoITransformer 旋转目标检测框架:首先,利用 RoITransformer 检测框架获取旋转的感兴趣区域特征(rotatedregionofinterest,RRoI)用于鲁棒的几何特征提取;其次,在检测器中引入高分辨率网络(high-resolutionnetwork,HRNet)提取多分辨率特征图,在保持高分辨率特征同时适应目标的多尺度变化;最后,引入 KLD(Kullback-Leiblerdivergence)损失,解决旋转目标表示的角度周期性的问题,提高检测方法对任意方向目标的适应性,并通过旋转目标边界框参数的联合优化提升目标定位精度。本文提出的旋转目标检测方法,即 HRD-ROITransformer(HRNet+KLDROITransformer),在 DOTAv1.0 和 DIOR-R两个公开数据集上与典型的旋转目标检测方法进行了比较。结果显示:相比于传统的 RoITransformer检测框架,本文方法在 DOTAv1.0 和 DIOR-R 数据集上检测结果的 mAP(mean-average-precision)分别提高了 3.7%和 4%。关键词:关键词:旋转目标检测;RoITransformer;高分辨率网络;遥感图像目标检测中图分类号:TN26;TP391.4文献标志码:ADOI:10.5768/JAO202344.0502001Multi-scale oriented object detection based on improved RoI Transformer inremote sensing imagesLIUMinhao1,2,WANGKun1,2,JINRuijiao1,2,LUTian2,LIZhang1,2(1.CollegeofAerospaceScienceandEngineering,NationalUniversityofDefenseTechnology,Changsha410000,China;2.HunanProvinceKeyLaboratoryofImageMeasurementandVisionNavigation,NationalUniversityofDefenseTechnology,Changsha410000,China)Abstract:Orientedobjectdetectionisacrucialtaskinremotesensingimageprocessing.Thelarge-scalevariationsandarbitraryorientationsofobjectsbringchallengestoautomaticobjectdetection.AnimprovedRoITransformer detection framework was proposed to address above-mentioned problems.Firstly,RoITransformerdetectionframeworkwasusedtoobtainrotatedregionofinterest(RRoI)forextractionofrobustgeometricfeatures.Secondly,high-resolutionnetwork(HRNet)wasintroducedinthedetectortoextractmulti-resolutionfeaturemaps,whichcouldmaintainhigh-resolutionfeatureswhileadaptingtomulti-scalechangesof the target.Finally,Kullback-Leibler divergence(KLD)loss was introduced to solve angle periodicityproblem caused by the standard representation of oriented object,and improve the adaptability of RoI收稿日期:2023-07-07;修回日期:2023-08-16基金项目:国家自然科学基金(61801491)作者简介:刘敏豪(1999),女,硕士研究生,主要从事深度学习与图像处理、旋转目标检测研究。E-mail:通信作者:李璋(1985),男,博士,研究员,主要从事航空航天领域中的图像测量与视觉导航、计算机视觉的基础理论以及工程应用研究,并拓展其在医工交叉领域的应用。E-mail:第44卷第5期应用光学Vol.44No.52023年9月JournalofAppliedOpticsSep.2023Transformertotargetsinarbitrarydirections.Theobjectlocalizationaccuracywasalsoimprovedthroughthejointoptimizationofboundingboxparametersoforientedobject.Theproposedmethod,calledHRD-ROITransformer(HRNet+KLDROITransformer),wascomparedwiththetypicalorientedobjectdetectionmethodontwopublicdatasets,namelyDOTAv1.0andDIOR-R.Theresultsshowthatthemean-average-precision(mAP)ofdetectionresultsonDOTAv1.0andDIOR-Rdatasetsisimprovedby3.7%and4%,respectively.Key words:orientedobjectdetection;RoITransformer;high-resolutionnetwork;objectdetectionofremotesensingimage引言基于深度学习的目标检测技术在遥感领域已广泛应用1。不同于前视图像中的目标,俯视的遥感图像中的目标具有方向任意的特点(如图 1 所示),依赖于水平感兴趣区域(horizontalregionofinterest,HRoI)的通用目标深度学习检测方法通常会引起预测边界框和真实边界框之间的错位2,在检测大长宽比(如桥梁、大船等)且具有任意角度目标时会包含大量冗余的背景信息。此外,遥感图像中复杂背景、目标的形态变化3、目标的密集分布4进一步增加了旋转目标检测的难度,针对遥感图像的高精度的旋转目标检测依然具有挑战。(a)Harbor(b)Plane(c)Bridge(d)Overpass图 1 遥感图像(第 1 行)和自然图像(第 2 行)对比图Fig.1 Comparison between remote sensing images(the firstrow)and natural images(the second row)(x,y,w,h)(x,y)wh(x,y,w,h,)近年来,在基于深度学习的通用目标检测基础上发展出了多种旋转目标检测方法。通用目标检测主要回归目标区域的,其中表示HRoI 的中心,和 分别表示 HRoI 的长度和宽度,而旋转目标检测额外回归一个方向值,并输出目标区域旋转框。MAJQ 等学者设计了RRPN(rotatedregionproposalnetwork)5,通过对特征提取网络预定义的每一个 anchor 位置添加一些方向参数,以此生成大量不同尺度、长宽比、方向的 anchors,其还提出了 RRoIs(rotatedregionofinter-est),可以将任意旋转候选区域投影到特征图。RRPN方法可以获得旋转的候选目标区域,提升旋转目标的检测精度,但是这些密集的旋转 anchors 消耗了大量的计算和存储资源6。DINGJ 等人提出了RoITransformer3,该方法使用空间变换将水平边界框表示的候选区域转换为旋转框,可以大大减少旋转 anchor 的数量并提高了检测精度。在 RoITransformer 的基础上,HANJM 等提出了 ReDet 来提取目标的旋转不变特征7,其以旋转等变网络为骨干网络生成旋转等变特征,可以准确预测目标方向,降低对方向变化建模的复杂性,其还提出了RiRoIAlign(rotation-invariantRoIAlign)算法,对每个候选区域提取旋转不变特征,进一步提高了旋转目标的检测精度。RoITransformer 已成为当前最典型的旋转目标检测框架,然而,RoITransfor-mer 采用的骨干网络 ResNet8会在提取特征时逐渐减小特征图的空间大小3,因此它对目标的尺度变化非常敏感,对于不同分辨率图像的目标检测适应性不足。此外,RoITransformer 使用基于SmoothL1 损失的回归方法来预测目标旋转角度,其无法解决旋转目标表示带来的角度周期性问题,其表现为角度边界不连续性9-10以及类正方形问题。基于 RoITransformer 的旋转目标检测常用于双阶段(two-stage)目标检测,其包含生成目标候选区域和目标检测分类两个步骤。最近有学者提出了一些单阶段(one-stage)旋转目标检测方法,例如R3Det(refinedrotationRetinaNet)11,一种基于 Reti-naNet 的端到端精细化旋转目标检测器,它采用从粗到精的渐进回归形式,首先使用水平 anchor 以达到更高的召回率,然后在后续精细化阶段使用精细的旋转 anchor 以获得更精确的定位。SASM(shape-adaptive selection and measurement)repp-oints12方法提出样本自适应选择和分配策略,根据目标的形状信息和特征分布动态选择样本。Orientedreppoints13方法提出一种高效的质量评估和样本分类方法,还引入了一种空间约束来惩罚离群点,以实现鲁棒的自适应学习。其他典型的单阶段方法还包括 SSD(singleshotmultiboxdetector)、YOLO(youonlylookonce)及其改进方法14等。在应用光学2023,44(5)刘敏豪,等:基于改进 RoITransformer 的遥感图像多尺度旋转目标检测1011单阶段目标检测中,一种基于高斯分布的回归损失被提出,用来解决目标表示的角度周期性问题,提高了旋转目标的检测精度,其核心步骤是将旋转边界框转换为二维高斯分布,采用的损失包括GWD(Gaussian Wasserstein distance)9、KLD(Kullb-ack-Leiblerdivergence)15和 KFIoU(Kalmanfilteringintersectionoverunion)16等。单阶段方法一般可以获得比双阶段方法更高的检测效率,但其检测精度也会受到一定的损失17。针对 RoITransformer 对多尺度遥感图像旋转目标检测精度不足的问题,本文提出了 HRD-ROITransformer(HRNet+KLD ROI Transformer)方法。首先,采用原始的 RoITransformer 检测框架获取 RRoI,用于鲁棒的几何特征提取;其次,使用HRNet18作为骨干网络,提升模型对多尺度目标检测的适应能力;最后,借鉴单阶段目标检测的损失函数设计思路,以 KLD 损失代替 RoITransformer检测框架中的 SmoothL1 损失,解决旋转目标表示带来的角度周期性问题,进一步提高 ROITrans-former 框架对旋转目标检测能力。1 HRD-ROI TransformerHRD-ROITransformer 使用 RoITransformer 作为基本框架。其采用 HRNet 作为骨干网络,将高分辨率卷积和低分辨率卷积流并行连接,可在保持高分辨率特征提取的前提下提升模型对多尺度目标检测的适应能力。KLD 损失用来代替 Smo-othL1 损失,解决度目标表示周期性带来的角度边界不连续性和类正方形问题。1.1 检测网络整体架构HRD-ROITransformer 的整体架构如图 2 所示,主要包含 4 个部分。HRNetFeature extractionFPNRRoIFC-2048Classification regressionRCNN based on KLD lossKLDHorizontal region proposalsOriented region proposalsFC-2048FC layersRPNRPNFC5HRoIDecoderRol Transformer图 2 HRD-ROI Transformer 结构图Fig.2 Structure diagram of HRD-ROI Transformer特征提取模块采用带有特征金字塔的 HRNet提取多层高分辨率特征(见 1.2 节)。RPN 模块RPN 模块将任意大小的特征图作为输入,生成一系列粗略的 HRoIs。RoITransformer 模块RoITransformer 模块用于从 HRoIs 的特征图中生成 RRoIs。首先,通过RoIPooling 或 RoIAlign 对不同大小的 HRoIs 进行RoI 提取,得到固定大小(默认为 77)的 RoI 特征,然后将每个 HRoI 特征输入到全连接层中,并对其进行解码,得到相应的粗略 RRoIs。基于 KLD 损失的 RCNN 模块类似于 RoITransformer 模块,通过旋转 RoIPooling、旋转 RoIwarping 或旋转 RoIAlign 将不同尺寸的 RRoIs 进行旋转,RoI 提取得到固定尺寸的 RoI 特征,再输入到全连接层进行分类和更加精细的边界框回归,其中以 KLD 损失调整边界框回归的结果,最终输出结果。1.2 高分辨率网络为了提升检测网络对不同尺度目标的适应性,本文采用高分辨率网络 HRNet 代替 ResNet作为骨1012应用光学第44卷第5期干网络。HRNet 的基本结构如图 3 所示,包含并行多分辨率卷积和重复多分辨率融合。Channel mapsConv.unitUnsampleStrided conv.图 3 HRNet 结构图18Fig.3 Structure diagram of HRNet18图 3 中 conv.unit 表示步长为 1 的 33 卷积,strided.conv 表示步长为 2 的 33 卷积,upsample表示双线性上采样后进行 11 卷积。并行多分辨率卷积是指以一个高分辨率子网络作为第一阶段,并逐步增加一个由高分辨率到低分辨率的子网络,形成新的阶段,并将这些多分辨率子网络并行连接起来。重复多分辨率融合是指在各个并行子网络之间引入交换单元,使每个子网络能重复地从其他并行子网络接收信息。该模型的主要特点是整个过程中特征图始终保持高分辨率,通过在高分辨率特征图主网络中逐渐并行加入低分辨率特征图子网络,不断进行不同网络分支之间的信息交互,同时保持强语义信息和精准位置信息。在 RoITransformer 网络的基本结构中,FPN(featurepyramidnetworks)作为特征提取中重要的一个环节,是将低分辨率强语义的深层特征和高分辨率弱语义的浅层特征通过一种自上而下的方式进行特征融合,使得不同层次的特征增强19,而 HRNet 并非是 FPN 的扩展,它不仅有逐层的特征融合,还有子网络之间多次重复地交换信息,可以持续保持高分辨率的特征。1.3 基于 KLD 的参数联合优化尽管 RoITransformer 方法在旋转目标检测中具有良好的效率和精度,但由于其旋转目标表示方式带来的角度周期性,会存在角度边界不连续性(图 4)和类正方形问题(图 5),导致模型训练的不稳定。此外,其采用的 smoothL1回归损失对目标表示的各个参数是进行独立优化的,使得损失对任何参数的欠拟合都很敏感,影响了旋转目标的检测精度。本文引入的 KLD 损失,将旋转目标表示为高斯分布基础上,采用联合优化的策略,可有效解决角度周期性问题,提高目标的检测精度。hththttttppphphpwpwpwphpwtwtwt(a)(b)(c)图 4 角度边界不连续性示意图Fig.4 Schematic diagram of angle boundary discontinuitypthphtwpwt(a)(b)图 5 类正方形问题示意图Fig.5 Schematic diagram of square-like problem1.3.1旋转目标表示的角度周期性(xp,yp,wp,hp,p)(xt,yt,wt,ht,t)图 4(a)是目标预测框的理想表示形式,黄色旋转框和绿色加粗旋转框分别表示目标的预测值和真值,其目标框的表示分别为和,两者只存在角度和中心点的细微差别。旋转目标表示一般有 OpenCV 表示方法20和长边定义法21。若采用 OpenCV 定义表示旋转框应用光学2023,44(5)刘敏豪,等:基于改进 RoITransformer 的遥感图像多尺度旋转目标检测1013 (0,/2wpp/2 (/2,/2ppt(图 4(b),会存在长短边交换的问题。由于 OpenCV表示方法的定义中,其锐角的一侧定义为,因此,图 4(b)中的预测框角度是短边与水平轴正方向的夹角,与图 4(a)中的理想形式的相差,且预测框的长宽与真值相反,这种旋转框定义方式有可能会造成较大的回归损失,导致模型训练不稳定,尤其大长宽比目标,该问题会更加突出。若采用长边定义法表示旋转框(图 4(c),由于定义中长边与水平轴正方向的夹角,图 4(c)中与图 4(a)中的预测角度相差,因此与 存在较大差异。pt/2对于类正方形的目标(如图 5 中的棒球场,其长宽比接近于 1),若预测框的长边正好与真值的长边相反,对于长边定义法的目标表示方式,与会相差,同样会导致模型训练不稳定。1.3.2KLD 损失(x,y,w,h,)N(m,)为解决 ROITransformer 原有的目标表示方式存在角度周期性问题,本文在 RoITransformer 框架中引入 KLD 损失。首先,将目标表示的旋转框转换成高斯分布:1/2=RRT=cossinsincosw200h2cossinsincos=w2cos2+h2sin2wh2cossinwh2cossinh2cos2+w2sin2m=(x,y)T(1)R式中:表示旋转矩阵;表示特征值的对角矩阵。在式(1)中,高斯分布具有以下几个属性10:(w,h,)=(h,w,/2)属性 1:(w,h,)=(w,h,)属性 2:(w,h,)(w,h,/2),w h属性 3:根据属性 1,旋转目标的 OpenCV 表示方法造成的长短边的交换问题得以避免。根据属性 2 和3,旋转目标的长边定义法造成的类正方形问题也可以得到解决。综上,角度周期性因高斯分布的三角函数表示方式得以避免,表现出边界连续性。Np(mp,p)Nt(mt,t)预测框和真值对应的高斯分布和的 KLD 为Dkld(Nt Np)=12(mpmt)T1p(mpmt)+Tr(p1t)+ln?p?|t|1(2)Dkld(Nt Np)(x,y,w,h,)显然,中的每一项都是由部分参数耦合组成的,所有旋转框参数都形成了一种链式耦合关系,使其在训练过程中相互影响,联合优化和自动调节。Dkld(Nt Np)最后,为了保证评估测度和回归损失之间的一致性,采用非线性变换将转换为近似IoU 损失:lreg=11+fDkld(Nt Np)(3)f()Dkld(Nt Np)f(D)=Df(D)=ln(D+1)式中:表示一个非线性函数,对距离进行变换,如或;是一个超参数,用来调节整体损失。(x,y,w,h,)上述分析表明,基于 KLD 的损失可以保证旋转框参数在训练过程中联合优化,优化一个参数,其余参数可以作为其权重动态调整,并且通过非线性变换使得该损失可以和评估测度保持一致性。相比 SmoothL1 损失的参数独立优化,基于 KLD 的损失理论上可以得到更高的目标检测精度。2 实验和讨论2.1 数据集本文使用带有旋转目标标签的 DOTAv1.022和 DIOR-R23数 据 集 进 行 方 法 的 测 试 和 比 较。DOTAv1.0数据集的图像大小从 800800 像素到2000020000 像素不等,包含各类具有各种方向、尺度和外观的目标,是迄今为止最具挑战性的旋转目标检测数据集,共包含 2806 张图片,将 188282个目标实例分为飞机(plane,PL)、船舶(ship)和储罐(storagetank,ST)等 15 类,其中训练集、验证集和测试集的比例分别为 1/2、1/6 和 1/3,更多有关各个类别的统计数据可以参考文献 22。DIOR-R 数据集是 DIOR24数据集的扩展,与 DIOR 数据集共享相同的图像,主要用于旋转目标检测。该数据集中有23463张图像和 192518 个实例,涵盖各类典型场景和20个常见目标类。DIOR-R 中的目标类别包括飞机(airplane,APL)、机场(airport,APO)、棒球场(baseballfield,BF)和篮球场(basketballcourt,BC)等。2.2 评估标准本文的目标检测结果主要采用精度(precision,P)、召回率(recall,R)、平均精度均值(mAP)、检测速度作为评价标准。精度及召回率公式如下:1014应用光学第44卷第5期P=TpTP+FPR=TPTP+FN(4)TpFpFN式中:是真正例(truepositive)数量;为假正例(falsepositive)数量;为假反例(falsenegative)数量。mAP 是一种综合了准确率和召回率的评价标准:每个类别都可得到一条 PR(precision-recall)曲线。计算曲线下的面积可得到该类别的平均精度AP(averageprecision),mAP则为各个类别AP的均值,是评判目标检测网络整体性能最常用的指标之一。2.3 实现细节实验基于 i9-10920X处理器,使用 4 个 NVIDIAGeForceRTX-2080TiGPU,内 存 为 256GB,利 用mmrotate 平台25,以 ImageNet 数据集预训练好的模型进行骨干网络参数初始化。采用随机梯度下降算法(stochasticgradientdescent,SGD)对模型进行训练,momentum 为 0.9,权重衰减为 0.0001,初始 学 习 率 为 0.005,共 训 练 12epochs,在 第 8 和11 个 epoch 时学习率衰减为前一阶段的 1/1026。对于 DOTAv1.0 数据集,本文将所有训练集和验证集的原始图像以 824 的步长裁剪出 10241024像素大小的图像块(其中为避免目标在切割图像时被分割,保留图像重叠度为 200)。对于 DIOR-R数据集,图像大小保持 800800 像素的原始大小。训练集的图像块通过一组图像归一化、随机翻转、随机裁剪等数据增强预处理方式之后,输入到模型中用于训练。在 DOTAv1.0 数据集的实验中,使用训练集对模型进行训练,使用验证集对模型进行评价。对于 DIOR-R 数据集,则使用训练验证集进行训练,使用测试集对模型进行评价。2.4 实验结果分析表 1 和表 2 分别展示了 HRD-ROITransformer与典型的旋转目标检测方法在DOTAv1.0 和DIOR-R数据集上的对比。针对旋转目标检测,双阶段算法的检测精度一般会高于单阶段算法17,因为双阶段算法能在第一阶段提取的特定候选区域的基础上进行旋转框的精细化回归,而且相比于单阶段算法,正负样本更加均衡。表 1 不同方法在 DOTAv1.0 数据集上的表现对比Table 1 Performance comparison of different methods on DOTAv1.0 datasetMethodBackboneLossAP/%mAP/%PLBDBR GTFSVLVSHTCBCSTSBF RAHASPHCOne-stageRotatedRetinaNetResNet50SmoothL1 89.7 75.0 40.8 64.1 66.5 67.7 85.8 90.7 62.6 65.7 54.4 62.0 62.6 52.2 54.566.3R3DetResNet50SmoothL1 89.5 73.2 44.4 65.3 66.9 77.2 87.2 90.8 57.9 66.2 51.3 63.2 72.1 53.0 54.667.5S2ANetResNet50SmoothL1 89.0 73.8 43.6 67.1 64.9 74.2 79.1 90.5 62.7 66.3 56.8 64.8 61.2 54.2 42.066.0SASMreppointsResNet50GIoU89.5 76.0 45.3 70.7 59.9 74.6 78.0 90.3 64.1 67.3 46.2 67.1 70.3 56.3 44.366.7OrientedreppointsResNet50GIoU89.7 75.7 49.8 70.7 74.1 80.5 88.4 90.5 65.1 68.6 47.1 64.6 70.4 57.8 54.669.8Two-stageRotatedFasterRCNNResNet50SmoothL1 88.5 74.7 44.1 70.0 63.7 71.4 79.4 90.5 58.7 62.0 54.7 64.5 63.2 58.2 50.166.3OrientedRCNNResNet50SmoothL1 89.1 75.8 50.0 68.3 62.3 84.0 88.8 90.6 68.7 62.3 57.0 63.6 66.4 57.3 39.168.2RoITransformerResNet50SmoothL1 89.4 77.7 46.8 71.9 68.4 77.9 80.0 90.7 71.3 62.5 59.1 63.6 67.3 60.2 45.468.8ReDetReResNet50 SmoothL1 89.6 78.0 47.4 68.8 65.8 82.4 87.4 90.6 67.5 69.7 63.4 65.9 67.3 53.0 48.769.7OursHRNetKLD89.8 75.4 54.7 78.9 68.8 78.6 89.3 90.7 75.7 62.8 67.0 67.2 75.3 60.7 52.172.5RoITransformer3由于提取了更为精准 RRoI 特征,所以达到了比 RotatedFasterRCNN19更好的性能。如表 1 所示,ReDet7在 DOTAv1.0 数据集上的 mAP 相较于 RoITransformer 提高了 0.9%,它是一种基于 RoITransformer 的检测方法,可以提取旋转不变特征。本文所提方法的 mAP 达到了 72.5%,相较于 RoITransformer 提高了 3.7%,相较于 ReDet提高了 2.8%。本文用 DIOR-R 数据集评估 HRD-ROITransfor-mer 模型的适应性。根据 DIOR-R 数据集的特性,将用于 DOTAv1.0 数据集模型的的输入图像大小调整为 800800 像素,检测目标类别调整为 20,并使用 DIOR-R 数据集重新训练和测试模型。结果如表 2 所示,本文方法仍然是所有双阶段算法中性能最好的,mAP 达到了64.7%,比RoITransformer 高4%,比ReDet 高5.1%。SASMreppoints12和Orientedrepp-oints13也在 DIOR-R 数据集上取得了较好的检测效果,但 mAP 仍分别比我们的模型低 2.7%和 1.2%。应用光学2023,44(5)刘敏豪,等:基于改进 RoITransformer 的遥感图像多尺度旋转目标检测1015表 2 不同方法在 DIOR-R 数据集上的表现对比Table 2 Performance comparison of different methods on DIOR-R datasetMethodBackboneLossAP/%mAP/%APL APO BFBCBR CH ESA ETS DAM GF GTF HA OPSH STA STO TCTSVE WMOne-stageRotatedRetinanetResNet50SmoothL1 59.1 15.0 70.4 81.1 14.5 72.6 64.9 46.6 14.6 70.9 74.7 24.8 30.2 67.0 69.1 50.1 81.2 41.6 32.5 61.952.1RotatedRetinanet-GResNet50GWD64.6 21.1 72.9 81.1 13.1 72.7 68.5 45.8 14.7 70.1 75.1 27.2 30.6 68.9 66.1 57.9 81.2 47.4 34.8 61.553.8R3DetResNet50SmoothL1 53.3 27.9 68.9 81.0 22.9 72.6 66.4 49.6 19.2 68.4 76.0 22.1 41.5 68.3 57.9 55.4 81.1 45.5 35.7 54.053.4R3Det-KResNet50KLD57.8 34.9 69.4 81.2 28.5 72.7 71.8 53.2 16.1 71.8 77.1 36.4 47.6 74.5 62.5 60.8 81.3 50.0 39.8 56.257.2S2ANetResNet50KFIoU67.2 28.0 76.0 80.8 27.3 72.6 61.2 60.3 17.9 68.6 78.2 26.2 44.6 77.7 65.8 67.4 81.3 48.9 42.2 63.157.8SASMreppointsResNet50GIoU61.2 52.1 74.5 82.7 32.4 72.5 76.0 58.1 34.9 71.3 77.1 38.6 51.5 79.1 64.8 66.3 80.7 60.5 41.7 64.262.0OrientedreppointsResNet50GIoU68.7 41.9 75.1 84.0 35.4 75.4 79.5 65.8 32.1 75.0 78.6 43.4 51.8 80.3 66.5 66.4 85.4 54.0 46.2 65.063.5Two-stageRotatedFasterRCNNResNet50SmoothL1 62.0 18.1 71.3 81.0 22.9 72.5 61.0 58.5 10.0 67.6 78.8 34.3 38.9 80.4 58.8 62.4 81.3 44.7 41.3 64.355.5OrientedRCNNResNet50SmoothL1 61.8 26.7 71.6 81.3 33.8 72.6 74.0 58.4 23.7 66.8 80.0 29.9 52.0 81.0 62.5 62.4 81.4 50.6 42.3 65.058.9RoITransformerResNet50SmoothL1 63.1 30.7 71.8 81.5 33.9 72.7 75.8 64.6 24.3 67.4 82.5 35.7 51.1 81.2 70.5 70.8 81.5 44.4 43.4 66.060.7ReDetReResNet50 SmoothL1 71.0 28.3 71.5 88.7 31.3 72.7 71.6 61.1 20.8 61.8 81.9 36.7 48.8 81.1 63.1 62.5 81.6 49.2 42.8 64.659.6OursHRNetKLD63.1 41.6 79.0 88.0 42.1 72.6 76.6 65.8 28.2 71.0 82.9 42.2 57.1 81.3 72.5 70.4 89.7 53.3 49.1 66.364.7尽管 ReDet 采用 ReResNet 提取旋转不变特征,但它的高分辨率特征语义信息很弱,对于小目标的检测效果不佳。而本文方法中使用的 HRNet 保持了高分辨率表示,保持强语义信息的同时,提高了网络对各种尺度目标的鲁棒性。如表3 所示,DIOR-R数据集中的船舶(SH)、车辆(VE)、风车(WM)和DOTAv1.0 数据集中的小型车辆(SV)、船舶(SH)是典型的小目标,本文方法的检测结果均优于 ReDet。表 3 DOTAv1.0 和 DIOR-R 数据集的小目标检测效果Table 3 Detection effects of small object on DOTAv1.0 and DIOR-R datasetsMethodBackboneLossDIOR-R/%DOTAv1.0/%SHVEWMSVSHOne-stageRotatedRetinaNetResNet50SmoothL167.032.561.966.585.8R3DetResNet50SmoothL168.335.754.066.987.2S2ANetResNet50SmoothL177.742.263.164.979.1SASMreppointsResNet50GIoU79.141.764.259.978.0OrientedreppointsResNet50GIoU80.346.265.074.188.4Two-stageRotatedFasterRCNNResNet50SmoothL180.441.364.363.779.4OrientedRCNNResNet50SmoothL181.042.365.062.388.8RoITransformerResNet50SmoothL181.243.466.068.480.0ReDetReResNet50SmoothL181.142.864.665.887.4OursHRNetKLD81.349.166.368.889.3图6(来自DIOR-R 数据集)和图7(来自DOTAv1.0数据集)主要展示了双阶段检测方法在典型场景旋转目标检测的结果。图 6 第 1 列是 RotatedFasterRCNN 的检测结果,第 2 列是 OrientedRCNN 的检测结果,第 3 列是 RoITransformer 的检测结果,第4 列是 ReDet 的检测结果,第 5 列是本文方法的结果。图 6 第 1 行的机场区域检测结果中,前 4 列的方法各有不同程度的误检,RotatedFasterRCNN 将航站楼误检为立交桥,将飞机误检为风车;OrientedRCNN6、RoITransformer 和 ReDet 均将飞机误检为风车。本文方法没有出现这种误检,是因为 HRNet提取了尺度适应性更强的特征,能很好地分辨风1016应用光学第44卷第5期车和飞机,而且对于第 1 行图中航站楼、第 2 行中的桥梁这两种大长宽比的目标,KLD 损失规避