基于改进YOLACT
的成熟芦笋检测-判别-定位方法
基于
改进
YOLACT
成熟
芦笋
检测
判别
定位
方法
2023年月期第54卷第农报业机械学doi:10.6041/j.issn.1000-1298.2023.07.026基于改进YOLACT+的成熟芦笋检测-判别-定位方法汪小邑1.2李为民1王琳3施印炎1.2武尧1王得志1(1.南京农业大学工学院,南京2 10 0 31;2.江苏省现代设施农业技术与装备实验室,南京2 10 0 31;3.智能农业动力装备全国重点实验室,洛阳47 10 39)摘要:为解决芦笋采收机器人选择性采收过程中成熟芦笋的判别和采摘手准确定位难题,提出了一种改进YOLACT+(Yo u o n l y l o o k a t c o e f f i c i e n t s)算法,利用该方法对成熟芦笋进行检测判别并定位采收切割。通过引人CBAM(Co n v o l u t i o n a l b l o c k a t t e n t i o n mo d u l e)注意力机制以及SPP(Sp a t i a l p y r a mi d p o o l i n g)结构改进传统的YOLACT+主干网络,提高了特征提取的有效性;设计了适用于芦笋目标检测的锚框长宽比以保证覆盖到不同姿态的芦笋,以提高网络检测速度和准确率。利用生成的芦笋掩膜分段计算芦笋长度和基部直径,来判定成熟芦笋,并通过空间位姿向量计算成熟芦笋基部区域切割点位置。采收机器人田间试验结果表明,经过训练的改进YOLACT+模型的检测准确率为95.2 2%,掩膜平均准确率为95.6 0%,6 40 像素48 0 像素图像检测耗时53.6 5ms,成熟芦笋判别准确率为95.2 4%,在X、Y、Z方向的切割点定位误差小于2.8 9mm,滚转角和俯仰角误差最大为7.17;与MaskR-CNN、SO LO 和YOLACT+模型相比,掩膜平均准确率分别提高2.2 8、9.33、2 1.41个百分点,最大定位误差分别降低1.0 7、1.41、1.92 mm,最大角度误差分别降低1.8 12.46 和3.8 1。使用该方法试制的芦笋采收机器人,采收成功率为96.15%,单根芦笋采收总耗时仅为12.15s。本研究提出的检测-判别-定位方法在保证响应速度的前提下具有较高的检测精度和定位精度,为优化改进基于机器视觉的芦笋采收机器人提供了技术支持。关键词:芦笋;采收机器人;选择性采收;YOLACT+算法;目标检测;定位中图分类号:TP391.4;S2 4文献标识码:A文章编号:10 0 0-12 98(2 0 2 3)0 7-0 2 59-13OSID:Method of Detection-Discrimination-Localization for Mature AsparagusBased on Improved YOLACT+AlgorithmWANG Xiaochanl.2LI WeiminWANGLin31,2SHI YinyanWUYaol3WANGDezhi(1.College of Engineering,Nanjing Agricultural University,Nanjing 210031,China2.Jiangsu Province Engineering Laboratory for Modern Facility Agriculture Technology and Equipment,Nanjing 210031,China3.State Key Laboratory of Intelligent Agricultural Power Equipment,Luoyang 471039,China)Abstract:Discrimination of ripe asparagus and accurate location of the picking hand is a challenge in theselective harvesting process of asparagus harvesting robots.To address this challenge,an improved youonly look at coefficients(YOLACT+)based algorithm was proposed,which was used to detect anddiscriminate ripe asparagus and locate harvesting cuts.Improving the traditional YOLACT+backbonefeature extraction network,specifically including the introduction of a convolutional block attentionmodule(CBA M)a t t e n t i o n me c h a n i s m a n d a s p a t i a l p y r a mi d p o o l i n g (SPP)mo d u l e,t o i mp r o v e t h eeffectiveness of the network for feature extraction and enhance its detection segmentation results.Asparagus have different sizes and postures,by designing different anchor frame sizes to ensure that theywere covered,the adaptability of the anchor frame to the aspect ratio of the asparagus was improved,thusimproving the detection accuracy and speed of the network.The skeleton was then fitted to asparagus withvarying growth forms.Determination of asparagus maturity after calculating asparagus length and basaldiameter in segments.Finally,the location of the cutting point in the bottom area of the mature asparaguswas calculated,and its spatial location was determined by quantifying the roll angle and pitch angle to收稿日期:2 0 2 2-12-2 1修回日期:2 0 2 3-0 2-13基金项目:江苏省重点研发计划项目(BE2021302)、拖拉机动力系统国家重点实验室开放课题(SKT2022005)和中国机械工业集团有限公司青年科技基金项目(QNJJ-PY-2022-25)作者简介:汪小品(196 8 一),男,教授,博士生导师,主要从事设施农业装备智能化控制技术研究,E-mail:w a n g x i a o c h a n n j a u.e d u.c n农2602023年机业报学械locate the final harvesting cutting surface.The results of the harvesting robot field trials showed that thedetection accuracy of the trained improved YOLACT+model was 95.22%,the average accuracy ofthe mask was 95.60%,the detection time of 640 pixels 480 pixels size image was 53.65 ms,theaccuracy of mature asparagus discrimination was 95.24%,the error of cutting point positioning in X,Yand Z directions was less than 2.89 mm,and the maximum error in rotation and pitch angles was 7.17.Compared with that of the Mask R-CNN,SOLO and YOLACT+models,the average accuracy of themask was improved by 2.28,9.33 and 21.41 percentage points,respectively;the maximum positioningerrors were reduced by 1.07 mm,1.41 mm and 1.92 mm,respectively,and the maximum angle errorswere reduced by 1.81,2.460 and 3.81,respectively.The harvesting success rate of the trialasparagus harvesting robot was 96.15%,and that the total time taken to harvest a single asparagus wasonly 12.15 s.The detection-discrimination-location method proposed had high detection and locationaccuracy,which ensured detection speed on the premise.It can provide technical support for optimizingand improving the asparagus harvesting robot based on machine vision.Key words:asparagus;harvesting robot;selective harvesting;YOLACT+algorithm;objectdetection;location0引言芦笋具有丰富的营养价值,被誉为“蔬菜之王”1。我国芦笋种植总面积达1.32 0 6 10 hm,占全球的90%2。目前芦笋采收基本靠人工进行,由于芦笋成熟期较长,期间需要进行多次采收,劳动强度大,采收成本高3。随着机器人技术的成熟,采用机器人选择性采收芦笋是实现机器替代人工的必由之路4-5。芦笋采收机器人的核心和关键是实现成熟芦笋的形状特征检测以及采收机械手的精确定位。近年来,多家研究机构都对芦笋选择性采收机器人的芦笋成熟性检测与采收切割点定位进行了研究6-13,按其所使用的芦笋检测与定位方法大致可以分为基于传统的图像处理方法和基于目标检测框与图像处理相结合的方法。基于传统的图像处理方法通常需要先对RCB图像进行颜色空间转换、白平衡,或对3D点云进行滤波、RANSAC聚类等预处理操作来获得目标芦笋的感兴趣区域,对该区域进行去噪处理后通过阈值分割、聚类等方法提取出目标芦笋6-10 ;基于目标检测框与图像处理相结合的方法首先使用FasterR-CNN等目标检测模型对待采区域进行芦笋检测,然后分别对检测框内图像进行后处理提取出目标芦笋11-13。在分割出目标芦笋后,提取其表型信息进行成熟性判断,根据分割的位置信息定位成熟芦笋采收切割点。这两种方法都能获得较好的芦笋检测分割效果并定位成熟芦笋采收切割点,但前者的目标提取过程较为复杂,检测速度较慢14-15;后者提高了检测速度,而在对目标检测框内图像进行后处理时,如受到如隔垄芦笋等干扰,其分割效果并不理想融合色彩、形态以及纹理等多尺度特征建立的实例分割模型,避免了复杂的构建过程,其作为“端到端”的像素级检测分割模型,可以有效改善芦笋的识别分割效果,并且具有更高的识别分割精度,被广泛应用于果蔬的识别与定位-1。YU等 提出了一种基于MaskR-CNN的草莓采摘点视觉定位方法,该方法使用残差网络和特征金字塔网络(Featurepyramidnetwork,FPN)来进行特征提取,然后对区域建议网络进行了针对性训练,将实例分割的平均准确率提升至95.7 8%;贾伟宽等【19 提出一种基于SOLO(Se g me n t i n g o b j e c t s b y l o c a t i o n s)模型的绿色果实优化算法,通过在分离注意力网络的基础上融FPN实现对绿色果实的多尺度特征提取,该方法的识别准确率为96.16%;ZHENG等2 0 1提出了一种基于MaskR-CNN的芒果采摘点定位方法,通过添加关键点检测分支实现端到端的芒果实例分割和采摘点定位,采摘点定位精度达0.98 4。以上针对的目标对象均为形状相对规范且长宽比较为均衡的果实,而大部分芦笋在生长过程中呈现弯曲状态,并且作为细长物体,具有较大的长宽比,使用上述方法不一定适用于芦笋的检测与定位2 1。因此,为实现设施芦笋精准选择性收获,本研究提出一种成熟芦笋检测-判别-定位方法,拟在实例分割模型YOLACT+(Yo u o n ly lo o k a tcoefficients)的基础上融合CBAM(Co n v o lu t i o n a lblock attentionmodule)注意力机制以及SPP(Sp a t i a lpyramidpooling)结构,实现设施环境下成熟芦笋的准确检测与判别,最后定位其采收切割面。1芦笋采收机器人设计基于垄作式栽植模式,本文设计了一种垄间行走式采收机器人(图1)。该机器人包括3个主要模块:采收装置、视觉模块和行走装置。261汪小邑等:基于改进YOLACT+的成熟芦笋检测-判别-定位方法第7 期67(a)采收场景(b)机器人三维图16132(d)机器人实物图911141510(c)末端执行器图1芦笋采收机器人设计三维图与实物图Fig.1Overall structure diagram of harvesting robot1.土垄2.履带底盘3.收集筐4.末端执行器5.机械臂6.视觉模块7.控制柜8.丝杆直线模组9.舵机10.夹持手指 11.夹持海绵12.压力薄膜传感器13.超声波传感器14.传动弧杆15.切割刀片16.舵机臂采收装置主要由末端执行器和机械臂组成,如图1c所示,末端执行器的最大开口宽度为45mm,可切割的芦笋直径在2 0 mm范围以内;机械臂(CR 5)具有6 个自由度,末端执行器固定于机械臂法兰盘上,使得整机采收工作半径可达10 8 cm。视觉模块使用一个分辨率为6 40 像素48 0 像素的深度相机(IntelRealSenseD435i),其通过相机固定板固定于机械臂第一转动轴上,可以绕机械臂底座旋转18 0,可以使机器人实现垄间双边采收。行走装置采用长8 0 cm、宽58 cm的履带底盘,除了固定的六自由度机械臂,底盘上部还配备了收集筐和控制柜。控制柜包括主控制器(LENOVO_LEGION_R7000P)、A r d u i n o 控制板、机械臂控制柜、电压转换模块、驱动器和接线端子。整机控制系统基于Ubuntu20.04中的机器人操作系统(Robotoperating system,R O S)进行构建。深度相机、CR5、末端执行器和主控制器之间的通讯由ROS实现。2成熟芦笋检测-判别-定位方法成熟芦笋检测-判别-定位方法包括2 个步骤:使用改进的YOLACT+算法对输人的RGB图像进行识别分割,提取出芦笋在图像中的掩膜。对芦笋掩膜进行骨架拟合,利用相机的深度信息评估芦笋长度和基部直径,判别出成熟芦笋后定位其采收切割面。2.1基于改进进YOLACT+的芦笋检测YOLACT+【2 2】的网络结构主要由主干网络(Ba c k b o n e)、掩膜原型生成分支(Maskprototypesgenerate network)和预测分支(Predictionhead)组成。为提高YOLACT+模型对芦笋的检测精度并保证其检测速度,该研究对YOLACT+模型进行改进。如图2 所示,本文从3个方面进行改进:在主干网络的C3、C4模块之后添加CBAM注意力机制,两个CBAM模块可以将网络通道与空间中有用的特征信息进行重用,减少输人图像中噪声对网络的干扰,强化对芦笋特征的提取。在主干网络C5模块后面添加SPP模块,加强对芦笋局部特征的提取,有助于提升检测分割结果。将FPN特征图中原始锚框长宽比(1,2 改为(2,4,16 1,以提高锚框对芦笋长宽比的适应性,加快网络产生候选框的速度。2.1.1CBAM注意力机制主干特征提取网络在提取完图像特征之后将所得特征图C3、C4、C5直接进行拼接得到FPN中P3、P4、P5特征图,拼接过程中各特征图权重相同,特征图中各空间信息的权重也相同,由于芦笋的生长环境中存在如隔垄芦笋、杂草以及土垄等其他非检测目标,导致输入的图像中存在较多噪声,提取的特征图中也包含噪声干扰,随着网络的加深会影响模型精度3-2 4,因此,在FPN进行特征融合之前引入融25-241合了通道注意力机制和空间注意力机制的CBAM25模块。CBAM模块结构如图3所示,该模块不仅可以改变特征通道之间的权重差异,还可以让模型关注特征空间中的关键信息,提高模型的检测精度,而为了防止因加入注意力机制后C5特征图因通道数过农2023年262机业报学械P7.5x5x256预测分支ClassificationP619x9x256改进部分NMS输人图像C5 18x18x2048P5118x18x256Cony640 x480 x3SPPBoxCropD3x3C4135x351024P4¥35x 352 56CBAMWxHWXxHMaskx256X256C369x69512P3¥6 9x 6 92 56coefficientsThreshlodCBAM2138x138x256FPN69x25669x256138x256138xk550 x3C1275x275x64ResizeConv3x3UpsampleConvlx1(DCNv2-ResNet50)x3+Conv3x3输出图像主干网络掩膜原型生成分支640 x480 x3图2改进的YOLACT+模型Fig.2Model of improved YOLACT+01SigmoidConyMaxPool通道注意力权值M共享全连接层空间注意力权值MAvgPoolMaxPool,AvgPool通道注意力模块空间注意力模块输入特征层F通道注意力加权结果F输出特征层F图3CBAM注意力机制Fig.3CBAM attention mechanism多、尺度太小导致的模型过拟合问题,仅在C3和C4特征图后加人注意力机制。引人的CBAM模块定义为F=Mc(F)?F(1)F=M,(F)?Fi(2)式中F-输入特征层F通道注意力加权结果F输出特征层Mc通道注意力模块Ms空间注意力模块其中F、F、F ER RWxHC,McERIxIxC,M,ERIIxc2.1.2基于SPP结构的特征融合模型对芦笋特征进行提取时,由于尺寸最小的一层特征通道数较多,存在卷积神经网络对图像相关特征重复提取的问题,YOLACT+网络中虽然有FPN作为特征融合结构,但是芦笋为细长物体,此问题会使得模型对芦笋的局部特征提取不够充分,降低模型的检测精度。通过在C5特征图后加入SPp26结构实现局部特征和全局特征的融合,进而丰富特征图的表达能力,可以提高模型的检测精度2 7 。引入的SPP结构如图4所示,在特征层输入网络以及输出网络时使用卷积核大小均为33的卷积来改变通道数,中间所用池化核大小分别为5 5,9 9、13 13。WxHxc输出特征层Conv3x3WxHx2CConcatWxHx(C/2)WxHx(C/2)WxHx(C/2)个MaxPoolMaxPoolMaxPool5x59x913x13WxHx(C/2)Conv3x3WxHxC输人特征层图4SPP结构Fig.4SPP structure2.1.3芦笋检测锚框长宽比设计原始的YOLACT+网络是基于一阶段的锚框机制检测器,生成的锚框用于前景与背景的判断及位置回归。图像在输人网络之前都会通过双线性插值法将尺寸大小改为550 像素550 像素,在FPN中采用(2 42 4,48 48,96 96,192 192,38 43845种尺度以及1,2 13种长宽比的锚框进行式为为距土面最近的那段),各等分段交界处的计算段标芦笋在轴投影方向平均分成k等份(第点坐标(u,umin和最低点坐标(u)。将目大minmax其中i=1,2芦笋数量。得到最高263汪小等:基于改进YOLACT+的成熟芦笋检测-判别-定位方法第7 期目标区域的检测。为了验证该锚框比例是否适合芦笋检测,本研究随机选取混合数据集内40 0 幅图像中共947 根芦笋的目标框尺寸进行统计,计算统计结果如图5所示600r长宽比为4长宽比为16400长宽比为220000100200300目标边框宽度/像素图5芦笋目标框统计Fig.5Green asparagus target box statistics由图5可知,芦笋目标边框的长宽比主要分布在2 16 之间,因此,本研究将P3P7这5层特征图的锚框长宽比改为12,4,16,锚框尺度保持不变,共生成15种不同的锚点,以保证覆盖到不同尺寸和姿态的芦笋。2.2成熟芦笋判别与切割面定位成熟芦笋判别与切割面定位流程如图6 所示,经过改进的YOLACT+模型实例分割后,得到完整的芦笋掩膜(图6 b,o u u 表示像素坐标系)。对芦笋掩膜进行初始点位获取(图6 c),进而得到芦笋骨架关键点,拟合出芦笋骨架轮廓(图6 d)。然后进行芦笋长度、基部直径计算以及空间位姿估计(图6 e),进而判定出成熟芦笋,最后确定其基部区域切割点位置,定位最终采收切割面(图6 h)。(1)初始点获取。首先获得芦笋掩膜在像素坐标系轴投影的最高点、最低点坐标值,计算式为(i)max(3)max(i)(4)mirmin式中(i)芦笋在轴投影最低点坐标值max(i)V芦笋在轴投影最高点坐标值min(i)芦笋在轴投影轮廓坐标值(i)(i)V(i)(i)maxmin(5)Vmax式中()-芦笋在u轴投影中第i和第i+1段交界处坐标值根据预试验k通常设置为6,j=1,2,,k-1。根据遍历芦笋掩膜轮廓获取其对应目标轮廓上的初始点坐标(u),()和(uc)(i)()Oasporogus:o.gnosparoqus:o.so1(a)网络输出结果(b)获取芦笋掩膜mn(d)骨架拟合(c)初始点位获取(e)长度、基部直径、滚转角和俯仰角计算未成熟成熟(f)成熟度判别(g)成熟芦笋切割点定位(h)定位结果图6成熟芦笋判别与切割面定位步骤Fig.6Steps for identifying mature asparagusand locating cutting surface(2)骨架拟合。通过初始点坐标计算各骨架关键点坐标(u(,(),计算式为(i)+u(i)(i)(6)2式中山芦笋在第j和第j+1段交界处骨架关键点坐标的u分量由于芦笋是从土面长出,底部多被泥土遮挡为不规则形状,如果使用轴投影最大值点作为最低点,在对芦笋轮廓进行长度测量和位姿估计时偏差较大,影响成熟芦笋的判断和切割面定位,故需重新选取最低点。通过对芦笋观察发现,其底部三分之一处韧性较大,弯曲度几乎为零(图7 a)。因此,使用第I段、第段和第段对应的两个关键点(u ,)和(u,)建立直线(图6 d中红色线段),取直线与芦笋掩膜轮廓分量最大的交点作为新的最低点(u,)。直线的建立公式为芦笋基部直径D264农2023年机业报学械u=bu+a(b#8)(7)山(b=8)u()(i)1其中bu(i)a=(i)(i)式中16一一斜率a-一截距一(i)(i)芦笋的最高点不变,令u。(i),则n6min其坐标表示为(u(i)L/3L/3(a)(b)图7芦笋弯曲示例与颜色分布Fig.7Asparagus bending example and color distribution(3)长度、基部直径以及位姿计算。使用pyrealsense2库中的get_distance()函数将像素坐标系ouw下的初始点、骨架关键点、最高点和最低点转换为相机坐标系OX.YZ。下对应坐标,利用上述坐标分别计算出各段芦笋长度,芦笋总长度为k段长度之和。长度计算公式为Z/(xn+1)1+cnn=0(8)式中L()芦笋总长度()()相机坐标系下骨架关键点、cncn最高点和最低点坐标值芦笋生长形态各异,已知芦笋姿态可使采收机器人的末端执行器平行夹持芦笋,减少芦笋的损伤。在本研究中使用滚转角和俯仰角确定芦笋姿态,以芦笋底部最低点(x,y,z )为原点建立空间直角坐标系OXYZ,滚转角为步骤(2)中所建立直线在OXY平面上投影与X轴的夹角,俯仰角为其在OYZ平面上投影与Z轴的夹角。滚转角与俯仰角计算公式为(i)(i)c2Yco=arctan(9)(i)(i)2(i)(i)(i)C2cO(10)arctan(i)22(i)式中()一芦笋滚转角(i)芦笋俯仰角(i)(i)(i)0相机坐标系下最低点坐标cO(i)(i)()X2y222相机坐标系下第段与第段对应的骨架关键点坐标基部直径如图6 e中白色线段所示,使用第I段与第段对应的芦笋轮廓初始点以及滚转角计算得出,计算公式为(()=90)rd(i)D()=d()sin(/2-()(0()90)Ld()sin()-/2)(90(c)180)(11)其中式中(i)(i)(i)相机坐标系下芦笋底部第I段与第段交界处轮廓左初始点坐标值(i)(i)X12c12、2 c 12相机坐标系下芦笋底部第I段与第段交界处轮廓右初始点坐标值(4)成熟芦笋判别。芦笋雌雄粗细不同,对应成熟标准也不同,根据国家芦笋等级规格2 8 以及农户根据市场所确定的芦笋等级规格,成熟芦笋判定标准如表1所示。表中L表示芦笋长度,D表示芦笋基部直径,表示芦笋未成熟,表示芦笋成熟,0表示芦笋过成熟,表1成熟芦笋判别标准Tab.1Criterion for mature asparagus基部直径长度L/cmD/mm02020242428 28404008(细笋)0813(中笋)013(大笋)0市面上鲜销的芦笋根据其直径主要分为3个等级,分别为细笋、中笋和大笋。芦笋直径小于8 mm为细笋,长度超过2 0 cm时成熟;芦笋直径介于8 13mm之间为中笋,长度超过2 4cm时成熟;芦笋直径不小于13mm为大笋,长度超过2 8 cm为成熟。当芦笋长度超过40 cm为过成熟芦笋,此时芦笋出现散头现象,经济价值低下,故不作为选择性采收的目标。(5)切割面定位。与其他果蔬直接采摘果实不同,芦笋的可食用部分与不可食用部分没有明确的界限。如图7 b所示,芦笋靠近土面一段为紫色,该265汪小邑等:基于改进YOLACT+的成熟芦笋检测-判别-定位方法第7 期部分韧性较大,不具有食用价值,绿色部分脆嫩多汁,为芦笋的“果实”部分。本研究考虑到随着芦笋的生长,其底部的不可食用部分随之增加(图7 b中紫色部分),采收切割点位置越偏上,将芦笋切割点位置定于芦笋总长8 处,即相当于底部三分之一段(第I和第段)3处。以芦笋底部最低点(,)为向量V起点,点(,y,z)为向量V终点,在向量V上求得芦笋切割点计算公式为(i)-CC(i)(i)()Ye222(i)=31-3:(12)cC(i)(i)(i)Lxc020(i)Z(i)(i)式中(i)相机坐标系下切割点P(i)坐ZcccC标值最终成熟芦笋采收切割面在相机坐标系下表示为F()(x),()()3模型训练与评价指标3.1数据集制作本文使用的芦笋图像于2 0 2 2 年3一5月在江苏省红窑镇春华园芦笋种植基地(33N,119E)分批次采集,芦笋品种为翡翠明珠F1。分别在不同天气光照条件下进行拍摄,拍摄相机为IntelRealSenseD435i,夜间拍摄采用LED补光灯进行补光,拍摄成像距离为0.6 1m,成像高度为40 cm(成像距离及成像高度均与芦笋采收机器人实地工作时一致),相机连接计算机使用快门拍摄方式,共保存图像1918幅,图像分辨率为6 40 像素48 0 像素,图像格式为JPEG。对所有图像按照COCO数据集格式使用专业标注软件Labelme进行标注,标注文件格式保存为JSON,共标注芦笋47 30 根,形成原始数据集,用于训练生成芦笋掩膜为了避免训练过程中出现过拟合,提高模型对于芦笋识别分割的鲁棒性和泛化性,采用数据增强方法对数据集进行扩充。在扩充前将原始数据集按3:1:1的比例划分为初始训练集、初始验证集和测试集,之后分别通过水平翻转、平移、运动模糊、随机改变亮度、添加高斯噪声和椒盐噪声6 种数据增强方法对初始训练集和初始验证集进行扩充。最终所得数据集图像共1112 2 幅,其中训练集图像8 0 53幅,验证集图像2 6 8 5幅,测试集图像38 4幅。3.2软硬件配置及训练策略本研究模型训练与试验分别在2 台计算机上进行,模型训练使用工作站硬件环境:CPU型号为IntelXeon Gold5220R,内存为32 GB,频率为2.2 GHz,GPU型号为PNYQuadroRTXA5000,显存为2 4GB;试验平台的硬件环境:CPU型号为AMDR7-5800H,内存为16 GB,频率为3.2 GHz,G PU 型号为GeForceGTX3060,显存为6 CB。所使用的软件环境均为:Ubuntu20.04LST操作系统,Pytorch1.7.1深度学习框架,NVIDIA460.56显卡驱动,CUDA11.2版本。为了节省模型训练所用时间,本研究使用迁移学习方法进行模型训练,训练送代次数50 0 0 0 次,训练初始学习率为0.0 0 1,分别在训练到2 50 0 0、37500、450 0 0 次时学习率调整为前一阶段学习率的1/10。GPU同时处理图形数为6 4,优化器采用Adam,参数设置为=0.9,=0.999,8=1010-83.3评价指标采用检测准确率(Accuracy,Ac)、掩膜平均准确率(Mask average precision,A Pma s k)和平均检测时间(t)评价模型性能采用成熟芦笋判别准确率(M)、切割点在X/Y/Z方向定位误差以及标准差(xSx,Sy,zsz)、俯仰角定位误差以及标准差(。s。)、滚转角定位误差以及标准差(s)、判别与定位时间(t,)作为评估成熟芦笋判别与切割面定位方法性能的评价指标。其中t,表示从获得芦笋识别分割结果到定位成熟芦笋切割面所用的时间。4试验结果与分析4.1芦笋检测试验4.1.1消融试验改进后的YOLACT+模型在YOLACT+模型的基础上融合CBAM模块、SPP结构,并且改变锚框长宽比,为了验证改进后模型中所改进模块结构的合理性以及有效性,设计消融试验,将38 4幅测试集图像放入训练好的模型中进行模型性能对比,最终得到不同模型下芦笋检测与分割的评价结果如表2 所示。表中Y表示YOLACT+模型,A表示改变特征图锚框长宽比,S表示添加SPP结构,C表表2模型性能对比结果Tab.2Model performance comparison results检测总模型Acso/%AP,Pmash5o/%APmPmask7s/%ta/ms时间/sY69.7574.1964.2419.2750.19A-Y87.4888.6875.9519.1049.74S-Y75.3083.5669.8419.9351.90C-Y85.6489.9776.4920.1352.42AS-Y93.0893.9280.3519.8351.63AC-Y90.2491.1477.9020.0452.19SC-Y92.7493.5879.7720.9254.48ASC-Y95.2295.6081.3220.6053.65266农2023年机业报学械示添加CBAM注意力机制,Acs5o表示IoU(In t e r s e c t i o n o v e r u n i o n)为0.5时模型检测准确率,APmauso 和 AP.Pmask7s分别表示loU为0.5、0.7 5时的掩膜平均准确率。由表2 可知,原始模型的Acs5o仅为6 9.7 5%,融合CBAM注意力机制和SPP结构并且改变锚框长宽比的模型Acso最高,达到95.2 2%。与原始模型相比,添加CBAM注意力机制后模型的Acs5o提升15.89个百分点,添加SPP结构后模型的Acso提升5.55个百分点,改变了FPN特征图锚框长宽比后模型的Acso提升效果最为明显,为17.7 3个百分点,表明所设计的锚框长宽比更加适合芦笋的检测。在图像分割方面,添加CBAM注意力机制的模型在APPmask5o指标上明显优于未添加CBAM注意力机制的模型。AYO LA CT+、C-YO LA CT+、AC-YOLACT+在添加了SPP结构后APmask5o提升5.2 4、3.6 1、4.46 个百分点,而APmas75则提升4.40、3.2 8、3.42 个百分点,表明模型在继续添加了SPP结构后,FPN减少了对芦笋图像相关特征重复提取的问题,并且分割性能的提升主要集中在IoU大于0.7 5时的高精度分割上,改善了模型对于芦笋局部细节区域的分割效果添加了CBAM注意力机制以及SPP模块后增加了计算量,但是改变了FPN特征图锚框长宽比提高了产生候选框的速度,模型可以更快更准确地定位到目标芦笋,最终改进后模型掩膜生成的准确率(AP,mash5o+AP,Pmask75)提升2 7.8 0 个百分点,但是检测时间仅比原模型增加3.46 ms,表明改进后的模型整体性能得到了提升。图8 为不同阈值下模型精准率与召回率变化曲线,从图中可以看出,在相同阈值的情况下,改进YOLACT+(A SC-YO LA C T+)模型的精准率更高;当阅值大于0.1时,改进YOLACT+的召回率较YOLACT+更大,最大差值达49.0 0 个百分点;改进YOLACT+模型综合性能更好,泛化能力更强。100908070605040YOLACT+,精准率30改进YOLACT+,精准率20YOLACT+,召回率10改进YOLACT+,召回率00.10.20.30.40.50.60.70.8 0.91.0阅值图:不同阈值下模型精准率与召回率变化曲线Fig.8Variation curves of model accuracy and recallunder different thresholds4.1.2模型改进前后识别分割效果为了验证所改进模型在不同天气场景下的识别分割效果,本试验选取测试集中晴天顺光、晴天逆光、阴天和夜间补光4种不同天气光照条件下图像开展模型改进前后对比试验,结果如图9所示。从图9可以看出,在检测方面,改进后的模型可一3(a)原图(b)真实区域(c)改进前(d)改进后(e)局部放大图图9模型改进前后的检测结果Fig.9Detection renderings before and after model improvement267汪小邑等:基于改进YOLACT+的成熟芦笋检测-判别-定位方法第7 期以准确地检测出所有目标芦笋,没有出现漏检和误检的情况,并且相较于改进前检测精度更高。在分割方面,原模型出现分割不完整、过分割的情况,如图9e中框1与框3所示,前者所分割出来的芦笋基部掩膜与真实区域相差较大,这会使得芦笋基部直径的计算值远小于真实值;后者将部分土壤分割为芦笋,