基于
改进
YOLOv5s
模型
茶叶
嫩芽
识别
方法
基于改进 YOLOv5s 模型的茶叶嫩芽识别方法王梦妮,顾寄南,王化佳,胡甜甜,方新领,潘知瑶(江苏大学机械工程学院,镇江,212013)摘要:现有的目标检测算法检测茶叶嫩芽的精度较低,为提高茶叶嫩芽的检测精度,该研究提出一种基于改进YOLOv5s 网络模型的茶叶嫩芽检测算法。该算法将骨干特征提取网络中的空间金字塔池化结构(spatialpyramidpooling-fast,SPPF)替换为空洞空间卷积池化金字塔结构(atrousspatialpyramidpooling,ASPP),增强模型对不同分辨率下目标的识别能力;针对茶叶嫩芽的小目标特征,在颈部网络中引入可加权重的双向特征金字塔网络(bidirectionalfeaturepyramidnetwork,BiFPN),提高特征融合的效率,同时在颈部网络中的每个集中综合卷积模块(concentrated-comprehensiveconvolutionblock,C3)后添加卷积注意力模块(convolutionalblockattentionmodule,CBAM)来提高模型关注小目标特征的能力。试验结果表明,改进后获得的 Tea-YOLOv5s 比原模型的准确率(precision,P)、召回率(recall,R)和平均精度值(meanaverageprecision,mAP)分别高出 4.4、0.5 和 4.0 个百分点,且模型鲁棒性强,在多个场景下茶叶嫩芽的检测中具有更高的置信度分数。改进后的模型可为茶叶的产量估计和茶叶采摘机器人的嫩芽识别奠定基础。关键词:深度学习;识别;YOLOv5s;茶叶嫩芽;目标检测doi:10.11975/j.issn.1002-6819.202303099中图分类号:S21文献标志码:A文章编号:1002-6819(2023)-12-0150-08王梦妮,顾寄南,王化佳,等.基于改进 YOLOv5s 模型的茶叶嫩芽识别方法J.农业工程学报,2023,39(12):150-157.doi:10.11975/j.issn.1002-6819.202303099http:/www.tcsae.orgWANGMengni,GUJinan,WANGHuajia,etal.MethodforidentifyingteabudsbasedonimprovedYOLOv5smodelJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(12):150-157.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202303099http:/www.tcsae.org0引言作为全球最大的茶叶生产和消费国,中国的人均年消费量已超过 1500g1。茶产业属于季节性劳动密集型产业,其中人工采摘环节占整个茶园管理用工的 60%左右2。人工采摘不但效率低还占用大量农时,人工成本高;市面上的传统采茶机效率高但仍处于嫩芽与老叶同时“一刀切”的水平,这种“无差别采摘”方式极可能造成茶嫩芽的损坏,采摘的茶叶完整度低、质量差,只能制作廉价的大宗茶3。因此,为了将茶农从繁重的采摘作业中解放出来,提高嫩芽采摘的准确率和效率,研究茶叶的智能化采摘具有重要意义,其前提和关键便是茶嫩芽的准确识别。近年来,对茶嫩芽的识别检测方法研究主要集中在国内,其研究方法包括传统图像处理和深度学习方法。传统的图像处理方法是根据灰度、颜色、纹理和形状等基本特征对图像进行区域划分,使得区域间显差异性、区域内呈相似性4。吴雪梅等5根据嫩芽和老叶的 G 和G-B 分量的颜色信息,利用改进的最大方差自动取阈法计算 G 和 G-B 分量的分割阈值,分割出嫩芽。张浩等6结合 RGB因子和 Otsu 法对图像处理,通过滤波、腐蚀膨胀、阈值分割,面积筛选等得到嫩芽二值图。张可等7人基于传统阈值分割方法,结合 K 聚类理论,提取茶叶图像 RGB 模型中的 R-B 分量以及 Lab 模型中的 b 分量,用于嫩芽图像的提取。张博等8通过 RGB 色彩分量对图像灰度化,滤波去噪,然后进行图像分割,再通过面积筛选等只保留嫩芽的二值图,从而识别出茶叶嫩芽。以上方法虽然能实现茶嫩芽的识别,但其分割精度低,效果受嫩芽特征的影响较大,模型的泛化性和鲁棒性较差。随着深度学习的快速发展和在其他领域的大量应用,其在现代农业中的研究也在增加9。许高建等10采用改进 FasterR-CNN 算法对茶叶嫩芽图像进行识别,但模型普适性较差,且分割速度较慢。CHEN 等11和 WANG等12分别利用 FasterR-CNN 和 Mask-RCNN 网络识别出自然场景下的茶叶嫩芽,以上两种方法具有较好的通用性和鲁棒性,但识别检测茶嫩芽的步骤多速度慢,实时性不高,应用到茶叶的智能采摘上的效率有待提高。目前的茶叶嫩芽识别方法研究大多属于传统图像处理方法或传统方法与深度学习相结合,虽然能够识别到目标,但仍存在以下不足:首先,传统图像处理方法在进行特征选择时,依赖研究人员人工设计特征,需要丰富的先验知识和复杂的调参过程,耗费时间过长。其次,由于市场的需求,茶叶嫩芽的识别精度应当很高,然而当前针对茶叶嫩芽的识别研究大多没有考虑到识别精度问题,现有的研究网络模型参数量大、运行速度慢,未能实现识别效率与精度的有效平衡,然而,检测速度和检测精度是衡量模型能否应用在工程上的重要指标13;收稿日期:2023-03-15修订日期:2023-06-15基金项目:江苏省重点研发计划重点项目(BE2021016-3)作者简介:王梦妮,研究方向为机器视觉、深度学习。Email:通信作者:顾寄南,博士,教授,博士生导师,研究方向为人工智能、智能制造、智能机器人等。Email:第39卷第12期农 业 工 程 学 报Vol.39No.121502023年6月TransactionsoftheChineseSocietyofAgriculturalEngineeringJune2023最后,与人脸识别等传统目标的识别相比,嫩芽的颜色、纹理特征与叶子相似,特征差异较小;图像中的目标小、密度高,且并非处于结构化环境中,背景复杂。针对以上问题,本文以茶叶嫩芽的识别为目标任务,运用检测速度和精度较好的 YOLOv5s 网络为基础,根据目前嫩芽检测中存在的问题对原网络模型进行改进,在保证实时检测速度的基础上提高网络模型的检测精度,并与 FasterR-CNN、YOLOv4 等网络模型进行效果对比,以评估改进后的模型性能,为茶叶的产量估计和茶叶智能采摘视觉系统提供技术支持。1材料与数据1.1图像采集本研究所用茶叶嫩芽数据集原始图像采集地点为江苏省南京市绿航猕猴桃园和镇江市五峰茶厂,采集对象为龙井 43 和五峰茶树,茶树均单拢栽种,长势较好。图像采集设备为 iPhone 手机和 CanonEOS800D,数据的分辨率分别是 40323024 和 39842656 像素,以PNG 格式保存。数据采集于 2022 年 3 月、6 月上旬和10 月下旬,拍摄时间为 06:0018:00。在对茶叶嫩芽进行 图 像 采 集 的 时 候,拍 摄 设 备 与 茶 树 的 距 离 为1050cm,拍摄角度与竖直向上方向呈 3090夹角,嫩芽为前景,嫩芽以外的信息为背景。共采集原始图像1190 幅,如图 1 所示,包含不同背景复杂度、近远景、不同季节和单张图中目标多少的数据。1.2数据集构建利用矩形区域标注工具 LabelImg 对采集到的图像进行人工标记,以获得图像中目标嫩芽的类别和位置信息。标注完的信息以 txt 文件的形式保存后,完成茶叶嫩芽数据集的构建。本研究将数据集按照 721 的比例随机划分为训练集(833 幅)、验证集(238 幅)和测试集(119 幅),每个数据集都包含采集到的茶嫩芽图像和标注的标签信息。c.不同季节c.Different seasnsd.单张图中目标数d.Number of targetsin a single grapha.背景复杂度a.Backgroundcomplexityb.近、远景b.Close shot andlong shot简单Simple复杂Complex近景Close shot远景Long shot夏季Summer秋季Autumn少目标Less targets多目标More targets图 1不同场景下的茶嫩芽数据样本Fig.1Teabudsdatasamplesindifferentscenarios2茶叶嫩芽识别算法及改进2.1YOLOv5s 网络模型在单阶段目标检测算法里,YOLOv5 的性能良好,是 YOLO 系列中推理速度和识别效果最优的模型14,其中,YOLOv5s 网络的深度和特征图的宽度较小,推理速度快,广泛应用于实际场景中15,其作为基础模型。因此本研究选YOLOv5s 的网络结构包括输入端 Input、骨干网络Backbone、颈部网络 Neck 和预测 Prediction4 个部分,其网络结构如图 2 所示。CBSCBS CSP1_1 CBS CSP1_2CBS CSP1_3CBSSPPFCSP1_1CBSConcatCSP2_1 CBS上采样ConcatCSP2_1ConcatCSP2_1ConcatCSP2_1ConvCBSConvCBS上采样X个残差组件X residual unit骨干网络Backbone颈部网络NeckConv预测Prediction808025540402552020255CBSConvBN=CBSResunit=CBSaddCBS=CSP1_XResunitResunitResunitResunitConcatXX个CBS2X CBSCBS=CSP2_XConcatCBSSPPF=CBS输入端InputSiLUCBSCBSCBSCBSMaxpoolMaxpoolMaxpoolConcatCBS6406403注:YOLOv5s 网络结构分为 Input、Backbone、Neck 和 Prediction4 个部分。Conv 为卷积,Concat 为张量拼接,add 为张量相加,BN 表示批量归一化,CBS 模块由 Conv、BN 层和 SiLU 激活函数组成,Resunit 为残差模块,CSP1_X 由 X 个残差组件集成的卷积结构,CSP2_X 由 2X 个 CBS 模块集成的卷积结构,SPPF 为空间金字塔池化结构,Maxpool 为最大池化操作。Note:YOLOv5snetworkstructureisdividedintofourparts:Input,Backbone,NeckandPrediction.Convisconvolution,Concatistensorsplicing,addistensoraddition,BNrepresentsbatchnormalization,CBSmoduleiscomposedofConv,BNlayerandSiLUactivationfunction,Resunitisresidualmodule,CSP1_XisconvolutionstructureintegratedbyXresidualcomponents,CSP2_Xisaconvolutionstructureintegratedby2XCBSmodules,SPPFisaspacepyramidpoolstructure,andMaxpoolisamaximumpooloperation.图 2YOLOv5 网络结构Fig.2ThenetworkstructureofYOLOv5第12期王梦妮等:基于改进 YOLOv5s 模型的茶叶嫩芽识别方法151输入端的 Mosaic 数据增强随机使用 4 张图片,通过随机缩放、裁剪、分布进行拼接,以此丰富数据集,增强模型的泛化性16;通过自适应的锚框自动计算茶嫩芽数据集的最佳锚框值。输入的图片首先在 Backbone 部分进行特征提取,获得 3 个有效特征层后,Neck 部分的特征金字塔网络(FPN)进行通过上采样的方式进行特征融合,结合不同尺度的特征信息17;Neck 部分的路径聚合网络(PAN)18自底向上通过下采样来传达强定位特征,两个网络从不同的主干层进行特征聚合,从而获得信息更丰富的特征图。Prediction 部分包含 3 个预测分支,利用提取到的特征信息对不同尺寸的目标进行预测,获得预测目标的类别、置信度及其位置信息。2.2YOLOv5s 网络改进YOLOv5 原模型在公共数据集 COCO 上进行训练和评估19,该数据集涵盖 80 个类别、8.8105个标注对象20,识别类别过多会影响算法本身的主要特征表达21。本研究只涉及到茶叶嫩芽这一单类别识别,为提高茶叶嫩芽的检测性能,本文提出一种改进模型 Tea-YOLOv5s,将原模型中 Backbone 网络的 SPPF 模块替换为 ASPP 结构、Neck 网络引入 BiFPN 结构,并在加强特征提取网络上增加 3 个 CBAM 注意力机制,在保证可以实现实时检测的基础上,提高茶叶嫩芽的识别精度。2.2.1Backbone 网络优化YOLOv5s 模型的骨干网络中使用空间金字塔池化结构 SPPF(spatialpyramidpooling-fast)来提取不同感受野的信息,但其池化操作会损失局部信息,不能充分体现全局信息和局部信息的语义关系22。本文采用文献 23 中所提出的空洞空间卷积池化金字塔 ASPP(atrousspatialpyramidpooling)结构取代原 Backbone 网络中的 SPPF结构,利用不同空洞率的多个并行空洞卷积层24来实现SPPF 结构中的池化操作,并将其全局平均池化并联,组成新的特征金字塔网络,以此实现特征融合,获取多尺度物体信息,增强模型识别不同尺寸同一目标的能力。ASPP 结构如图 3 所示,其前向传播流程为:将骨干特征提取网络输出的特征图作为ASPP模块的输入,尺寸为 20201024,第一个支路是 11 标准卷积,保持原有的感受野;第二至四个支路是扩张率分别为 6、12、18 且卷积核大小为 33 的空洞卷积,特征提取以获得不同的感受野;第五个支路是将输入的特征图进行全局平均池化,获取全局特征。最后将五个分支的特征图在通道维度上堆叠,经过 11 标准卷积融合不同尺度的信息,最终生成 20201024 特征图。2.2.2Neck 网络优化对于多尺度特征融合,在融合不同的输入特征时,传统的特征金字塔结构 FPN(featurepyramidnetwork)自顶向下融合特征,浅层的特征信息在传递的过程中丢失严重25;YOLOv5s 采用的路径聚合网络 PANet(pathaggregationnetwork)在 FPN 的基础上增加自底向上的路径,双向融合骨干网络使得底层的信息更容易传播,但结构仍较为简单26。本研究引入可加权重的双向特征金字 塔 网 络 结构 BiFPN(bidirectional feature pyramidnetwork)27,3 种 Neck 网络结构如图 4 所示。20201 02411 conv33 convRate=633 convRate=1233 convRate=18Average pooling&upsamplingConcat11 conv20201 024图 3ASPP 结构Fig.3StructureofatrousspatialpyramidpoolingP7P6P5P4P3P7P6P5P4P3P7P6P5P4P3a.FPNb.PANetc.BiFPN重复模块Repeated blocks注:P1P7 为节点。Note:P1-P7arenodes.图 4三种 Neck 网络结构Fig.4ThreetypesofNecknetworkstructuresBiFPN 删除了贡献度小的单输入节点以此简化网络;然后在原始输入节点和输出节点之间增加一条边以融合更多特征;最后将自顶向下和自底向上的路径融合进一个模块中,通过 NAS 技术算出此模块的重复次数后将其作为参数设计到网络中来,提高茶叶嫩芽此类小目标的特征提取的准确度,以实现更高层次的特征融合。先前的特征融合方法对输入的特征均平等处理,然而,由于不同特征的分辨率不同,它们对特征融合的贡献权重也是不同的28。为解决此问题,BiFPN 在特征融合期间为每个输入添加一个额外的权重 O,让网络去学习每个输入特征的重要性29,如式(1)所示。O=i=0i+j=0jIi(1)Iiij式中 表示输入的特征;和表示网络训练得到的权重;=0.0001。2.2.3加入 CBAM 模块提高识别精度自然场景下的茶叶嫩芽环境比较复杂,且茶叶图像的前景和背景较为相似,为使网络模型在进行信息提取152农业工程学报(http:/www.tcsae.org)2023年的时候更好地关注茶叶嫩芽的关键信息,改善小目标的识别效果,本文选择将融合通道注意力与空间注意力的CBAM(convolutionalblockattentionmodule)卷积注意力模块30应用于加强特征融合网络中,添加在 Neck 网络中的每个 CSP2-_1 模块后。CBAM 模块由通道注意力模块(CAM)和空间注意力模块(SAM)组成,如图 5 所示,CBAM 依次沿着通道Mc和空间两个独立维度推断注意力图,两个模块分别关注特征的含义和重要特征的位置31。CAM 模块对输入进来的单个细化特征 FC,H,W,先分别进行全局平均池化和全局最大池化操作得到两个 C,1,1 的权重向量;之后权重向量通过共享多层感知器映射成每个通道的权重;将映射后的权重相加,利用 Sigmoid 激活函数获得输入特征层的权值矩阵,其计算式如式(2)所示:输入特征Input feature F 通道注意力模块Channel attention module(CAM)输出特征FOutput feature F 平均池化AvgPool最大池化MaxPool共享多层感知器Shared MLP通道注意力Channel attention Mc特征F Feature F 空间注意力模块Spatial attention module(SAM)Conv layer空间注意力Spatial attention Ms通道细化特征FChannel-refinedfeature F 相加操作Additive operation Sigmoid激活操作Sigmoid activation operation 逐元相乘Multiply by element最大池化,平均池化 MaxPool,AvgPool空间细化特征FSpatial refined feature F FF图 5卷积注意力模块Fig.5ConvolutionalblockattentionmoduleMc(F)=(MLP(AvgPool(F)+MLP(MaxPool(F)(2)McF式中,为 Sigmoid 激活函数,F 为输入的特征图。在获得后,将其与原输入特征图 F 按通道数相乘得到通道细化特征,其计算式为式(3)。F=Mc(F)F(3)FFC,H,WH,WH,W77Ms式中为经 CAM 细化后的特征图,为逐元相乘操作。特征图 在 SAM 中沿每一个特征点的通道上进行最大池化和平均池化操作得到两个 1,的权重向量,之后将结果进行堆叠获得 2,的特征图空间权重;经过的卷积操作后利用 Sigmoid 激活函数,进而得到空间压缩权值矩阵,如式(4)所示:Ms(F)=(f77(AvgPool(F);MaxPool(F)(4)MsFF式中,f77为 77 卷积层获得权值后,将其与输入特征层相乘得到空间细化特征,其计算式如式(5):F=Ms(F)F(5)2.3模型训练与测试2.3.1试验平台本试验运行算法的计算机工作站配置有 IntelCorei7-10700K 处理器,主频 3.80GHz,运行内存为 16GB,并配有 Nvidia2080 显卡。试验在 Ubuntu18.04.6LTS 操作系统上进行,采用 PyTorch 深度学习框架对模型进行搭建和改进,Loss 曲线收敛后对各算法进行分析。2.3.2模型训练参数设置模型训练时,将训练集图像的分辨率均调整为640640 像素,选用随机梯度下降法(stochasticgradientdescent,SGD)优化器,训练 300 个 epoch,批次大小设为 16,初始学习率为 0.01,动量参数和权值衰减参数分别设置为 0.937 和 0.0005。2.3.3评价指标试验结果采用检测速度 FPS(帧/s)作为模型的识别速度评价指标;采用准确率 P(Precision,%)、召回率 R(Recall,%)、平均精度 XmAP(meanaverageprecision,%)来衡量模型预测的准确度,计算式如下:P=XTPXTP+XFP100%(6)R=XTPXTP+XFN100%(7)XAP=w10P(R)dR(8)第12期王梦妮等:基于改进 YOLOv5s 模型的茶叶嫩芽识别方法153XmAP=CC=1XAP(C)C100%(9)XTPXFPXFNCC=1式中,表示被正确地检测为茶叶嫩芽的数量;表示被错误地检测成茶叶嫩芽的数量;为图像中被漏检的茶嫩芽数量;XAP为 01 之间所有 R 值的 P 的平均值函数;为检测类别数,本研究的识别目标只有茶叶嫩芽,故。3结果与分析3.1识别模型结果对比将原 YOLOv5s 网 络 模 型 和 改 进 后 获 得 的 Tea-YOLOv5s 模型在 119 张测试集上进行试验对比,随机选择背景复杂、前景与背景相似、多目标情况下的 3 种场景中选择 1 张茶叶图像进行展示,如图 6 所示。复杂场景Complexscene前景与背景相似The foreground is similarto the background多目标场景Multi-objectivescene原图OriginalimagesYOLOv5sTea-YOLOv5s图 6YOLOv5s 改进前后的茶叶嫩芽检测效果对比Fig.6ComparisonofdetectioneffectofteabudsbeforeandafterimprovementofYOLOv5s可以看出,由于茶叶嫩芽目标较小,处于的场景较为复杂,原 YOLOv5s 模型对于多目标场景下的茶叶嫩芽出现漏检现象,检测出的目标置信度略有降低。Tea-YOLOv5s 模型对茶叶图像进行检测时具有更高的置信度分数,且出现的嫩芽目标全部被识别出。3.2Tea-YOLOv5s 消融试验性能对比本研究通过消融试验以检验不同优化策略的有效性。试验结果如表 1 所示,由表可知,ASPP 结构提高了骨干网络特征提取能力,召回率提升了 0.5 个百分点,mAP提升了 1.7 个百分点;若直接在颈部网络的 3 个 C3 层后添加 3 个 CBAM 卷积注意力模块,准确率、召回率和mAP 仍有小幅度提升;若在引入 ASPP 结构的基础上添加 3 个 CBAM,准确率、召回率和 mAP 均有所提高,其中 mAP 提高了 2.0 个百分点。最终,改进后的 Tea-YOLOv5s 模型的准确率、召回率和 mAP 比原模型分别高出 4.4、0.5 和 4 个百分点,但推理速度降低至 84 帧/s,这表明引入各个结构增加了模型的复杂度导致推理速度变慢。表1消融试验性能对比Table1Comparisonofablationexperimentperformance模型Models准确率Precision/%召回率Recall/%平均精度MeanaverageprecisionmAP/%推理速度FramespersecondFPS/(帧s1)YOLOv5s80.675.080.310479.378.582.010081.876.880.59881.776.182.398Tea-YOLOv5s85.075.584.384注:模型表示引入 ASPP;模型表示添加 3 个 CBAM 注意力机制;模型表示引入 ASPP 和 CBAM。Note:ModelreferstotheintroductionofASPP;ModelmeansaddingthreeCBAMsattentionmechanisms;ModelmeansintroducingASPPandthreeCBAMs.以上 4 种改进方法比原模型的检测精度均有提升,虽然检测速度略有降低但仍达到了实时检测要求。5 个网络模型的性能曲线如图 7 所示,通过消融试验证实了对 YOLOv5s 网络的 Backbone、Neck 结构同时进行优化可以改善模型对茶叶嫩芽的检测性能。80706050403020100准确率Precision/%050100150迭代次数Epoch迭代次数Epoch迭代次数Epoch20025030080706050403020100召回率Recall/%05010015020025030080706050403020100平均精度Mean averageprecision mAP/%050100150200250300Tea-YOLOv5sYOLOv5s_ ASPP+CBAMYOLOv5s_ASPPYOLOv5s_CBAMYOLOv5sTea-YOLOv5sYOLOv5s_ ASPP+CBAMYOLOv5s_ASPPYOLOv5s_CBAMYOLOv5sTea-YOLOv5sYOLOv5s_ ASPP+CBAMYOLOv5s_ASPPYOLOv5s_CBAMYOLOv5sa.准确率a.Precisionb.召回率b.Recallc.mAP图 7基于 YOLOv5s 的不同改进算法在训练过程中的性能参数变化曲线Fig.7CurvesofperformanceparameterchangesofdifferentimprovedalgorithmsbasedonYOLOv5sduringtrainingprocess3.3不同目标检测模型的试验对比将基于改进 YOLOv5s 的 Tea-YOLOv5s 模型与主流目标 检 测 网 络 模 型如 Faster-RCNN、SSD、YOLOv3、YOLOv4 和 YOLOv5s 等进行试验对比,结果如表 2 所示。从表中可以看出,Tea-YOLOv5s 模型的平均精度比其他模型分别高出 54.27、29.66、26.40、32.45、4.00 个百分点,双阶段检测网络模型 Faster-RCNN 的识别精度低且网络参数多,推理速度最慢,单阶段目标检测模型SSD、YOLOv3、YOLOv4 的 检 测 精 度 较 于 Faster-RCNN 略有提高,但仍无法满足茶叶嫩芽的实时性识别要求;改进后的 Tea-YOLOv5s 的平均精度提高到了84.3%,虽然推理速度略低于常规 YOLOv5s,但足以满154农业工程学报(http:/www.tcsae.org)2023年足茶叶嫩芽的实时检测。表2不同网络模型的试验结果对比Table2Comparisonofexperimentalresultsofdifferentnetworkmodels模型 Models平均精度mAP/%推理速度 FPS/(帧s1)Faster-RCNN30.0320SSD54.6437YOLOv357.9077YOLOv451.8554YOLOv5s80.30104Tea-YOLOv5s84.30844结论1)本研究以原 YOLOv5s 模型为基础进行改进,使用 ASPP 空洞空间卷积池化金字塔来提取茶叶嫩芽的多尺度特征信息,BiFPN 双向特征金字塔网络替换 PANet路径聚合网络,提升了网络特征融合能力,并将 3 个CBAM 卷积注意力模块添加到 Neck 网络中,加强了关键信息的提取,提高检测精度和效率。2)根据茶园的实际环境,本研究制作了不同自然场景下的茶叶嫩芽数据集以用于模型的训练、验证和测试,并分别与 Faster-RCNN、SSD、YOLOv3、YOLOv4 和YOLOv5s 模型进行试验对比,结果表明,本研究提出的 Tea-YOLOv5s 均能提升茶叶嫩芽识别的准确率、召回率和平均精度,较原模型分别提高了 4.4、0.5 和 4.0 个百分点,随着改进后模型的复杂度提高,推理速度也下降至 84 帧/s,但仍能达到实时识别的要求。该模型对自然场景下的茶叶嫩芽检测性能良好,可对茶叶的产量估计和茶叶采摘机器人的研发提供参考。参考文献姚国坤.回望中国茶叶 100 年J.茶博览,2021(6):23-32.YAOGuokun.Lookingbackonthe100yearsofChineseteaJ.TeaExpo,2021(6):23-32.(inChinesewithEnglishabstract)1陆德彪,尹军峰.我国名优绿茶机械化采摘的意义与实现路径J.中国茶叶,2018,40(1):1-4.LUDebiao,YINJunfeng.Thesignificanceandrealizationpathof mechanized picking of famous green tea in China JChineseTea,2018,40(1):1-4.2罗泽涌,陈建,方晶晶,等.我国丘陵山区茶园种植机械化现状与发展研究J.农机化研究,2020,42(2):1-7.LUOZeyong,CHENJian,FANGJingjing,etal.Researchonthe current situation and development of tea plantationmechanization in hilly and mountainous areas of ChinaJ.Agricultural Mechanization Research,2020,42(2):1-7.(inChinesewithEnglishabstract)3LIU Xiaolong,DENG Zhidong,YANG Yuhan.Recentprogress in semantic image segmentationJ.ArtificialIntelligenceReview,2019,52(2):1089-1106.4吴雪梅,张富贵,吕敬堂.基于图像颜色信息的茶叶嫩叶识别方法研究J.茶叶科学,2013,33(6):584-589.WU Xuemei,ZHANG Fugui,LV Jingtang.Research ontherecognition method of tea leaves based on image color5informationJ.Tea Science,2013,33(6):584-589.(inChinesewithEnglishabstract)张浩,陈勇,汪巍,等.基于主动计算机视觉的茶叶采摘定位技术J.农业机械学报,2014,45(9):61-65.ZHANG Hao,CHEN Yong,WANG Wei,et al.Positioningmethod for tea picking using active computer visionJ.TransactionsoftheChineseSocietyforAgriculturalMachinery,2014,45(9):61-65.(inChinesewithEnglishabstract)6张可,吕军.自然条件下茶叶嫩芽图像分割方法的研究J.黑龙江八一农垦大学学报,2016,28(2):100-104.ZHANGKe,LVJun.Researchonsegmentationmethodofteabuds image under natural conditionsJ.Journal forHeilongjiangBayiAgriculturalReclamationUniversity,2016,28(2):100-104.(inChinesewithEnglishabstract)7张博,张禹,白广东.基于 LabVIEW 的茶叶嫩芽识别技术研究J.工业控制计算机,2020,33(3):61-63.ZHANGBo,ZHANGYu,BAIGuangdong.ResearchontheidentificationtechnologyofteashootsbasedonLabVIEWJ.IndustrialControlComputer,2020,33(3):61-63.(inChinesewithEnglishabstract)8傅隆生,宋珍珍,ZHANGXin,等.深度学习方法在农业信息中的研究进展与应用现状J.中国农业大学学报,2020,25(2):105-120.FU Longsheng,SONG Zhenzhen,ZHANG Xin,et al.Research progress and application status of deep learningmethods in agricultural informationJ.Journal of ChinaAgricultural University,2020,25(2):105-120.(in ChinesewithEnglishabstract)9许高建,张蕴,赖小燚.基于 FasterR-CNN 深度网络的茶叶嫩芽图像识别方法J.光电子激光,2020,31(11):1131-1139.XU Gaojian,ZHANG Yun,LAI Xiaoyi.Tea bud imagerecognitionmethodbasedonFastR-CNNdeepnetworkJ.PhotonicsLaser,2020,31(11):1131-1139.(inChinesewithEnglishabstract)10CHEN Y T,CHEN S F.Localizing plucking points of tealeavesusingdeepconvolutionalneuralnetworksJ.ComputersandElectronicsinAgriculture,2020,171:105298.11WANGT,ZHANGK,ZHANGW,etal.TeapickingpointdetectionandlocationbasedonMask-RCNNJ.InformationProcessinginAgriculture,2023,10(2):267-265.12邢洁洁,谢定进,杨然兵,等.基于 YOLOv5s 的农田垃圾轻量化检测方法J.农业工程学报,2022,38(19):153-161.XING Jiejie,XIE Dingjin,YANG Ranbing,et al.Thelightweight detection method of farmland garbage based onYOLOv5sJ.Transactions of the Chinese Society ofAgricultural Engineering(Transactions of the CSAE),2022,38(19):153-161.(inChinesewithEnglishabstract)13白强,高荣华,赵春江,等.基于改进 YOLOV5s 网络的奶牛多尺度行为识别方法J.农业工程学报,2022,38(12):14第12期王梦妮等:基于改进 YOLOv5s 模型的茶叶嫩芽识别方法155163-172.BAIQiang,GAORonghua,ZHAOChunjiang,etal.Amulti-scale cow behavior recognition method based on improvedYOLO