基于
改进
YOLOv4
模型
茶叶
病害
识别
第5 1卷 第9期2 0 2 3年9月西北农林科技大学学报(自然科学版)J o u r n a l o f N o r t h w e s t A&F U n i v e r s i t y(N a t.S c i.E d.)V o l.5 1 N o.9S e p.2 0 2 3网络出版时间:2 0 2 3-0 3-0 8 0 8:5 7 D O I:1 0.1 3 2 0 7/j.c n k i.j n w a f u.2 0 2 3.0 9.0 1 6网络出版地址:h t t p s:/k n s.c n k i.n e t/k c m s/d e t a i l/6 1.1 3 9 0.S.2 0 2 3 0 3 0 6.1 8 0 0.0 1 0.h t m l基于改进Y O L O v 4模型的茶叶病害识别 收稿日期 2 0 2 2-0 5-1 9 基金项目 广东省现代农业关键技术模式集成与示范推广项目(粤财农2 0 2 13 7号-2 0 0 0 1 1);国家自然科学基金项目(3 1 6 7 1 5 9 1,3 1 9 7 1 7 9 7);广州市科技计划项目(2 0 2 0 0 2 0 3 0 2 4 5);广东省科技专项资金项目(“大专项+任务清单”)(2 0 2 0 0 2 0 1 0 3);广东省现 代 农 业 产 业 技 术 体 系 创 新 团 队 建 设 专 项 资 金 项 目(2 0 2 2 K J 1 0 8);广 东 省 教 育 厅 特 色 创 新 类 项 目(2 0 1 9 K T S C X 0 1 3);2 0 2 0年广东省科技创新战略专项资金项目(“攀登计划”,p d j h 2 0 2 0 a 0 0 8 4);广东省大学生创新创业项目(S 2 0 2 0 1 0 5 6 4 1 5 0,2 0 2 1 1 0 5 6 4 0 4 2)作者简介 孙道宗(1 9 7 9-),男,安徽怀远人,副教授,博士,主要从事喷雾技术及传感器技术应用研究。E-m a i l:s u n d a o z o n g s c a u.e d u.c n 通信作者 王卫星(1 9 6 3-),男,河北宣化人,教授,博士,主要从事农业信息化研究。E-m a i l:w e i x i n g s c a u.e d u.c n孙道宗1,2,刘 欢1,刘锦源1,丁 郑1,谢家兴1,2,王卫星1,2 (1 华南农业大学 电子工程学院(人工智能学院),广东 广州 5 1 0 6 4 2;2 广东省农情信息监测工程技术研究中心,广东 广州 5 1 0 6 4 2)摘 要【目的】提出了一种改进的YO L O v 4模型,为自然环境下3种常见茶叶病害(茶白星病、茶云纹叶枯病和茶轮斑病)的快速精准识别提供支持。【方法】使用M o b i l e N e t v 2和深度可分离卷积来降低YO L O v 4模型的参数量,并引入卷积注意力模块对YO L O v 4模型进行识别精度改进。采用平均精度、平均精度均值、图像检测速度和模型大小作为模型性能评价指标,在相同的茶叶病害数据集和试验平台中,对改进YO L O v 4模型与原始YO L O v 4模型、其他目标检测模型(YO L O v 3、S S D和F a s t e r R-C NN)的病害识别效果进行对比试验。【结果】与原始YO L O v 4模型相比,改进YO L O v 4模型的大小减少了8 3.2%,对茶白星病、茶云纹叶枯病和茶轮斑病识别的平均精度分别提高了6.2%,1.7%和1.6%,平均精度均值达到9 3.8 5%,图像检测速度为2 6.6帧/s。与YO L O v 3、S S D和F a s t e r R-C NN模型相比,改进YO L O v 4模型的平均精度均值分别提高了6.0%,1 3.7%和3.4%,图像检测速度分别提高了5.5,7.3和1 1.7帧/s。【结论】对YO L O v 4模型所使用的改进方法具备有效性,所提出的改进YO L O v 4模型可以实现对自然环境下3种常见茶叶病害的快速精准识别。关键词 茶白星病;茶云纹叶枯病;茶轮斑病;YO L O v 4模型;茶叶病害识别 中图分类号 T P 3 9 1.4;S 4 3 5.7 1 1 文献标志码 A 文章编号 1 6 7 1-9 3 8 7(2 0 2 3)0 9-0 1 4 5-1 0R e c o g n i t i o n o f t e a d i s e a s e s b a s e d o n i m p r o v e d Y O L O v 4 m o d e lS UN D a o z o n g1,2,L I U H u a n1,L I U J i n y u a n1,D I N G Z h e n g1,X I E J i a x i n g1,2,WAN G W e i x i n g1,2(1 C o l l e g e o f E l e c t r o n i c E n g i n e e r i n g(C o l l e g e o f A r t i f i c i a l I n t e l l i g e n c e),S o u t h C h i n a A g r i c u l t u r a l U n i v e r s i t y,G u a n g z h o u,G u a n g d o n g 5 1 0 6 4 2,C h i n a;2 G u a n g d o n g E n g i n e e r i n g R e s e a r c h C e n t e r f o r M o n i t o r i n g A g r i c u l t u r a l I n f o r m a t i o n,G u a n g z h o u,G u a n g d o n g 5 1 0 6 4 2,C h i n a)A b s t r a c t:【O b j e c t i v e】A n i m p r o v e d YO L O v 4 m o d e l w a s p r o p o s e d t o p r o v i d e s u p p o r t f o r t h e r a p i d a n d a c c u r a t e r e c o g n i t i o n o f t h r e e c o mm o n t e a d i s e a s e s o f t e a w h i t e s c a b d i s e a s e,t e a c l o u d l e a f b l i g h t a n d t e a r i n g s p o t i n n a t u r a l e n v i r o n m e n t.【M e t h o d】T h e n u m b e r o f p a r a m e t e r s o f t h e YO L O v 4 m o d e l w a s r e d u c e d b y u s i n g M o b i l e N e t v 2 a n d d e p t h w i s e s e p a r a b l e c o n v o l u t i o n,a n d t h e c o n v o l u t i o n a l b l o c k a t t e n t i o n m o d u l e w a s i n t r o d u c e d t o i m p r o v e r e c o g n i t i o n p r e c i s i o n o f t h e m o d e l.U s i n g a v e r a g e p r e c i s i o n,m e a n a v e r a g e p r e c i-s i o n,i m a g e d e t e c t i o n s p e e d a n d m o d e l s i z e a s e v a l u a t i o n i n d e x e s,t h e d i s e a s e r e c o g n i t i o n a b i l i t y o f t h e i m-p r o v e d YO L O v 4 m o d e l w a s c o m p a r e d w i t h t h a t o f t h e o r i g i n a l YO L O v 4 m o d e l a n d o t h e r t a r g e t d e t e c t i o n m o d e l s(YO L O v 3,S S D a n d F a s t e r R-C NN)u s i n g t h e s a m e t e a d i s e a s e d a t a s e t a n d t e s t b e d.【R e s u l t】C o m-p a r e d w i t h t h e o r i g i n a l YO L O v 4 m o d e l,t h e s i z e o f t h e i m p r o v e d YO L O v 4 m o d e l w a s d e c r e a s e d b y 8 3.2%,a n d t h e a v e r a g e r e c o g n i t i o n p r e c i s i o n o f t e a w h i t e s c a b d i s e a s e,t e a c l o u d l e a f b l i g h t a n d t e a r i n g s p o t w a s i n c r e a s e d b y 6.2%,1.7%a n d 1.6%,r e s p e c t i v e l y.T h e m e a n a v e r a g e p r e c i s i o n r e a c h e d 9 3.8 5%,a n d t h e i m a g e d e t e c t i o n s p e e d w a s 2 6.6 f r a m e s/s.C o m p a r e d w i t h YO L O v 3,S S D a n d F a s t e r R-C NN m o d e l s,t h e m e a n a v e r a g e p r e c i s i o n o f t h e i m p r o v e d YO L O v 4 m o d e l w a s i n c r e a s e d b y 6.0%,1 3.7%a n d 3.4%,a n d t h e i m a g e d e t e c t i o n s p e e d w a s i n c r e a s e d b y 5.5,7.3 a n d 1 1.7 f r a m e s/s,r e s p e c t i v e l y.【C o n c l u s i o n】T h e i m-p r o v e d m e t h o d s w e r e v a l i d,a n d t h e i m p r o v e d YO L O v 4 m o d e l a c h i e v e d r a p i d a n d a c c u r a t e r e c o g n i t i o n o f t h r e e c o mm o n t e a d i s e a s e s i n n a t u r a l e n v i r o n m e n t.K e y w o r d s:t e a w h i t e s c a b d i s e a s e;t e a c l o u d l e a f b l i g h t;t e a r i n g s p o t;YO L O v 4 m o d e l;r e c o g n i t i o n o f t e a d i s e a s e s 中国是茶叶原产国和消费大国,茶产业也是独具特色的民生产业,在推动乡村振兴的进程中为全国百余个贫困县的脱贫攻坚提供了强大助力1。然而,同多数农作物一样,难控多发的茶叶病害若不及时加以控制会导致叶片细小、扭曲甚至过早枯萎,从而影响茶叶品质和产量。在茶叶的病害类型中,茶云纹叶枯病是茶园中最为常见的广泛分布于各产茶省份的病害,茶轮斑病是茶树整个生长周期内均易发生的顽固病害,茶白星病则是对嫩叶危害程度较大、发病率可达8 0%以上的病害2-3。传统人工巡视辨别茶叶病害的流程效率较低4,而在茶叶生长过程中及时精准地识别病害类型是有效防治病害的前提,同时对于辅助茶农尽早采取治理措施、保障茶叶品质也具有重要意义。在深度学习兴起前,国内外相关学者基于机器学习和传统图像处理法在农作物病害识别领域进行了积极探索5-6,其中代表性的方法主要有支持向量机(s u p p o r t v e c t o r m a c h i n e,S VM)、K-m e a n s聚类和边缘检测等7-8。但基于机器学习的病害图像识别研究中,通常提前去除了作物生长的复杂背景,且对作物患病部位的处理较为理想化,导致所设计的病害特征分类器存在客观限制,在自然生长环境中的作物上适用性欠佳8-1 0。随着“智慧农业”理念的推进以及深度学习技术的发展,应用卷积神经网络(c o n v o l u t i o n a l n e u r a l n e t w o r k s,C NN)对农作物病害图像进行识别,是近年来植物表型特征研究的重要方向之一1 1-1 3。其中涉及的方法主要包括两类:第一类是以区域卷积神经网 络(r e g i o n-c o n v o l u t i o n a l n e u r a l n e t w o r k s,R-C NN)1 4和快速区域卷积神经网络(f a s t e r r e g i o n-c o n v o l u t i o n a l n e u r a l n e t w o r k s,F a s t e r R-C NN)1 5为代表的两阶段目标检测法,该方法对图像的处理思想是首先获得检测对象的候选区域,然后再于候选区域中生成候选框进行回归预测,以生成最终的预测框。如O z g u v e n等1 6提出用改进的F a s t e r R-C NN对患叶斑病的甜菜叶片进行识别,准确率达到了9 5.5%;R e h m a n等1 7使用增强后的苹果叶片病害图像训练R-C NN,训练完成后的R-C NN对3种苹果叶片病害(黑星病、黑腐病和锈病)识别的平均精度均值为8 6.1%。第二类是以单次检测器(y o u o n l y l o o k o n c e,YO L O)1 8-2 0、单次多框检测器(s i n-g l e s h o t m u l t i b o x d e t e c t o r,S S D)2 1为代表的单阶段目标检测法,该方法简化了图像处理步骤,直接在输入图像中生成若干候选框,以对检测对象的类型和位置进行回归预测,因此检测速度快于第一类方法。如佘颢等2 2通过在S S D中引入特征金字塔网络(f e a t u r e p y r a m i d n e t w o r k s,F P N)以充分获取图像不同特征层的分辨率信息,改进后的S S D对识别水稻 害 虫 稻 飞 虱 的 平 均 精 度 由6 7.6%提 升 至7 5.8%;R o y等2 3对YO L O v 4进行改进,发现融合多尺度检测模块的YO L O v 4对识别4种番茄病害(早疫病、晚疫病、斑枯病和叶霉病)的平均精度均值达到了9 0.3 3%。但以上试验中较少涉及作物在复杂生长环境下的病害目标识别,且在网络模型的改进方法上并未明显降低模型参数量,从而影响了模型的图像检测速度。YO L O v 4是YO L O的第4代版本,与前几代版本相比,YO L O v 4在目标检测任务中具有较大的优势,但将YO L O v 4应用于自然环境下茶白星病、茶云纹叶枯病和茶轮斑病这3种常见茶叶病害的识别还存在改进空间,具体表现在3个方面:一是茶白星病的病斑较小,YO L O v 4模型对小目标易漏检;二是茶云纹叶枯病和茶轮斑病的病斑形状不规则,且其褐色病斑与茶树枝干的颜色较为接近,YO L O v 4模型的识别精度有待提高;三641西北农林科技大学学报(自然科学版)第5 1卷是YO L O v 4模型参数量较大,对茶叶病害目标识别的实时性有待改进。综上,本研究针对自然环境下茶白星病、茶云纹叶枯病和茶轮斑病的特点及病害目标识别中存在的问题,以YO L O v 4模型为基础对其进行轻量化改进以提高识别速度,同时引入卷积注意力模块和K-m e a n s聚类算法,以期提升YO L O v 4模型对茶叶病害的识别精度,为构建更适于自然环境下茶叶病害的识别模型提供参考。1 材料与方法1.1 试验数据采集采集自然环境下的茶叶病害数据集是开展病害目标识别的前提。试验中茶叶病害图像的采集地点位于广东省广州市天河区柯木塱农技推广中心及广州市白云区农业科学院的茶园内,拍摄时间为2 0 2 1年7月1 0日、8月9日、9月1 8日、1 0月2 0日和1 1月1 7日。拍摄时,手持高清移动设备(4 8 0 0万像素)距茶叶病害叶片1 01 5 c m处拍摄,拍摄角度为正面拍、俯拍和侧拍等,成像背景含有茶树枝干和土壤等干扰以保证病害数据的真实性。共采集到茶白星病、茶云纹叶枯病和茶轮斑病3种茶叶病害图像1 0 8 3张,其中茶白星病样本3 8 9张,茶云纹叶枯病样本3 4 2张,茶轮斑病样本3 5 2张。1.2 数据增强与数据集制作卷积神经网络需要足够的样本来学习图像特征,以提升对待测图像的识别效果。为提升网络的泛化能力,结合P y t h o n语言和O p e n C V计算机视觉库对采集的病害图像进行增强,分别使用图像翻转、旋转、对比度增强和添加高斯噪声这4种方法从每种病害样本中随机选择一部分进行增强,增强结束后共得到2 0 9 2张茶叶病害图像。以茶白星病为例,原图与增强后的图像如图1所示。对增强后的2 0 9 2张茶叶病害图像,使用L a b e l I m g可视化标注工具对其中的每种病害进行标注,标注完成后会得到与每张图像一一对应的包含病害类型、位置坐标等信息的x m l文件,与茶叶病害图像共同组成最终的数据集。根据茶叶病害样本的数量并参考深度学习领域主流的数据集划分标准1 1,2 4-2 5,以712 的比例将数据集随机划分为训练集(1 4 6 4张)、验证集(2 1 0张)和测试集(4 1 8张),其中训练集用于训练网络模型,验证集用于在网络模型训练时验证其收敛性,测试集用于评估训练结束后模型的性能。图1 茶白星病图像的增强处理F i g.1 E n h a n c e m e n t o f t e a w h i t e s c a b d i s e a s e i m a g e2 茶叶病害识别模型2.1 YO L O v 4网络模型YO L O v 42 0是经典单阶段目标检测网络,相比前代YO L O v 31 9,YO L O v 4在网络结构和图像特征融合方式上取得了较多突破,主要由C S P D a r k-n e t 5 3、空间金字塔池化(s p a t i a l p y r a m i d p o o l i n g,S P P)、路 径 聚 合 网 络(p a t h a g g r e g a t i o n n e t w o r k,P AN e t)以及头部网络(h e a d n e t w o r k)组成,其组成如图2所示。C S P D a r k n e t 5 3是负责对输入的图像进行特征提取的主干网络,输入图像经C S P D a r k-n e t 5 3进行特征提取后会输出3个尺寸的特征图:1 3像素1 3像素1 0 2 4通道、2 6像素2 6像素5 1 2通道和5 2像素5 2像素2 5 6通道。为进一步融合多重感受野2 6,1 3像素1 3像素1 0 2 4通道的特征图会进入S P P中进行多尺度的分块池化和拼接,经S P P处理后与其他2个特征图一起输入到P AN e t中。P AN e t会继续对3个特征图进行卷积(C o n v)、上采样(U p s a m p l i n g)和拼接(C o n c a t)等步骤,以融合特征图的浅层分辨率信息(纹理、形状、颜色等)和高层语义信息(图像整体特征)。在H e a d n e t w o r k中,其会基于已获得的特征提取能力在输入图像中生成若干候选框,以对待识别目标的位置和所属类型的置信度进行回归预测,并输出包含最741第9期孙道宗,等:基于改进YO L O v 4模型的茶叶病害识别终预测框的图像。YO L O v 4使用完全交并比(c o m p l e t e i n t e r s e c-t i o n o v e r u n i o n,C I o U)2 7作为预测阶段计算回归损失 的 函 数,与 传 统 的 交 并 比(i n t e r s e c t i o n o v e r u n i o n,I o U)2 7相比,C I o U综合考量了预测框和真实框的重叠面积、两框中心点的欧氏距离和宽高比等因素,能较为准确地衡量回归损失值,以提升网络预测能力。C I o U损失函数的定义为:LC I o U=1-I o U(P,T)+2(Pc t r,Tc t r)c2+v。(1)式中:LC I o U为损失函数;I o U(P,T)为预测框和真实框交集(重叠面积)与并集的比值,取值为01;P为预测框;T为真实框;为预测框和真实框中心点之间的欧氏距离;Pc t r为预测框中心点的坐标;Tc t r为真实框中心点的坐标;c为预测框和真实框的最小外接矩形的对角线长度;为权重函数;v为衡量宽高比相似度的参数。当H e a d n e t w o r k生成的预测框越接近于真实框时,I o U的值越接近于1;当预测框和真实框的宽高比越接近时,v的值越小,使得损失函数的值进一步减少以提升预测效果。C o n v_B N_M i s h表示包含卷积、批量正则化和M i s h激活函数的结构块,R e s b l o c k_b o d y表示残差结构块,S P P表示空间金字塔池化,C o n v 5表示5次卷积C o n v_B N_M i s h d e n o t e s t h e s t r u c t u r e b l o c k c o n t a i n i n g c o n v o l u t i o n,b a t c h n o r m a l i z a t i o n a n d M i s h a c t i v a t i o n f u n c t i o n,R e s b l o c k_b o d y d e n o t e s t h e r e s i d u a l s t r u c t u r e b l o c k,S P P d e n o t e s s p a t i a l p y r a m i d p o o l i n g,a n d C o n v 5 d e n o t e s 5 t i m e s c o n v o l u t i o n图2 YO L O v 4模型的结构F i g.2 S t r u c t u r e o f t h e YO L O v 4 m o d e l2.2 改进的YO L O v 4网络模型2.2.1 轻 量 级 卷 积 神 经 网 络M o b i l e N e t v 2 YO L O v 4网络模型的C S P D a r k n e t 5 3中包含大量残差块和卷积层,在网络深层进行特征提取时可能会丢失小尺寸目标(如茶白星病的小病斑)的特征图信息2 8-2 9;另一方面,YO L O v 4网络模型参数量和计算负荷较大,影响了其在农业场景下对茶叶病害识别的实时性。因此,试验中首先对YO L O v 4模型进行轻量化改进,即用M o b i l e N e t v 23 0替换YO L O v 4模型中的C S P D a r k n e t 5 3。改进后的YO L O v 4模型的结构如图3所示。M o b i l e N e t v 2是谷歌近年来推出的面向嵌入式设备的轻量级卷积神经网络,其在使用深度可分离卷积(d e p t h w i s e s e p a r a b l e c o n v o l u t i o n,D S-C o n v)显著减少传统卷积计算量的基础上3 0-3 1,引入了反向残差结构:依次通过11卷积升维、33深度可分离卷积提取图像 特征和11卷积降维等,使得M o b i l e N e t v 2能在相对稳定的高维空间上提取图像更为丰富的语义信息。将C S P D a r k n e t 5 3替换后,对M o b i l e N e t v 2相应层输出的3个特征图进行尺寸调整,使得M o b i l e N e t v 2与S P P和P AN e t之间传递图 像 信 息 的 连 接 保 持 有 效。如 图3所 示,从M o b i l e N e t v 2中输出P 3(5 2像素5 2像素3 2通道)、P 4(2 6像素2 6像素9 6通道)和P 5(1 3像素1 3像素3 2 0通道)3个尺寸的特征图,P 5经S P P处理后得到P 5,将P 5 输入到P AN e t中进行卷积和上采样,P 3和P 4同样输入到P AN e t中进行图像特征融合。2.2.2 卷积注意力模块C B AM 在深度学习领域,卷积注意力模块(c o n v o l u t i o n a l b l o c k a t t e n t i o n m o d u l e,C B AM)3 2是借鉴人眼观察物体的视觉特性而提出的一种图像特征加权方式。C B AM在对输入图像进行全局扫描后,会对需要关注的重点区域(如茶叶病害区域)赋予更大的权重,以减弱重点841西北农林科技大学学报(自然科学版)第5 1卷区域以外复杂背景的影响,C B AM的结构如图4所示。B N表示批量正则化,R e l u 6表示激活函数,C o n v表示卷积,D S-C o n v表示深度可分离卷积,C B AM表示卷积注意力模块B N d e n o t e s b a t c h n o r m a l i z a t i o n,R e l u 6 d e n o t e s a c t i v a t i o n f u n c t i o n,C o n v d e n o t e s c o n v o l u t i o n,D S-C o n v d e n o t e s d e p t h w i s e s e p a r a b l e c o n v o l u t i o n,a n d C B AM d e n o t e s c o n v o l u t i o n a l b l o c k a t t e n t i o n m o d u l e图3 改进YO L O v 4模型的结构F i g.3 S t r u c t u r e o f t h e i m p r o v e d YO L O v 4 m o d e l图4 卷积注意力模块的结构F i g.4 S t r u c t u r e o f t h e c o n v o l u t i o n a l b l o c k a t t e n t i o n m o d u l e 图4中,F为该模块输入的特征图,C、H和W分别为输入特征图的通道数、高度和宽度。输入的特征图F首先通过全局平均池化等操作得到通道注意力特征图M c(F),其计算公式为:M c(F)=(ML P(A v g P o o l(F)+M L P(M a x P o o l(F)=(W1(W0(A v g P o o l(F)+W1(W0(M a x P o o l(F)。(2)式中:()为s i g m o i d激活函数,ML P为多层感知器,A v g P o o l为全局平均池化,M a x P o o l为全局最大池化,W0、W1为ML P中的权重。为进一步获取重点区域在图像中的位置信息,通道注意力特征图M c(F)会继续进行通道拼接等操作以生成空间注意力特征图M s(F),M s(F)再与特征图F 相乘,最终得到输出的特征图F,其计算公式为:M s(F)=(f77(A v g P o o l(F);M a x P o o l(F),F=M s(F)F。(3)式中:()为s i g m o i d激活函数,f77为77卷积运算,A v g P o o l(F);M a x P o o l(F)表示对全局平均池化和全局最大池化后的特征图进行通道拼接。由于试验数据集中的茶叶病害图像均于自然茶园环境下采集,图像中除茶叶病害区域外还包含枝叶等 干 扰,为 准 确 定 位 茶 叶 病 害 区 域、提 高YO L O v 4模 型 对 病 害 的 识 别 精 度,本 试 验 在YO L O v 4模型的P AN e t中引入3个C B AM(图3),这3个C B AM分别对M o b i l e N e t v 2输出的P 3、P 4以及经过卷积和上采样后的P 5 3个特征图进行图像特征加权处理。C B AM的空间占用量较小,但综合考虑改进模型的识别速度表现,借鉴上述M o b i l e-N e t v 2在卷积计算量上的优化方法,使用深度可分离卷积代替P AN e t中的5次卷积和下采样(D o w n-s a m p l i n g)中的普通卷积,以进一步减少网络参数量和计算量3 0-3 1。2.2.3 基于K-m e a n s聚类的先验框适应性调整 先验框是根据数据集中所有待识别目标的常规宽高比而提前预设的一种矩形框,有助于预测网络生成更准确的预测框。YO L O v 4 模型的9个原始先验框基于包含汽车、人和猫等类型的开源C O C O数据集归纳得出,该数据集中各类型物体的宽高尺寸相941第9期孙道宗,等:基于改进YO L O v 4模型的茶叶病害识别差较大,使得原始先验框相对于中小尺寸的茶叶病害而言不够适用。为使先验框的尺寸更适用于预测茶叶病害,采用 K-m e a n s 聚类算法对原始先验框尺寸进行调整,具体流程为:将茶叶病害数据集中包含病害区域坐标、宽高等信息的标注框作为K-m e a n s聚类算法的输入样本,在多次迭代更新聚类中心(即更新先验框尺寸)的过程中,用聚类中心与其他标注框的交并比代替欧氏距离,作为先验框是否合适的评估标准。迭代结束后共得到9个聚类中心,对应于经K-m e a n s聚类算法调整后的9个先验框尺寸(1 9像素,1 7像素)、(2 9像素,1 8像素)、(2 3像素,2 3像素)、(3 4像素,2 6像素)、(7 0像素,6 7像素)、(6 5像素,9 9像素)、(1 0 0像素,6 9像素)、(9 1像素,9 1像素)、(1 3 4像素,1 1 5像素)。图5中的9个“”所示为先验框聚类中心,其中每个“”的x轴和y轴坐标分别表示该先验框的像素尺寸。图上不同颜色模块对应9个像素尺寸的先验框D i f f e r e n t c o l o r m o d u l e s o n t h e f i g u r e c o r r e s p o n d t o 9 p i x e l-s i z e d p r i o r b o x e s图5 K-m e a n s算法调整后先验框聚类中心的分布F i g.5 D i s t r i b u t i o n o f p r i o r b o x c l u s t e r c e n t e r s a f t e r a d j u s t m e n t b y K-m e a n s a l g o r i t h m2.3 网络模型评价指标试验比较了改进YO L O v 4模型与YO L O v 3、S S D、F a s t e r R-C NN等代表性模型的识别性能。采用平均精度(a v e r a g e p r e c i s i o n,A P)2 3,2 7,3 3、平均精度均值(m e a n a v e r a g e p r e c i s i o n,mA P)、图像检测速度(帧/s)和模型大小(MB)作为评价网络模型性能的指标。其中,A P和mA P的具体定义为:P=T PT P+F P,R=T PT P+FN,A P=10P Rd S,(4)mA P=1NNi=1A Pi。(5)式中:P为精确率;T P表示被模型正确检测为病害目标的数量;F P表示被模型错误检测为病害目标的数量;R为召回率;FN表示被模型漏检的病害目标的数量;A P为P-R曲线与坐标轴围成区域的面积,相较单独的P、R值能更为准确地评价网络模型的精度表现;S为积分变量;mA P为所有检测类别的A Pi取平均值后的结果;N为所有检测类别的数量,本试验中N取3,表示所检测的3种常见茶叶病害;A Pi为第i个类别的平均精度,本试验中i的取值为13。3 模型训练与结果分析3.1 试验平台设置与模型训练结果网络模型的训练基于P y T o r c h深度学习框架,编程语 言 为P y t h o n 3.8,G P U处 理 器 为G e F o r c e G T X 1 0 8 0 T i,C P U处理器为I n t e l(R)C o r e(TM)i 7-6 8 0 0 K,C UD A 1 1.0版本,基于W i n d o w s操作系统分别 对YO L O v 4模 型 和 本 研 究 提 出 的 改 进YO L O v 4模型进行训练,训练时输入图像的像素为4 1 64 1 6,并根据网络模型复杂度、数据集样本数量和G P U性能等因素设置以下参数:样本批处理大小为1 6,初始学习率为0.0 0 1,衰减系数为0.0 0 5,梯度优化器为A d a m。在 网 络 模 型 的 训 练 中,损 失 值(l o s s v a-l u e s)1 2,3 4是评判模型训练效果的重要指标。当损失值随着训练迭代轮次的增加而减小时,表明模型训练效果变好;当损失值减小至某一数值后基本不变时,表明模型在相应的迭代轮次中已达到收敛。模型训练时每迭代一个轮次保存一次相应的损失值,最终YO L O v 4模型和改进YO L O v 4模型在训练集和验证集上损失值的变化曲线如图6所示。分析图6可知,随着迭代轮次的增加,2个模型的损失值均逐渐降低,但改进YO L O v 4模型的收敛速度更快。在训练集中,YO L O v 4模型的损失值曲线在第7 0个迭代轮次后趋于平稳,改进YO L O v 4模型的损失值曲线在第5 0个迭代轮次后趋于平稳。在验证集中,YO L O v 4模型在第3 2和第6 1个迭代轮次中损失值出现了小幅度波动,最终达到收敛时的损失值为0.9 0;而改进YO L O v 4模型在第2