温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
稳健
典型
相关
最小
果实
品质
影响
分析
?281Journal of Beijing NormalUniversity(Natural Science)59(2)2023-04北京师范大自然科学版)于稳健典型相关及偏最小二乘的果实品质影响分析李瞳辉金蛟(北京师范大学统计学院,10 0 8 7 5,北京)摘要根据某省多个果园的土壤养分、树体特征、种植密度、果实养分及品质等指标采样数据,探讨了各因素对单果品质的影响;通过稳健典型相关方法,增大了典型相关系数,并分析了土壤养分与果实养分间的相关关系;利用偏最小二乘方法建立了关于果实品质和果实养分指标间响应变量多维的多元回归模型.所得结论为:调整土壤肥料结构和比例,保持合理的种植密度,注意树体修剪;在追求高产的同时关注果实品质。关键词同稳健典型相关;偏最小二乘;土壤养分;果实品质中图分类号0212D0I:10.12202/j.0476-0301.20223120引言稳健统计是与统计中理想假定条件偏离有关的理论体系.近几十年来,一方面由于传统统计方法无法彻底解决日益增多的实际问题,另一方面得益于统计学科的发展和计算机工具的完善,使得许多稳健方法得以提出和实现,进而促进了稳健统计理论的发展.但在实际数据分析、处理过程中经常遇到异常值的情况,有时会得到完全错误的统计推断结果,这样的统计分析风险是相当大的.而稳健统计分析方法能够提供对大量数据有着最好拟合的结构,并能够识别离群数据、避免异常数据对于统计推断灾难性的影响,因而对稳健方法的探索非常重要。本文研究了稳健典型相关分析方法在苹果种植行业的应用.苹果树因其易于栽培及良好的生态适应性已成为果树中种植最多的树种.美、日等苹果出口大国高端果占比已达到40%50%,而在我国富士果园的产出中,高端果的占比在10%左右.片面追求产量导致了不合理的种植密度和不可持续的土壤开发利用模式,加速了土壤有机质的流失.长期忽视微肥的作用,致使很多地区的土壤结构不合理,果实品质偏低,经济效益较差.可见我国现阶段的苹果种植不应只局限于产量的提高,还要关注果实品质,向世界先进果园看齐.国内外学者对果园土壤养分与果实品质各指标间的相关关系进行了研究:张强等川通过对北京昌平区苹果园的调查,运用典型相关分析方法筛选出影响果实品质的主要土壤养分因子,并提出了土壤优化方案;王海云等2 对胶东苹果园的有效养分和产量进行了对比分析,明确了各肥料的增减;魏钦平等3 用主成分分析和聚类方法研究了苹果品质评价要素的选择;Fallahi等4 调查了金冠苹果果实中各元素的质量分数、叶片营养成分及相应果实品质,并对它们的相关性进行了分析;Dris等5 对芬兰多个果园进行了调查研究,其结果表明,果实的钾元素质量分数与土壤中的钾元素质量分数有比较显著的正相关关系.已有研究成果对改善土壤养分结构、调整种植密度、提高苹果产量、提升果实品质起到了指导作用。现有成果对果实品质影响因素的分析很多,但鲜有同时关注土壤养分、树体结构、种植密度等指标的研究。此外,已有研究中对果园的横向对比较少,多数集中在相同或少数几个果园取样,种植条件的差异性较小。本文横向对比分析了48 个果园的多项指标,探究了影响果实品质的多项综合因素,并采用多对多偏最小二乘模型进行了深入分析.由于果树研究中的采样测试方法复杂,易出现测量误差或计数失误,且由于滴定测试成本的原因,可获得的数据量往往偏少,这些都使得采用传统典型相关分析方法时极易受异常值的影响,因此本文引人了稳健典型相关分析方法,取得了明显的效果.1统计分析方法1.1协变量间的多重共线性及几种常用的解决方法壤元素间的协同和拮抗作用在样本量不足时易出现*国家自然科学基金资助项目(117 7 10 48)+通信作者:金蛟(197 6 一),男,教授,博士。研究方向:应用统计、稳健统计.E-mail:收稿日期:2 0 2 2-0 4-30282第59 卷北京师范大自然科学版)多重共线性现象,此时传统方法回归系数的估计的方差会变大,稳定性也会变差,系数的符号甚至会与其实际意义相.为解决多重共线性问题,本文利用了逐步回归、岭回归、LASSO回归等算法,并运用舍一交叉验证法进行了模型比较。1.2禾稳健典型相关分析斤典型相关分析是将多变量间的相关转化为2 个新的组合变量间的相关,即(U=X,+.+mXmU=TX,或(1)(V=,Yi+.+,Yq,(V=TY,式中T表示的转置.记:mq,令j=(11,21,m1)、,=(,2 1,al),若i、,使得相关系数p(U,V)达到最大,则称U和V是第1对典型相关变量,p为第1典型相关系数.如果存在=(ik,2k,m)、,=(ik,2k,ak),TX、TY与其之前的k-1对典型相关变量都不相关,且Var(TX)=1,Va r(TY)=1,使得TX与TY的相关系数最大,则称TX、BT Y是X、Y的第k对典型相关变量,它们之间的相关系数称为第k个典型相关系数.(X)D(X)Cov(X,Y)设Z-协方差矩阵D(Z)Y)Cov(Y,X)D(Y)此时使相关系数p(U,V)=TCov(X,Y)达到最大为条件极值问题,可用拉格朗日乘子法求解。记M=D(X)-1/2Cov(X,Y)-1/2D(Y)-1/2,可证明求第k对典型相关变量和第k个典型相关系数的问题就是求MMT的第k个特征值和相应特征向量的问题.设特征值依次为,,l,为相应的单位正交特征向量,则入为第k个典型相关系数,且有ax=D(X)-1/21,b,=A,D(Y)Cov(Y,X)ak,(2)Uk=aTX、Vk=b T Y即为所求的第k对典型相关变量.传统典型相关分析方法用样本协方差阵S作为总体协方差阵的估计,此时a,=S-1/2i,b,=arss,S2iak,(3)式中2 为第k个典型相关系数的估计。该结果对正态总体效果理想,但对于重尾分布效果较差,且样本协方差阵受离群点影响较大。本文参考金蛟6 基于稳健散布阵进行稳健典型相关分析,即选用协方差阵的稳健估计来替代样本协差阵,同样由上述方法计算相应的特征根和特征向量,进而得到权重向量和典型相关系数.稳健散布阵的研究一直是统计学界持续关注的热点,并获得很多成果,如R、L、M VE、M CD、S、M、MM、S-M 等估计,特别是Rousseeuw等7 提出了快捷的fast-MCD算法,使得稳健散布阵得到了广泛应用.稳健散布阵估计的核心思想是使得离群值被赋予较小的权重,从而得到估计的稳健性质。本文使用fast-MCD算法得到MCD估计,进而得到权重向量和典型相关系数的稳健估计.该稳健典型相关分析方法耐抗性更好,效果见模型实证分析。1.3偏最小二乘回归偏最小二乘回归综合了典型相关分析和主成分分析的特点,在处理多重共线性方面具有传统的多元回归所没有的优势.假定m个自变量Xi,X 和p个因变量Yi,Y,均为标准化变量,n次观测样本的标准化数据阵为Xi1X1myX=Y=(4)XnlXnmynlynp分别在2 个变量组中提取第1对成分Z/、U 使其相关性达到最大,其中:Z,=WuX+.+WmXm,U,=VuYi+.+VipYp,(5)第1对成分的得分向量分别记为zi=Xw,和u=Yvi.建立X对Z和Y对Z的回归(X=ZiaT+e1,(6)(Y=ZiPT+fi.该模型为多因变量单自变量回归模型,e和f为残差阵回归系数的最小二乘估计为a/=(z/zi)zX,(7)(T=(z/z.)z,Y.若残差阵f中元素的绝对值接近0,则只用1个成分建立的回归模型已满足精度需要,否则用e和f分别代替X和Y,重复上述步骤.最后把各Z表示成各X,的线性组合并代人Y对Z的方程中,即得各因变量的偏最小二乘回归方程。本文采用“舍一交叉验证法”确定所需成分个数.即每次选出1个样本作为测试集,剩余样本作为训练集并计算其预测误差.用这种方法对所有样本循环,计算预测误差的总平方和,选择出使预测误差平方和最小的成分个数。2模型实证与优化2.1单单果质量的回归模型回归模型的协变量主要涉及土壤养分、树体结构、种植密度3个方面;土壤养分数据包括有机质、全氮、全磷、碱解氮、有效磷、速效钾、有效锌、有效铁、有效锰、有效硼、交换性钙,以及土壤pH;树体结构包含树高、冠径、面积树283李瞳辉等:基于稳健典型相关及偏最小二乘的果实品质影响分析第2 期冠体积,种植密度包含面积枝量,面积叶量和叶面积等多个指标;响应变量为各果园单果平均质量。单果质量的传统最小二乘回归结果显示众多变量中只有2 个变量(有效锌、交换性钙)显著,关于树体结构和种植密度的所有指标均不显著,且面积叶量与叶面积的回归系数符号相反,这与经验认识不符,推测各协变量间存在多重共线性,导致回归结果不理想。对土壤养分间的相关系数矩阵分析后发现土壤有机质和全氮、全磷及有效硼的相关性较强,有效铁与有效锰、交换性钙相关性较强,土壤pH则与有效磷、有效铁、有效锰和交换性钙均存在较强相关关系.这提示我们土壤各元素存在一定的协同或拮抗作用,用方差膨胀因子(VIF)对变量的多重共线性进行检测,多个VIF值较大,这解释了传统最小二乘回归效果不好的原因.为减少多重共线性的干扰,依次采取逐步回归、LASSO回归算法、岭回归及偏最小二乘方法,分别筛选显著变量参见表1.表14种回归的显著变量逐步回归LASSO回归算法变量选择解释变量estimate解释变量estimate冠径0面积枝量-0.1151树冠体积0.6895有效磷-0.0759全磷-0.7785速效钾-0.077 5碱解氮-0.3504有效锌0.2501速效钾0.191.5有效硼-0.0238有效锌-0.5819有效锰0.5791交换性钙0.591.5pH0.519 0岭回归偏最小二乘回归解释变量estimate解释变量estimate面积枝量-0.143 0面积枝量-0.3527速效钾0.093 7有效锌0.5420有效锌0.1887交换性钙0.413 9用舍一交叉验证比较各模型的预测残差平方和(PR ESS),其中普通多元回归模型为58.6,逐步回归为6 8.7,LASSO回归算法为49.4,岭回归模型为49.3而偏最小二乘回归模型为47.5.由交叉验证的结果可知,偏最小二乘回归结果较好,影响果质量的各因素中面积枝量与果质量呈现出显著的负相关关系,现有种植环境下继续增加面积枝量会降低单果质量.王红宁等8 发现:十年生和二十年生果园6 6 7 m的枝量由9万条增至10 万条时,单果质量急剧下降,下降值最大达2 5g;三十年生果园面积(6 6 7 m)枝量从7 万条增加至8 万条时,单果质量减少30 g左右.这与本文研究结果相似。果园应摒弃过去一味追求产量的经营模式,注重果实质量和品质.尤其随着树龄逐渐变大,应适度减少果园面积枝量,保持合理的种植密度和树群结构.土壤元素中对果质量正向影响较为显著的是有效锌和交换性钙.锌是膨果的重要元素,缺锌将导致果树患小叶病,影响叶片的光合作用及众多促进生物反应的酶的合成,无法进行正常的蛋白代谢。锌的出现一定程度上会提高整体吲哚乙酸的质量分数,使得植物膨果期变化明显.刘汝亮等9的研究证明,施锌可明显提高果实直径的变化速率,但土壤中大量施用钾肥会影响植物对锌离子的吸收,与锌形成拮抗,致使植物膨果期锌元素吸收不足。根据本文的结果,建议适量增加锌类微肥施用量并合理调节钾肥量.而钙元素对果质量的增加也具有十分重要的作用,膨果期施加钙肥可提高产量和果质量、果实硬度.果实采摘前1个月左右是果树吸收钙的高峰期,这一时期土壤钙质量分数不足容易影响果实生长,建议施加一定量钙肥作为补充。依据反映果实有效锌和交换性钙的指标,采取k-means聚类得到可视化聚类,如图1所示。根据研究需要,48 个果园被分为5类.由图1可见:第2 组的有效锌和交换性钙质量分数最低,果的284第59 卷北京师范大自然科学版)48463cluster2441482191473154043652260284543211623383525321-2-1012有效锌质量分数图1有效锌和交换性钙对果园聚类平均质量为18 3.3g;第5组果园土壤锌、钙质量分数较高,果的平均质量2 1