分享
基于近红外光谱技术和混合学...框架的橡胶树叶片氮含量估算_胡文锋.pdf
下载文档

ID:2574278

大小:1.12MB

页数:9页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 红外 光谱 技术 混合 框架 橡胶树 叶片 含量 估算 胡文锋
第 卷,第期 光谱学与光谱分析 ,年月 ,基于近红外光谱技术和混合学习框架的橡胶树叶片氮含量估算胡文锋,唐玮豪,李创,吴京锦,马庆芬,罗小川,王超,唐荣年海南大学机电工程学院,海南 海口 天津大学电气自动化与信息工程学院,天津 摘要叶片氮含量()是判断橡胶树营养状态的一个重要量化指标,快速准确地检测橡胶树的叶片氮含量对于保证橡胶树的生长和天然橡胶的产量是非常十分必要的。利用近红外光谱技术对 片橡胶叶片的叶面氮含量进行了定量分析,建立了高精度的预测模型,实现了对橡胶叶片氮含量的快速精准检测。采集海南橡胶叶作物实验对象,首先使用 光谱仪测量橡胶叶片的近红外光反射率数据,波长范围为 。然后,消除光谱数据中的异常样本,分别使用了三种不同的预处理方法对数据进行处理并比较它们对模型精度的提升效果。由于橡胶叶片的近红外光谱数据存在着大量的冗余信息和高度共线的光谱特征波段,因此,提出了一种基于改进后的模因框架()的结合竞争自适应重加权采样()和近邻搜索()的混合变量选择方法,采用该算法消除光谱中的冗余信息并进行二次优化,从全波段中提取 个作为建模波段。最后,使用偏最小二乘回归()和最终选取的波段建立橡胶叶片的 估算模型。为了验证所提方法的优越性,进一步使用 ,连续投影()和传统模因算法()的变量选择算法建立模型作为对比。结果表明,多元防散射效正()处理后的光谱曲线和基于 框架的 算法所建立的模型在预测集上的表现最佳:均方根误差()达到 ,决定系数()为 ,两项评价指标均优于其他的预测模型。综上所述,基于近红外光谱技术和使用混合学习 框架构建的预测模型能够很好地揭示光谱数据与橡胶树叶片氮含量两者之间的关系,可为橡胶林的养分诊断提供必要的技术支持,保证橡胶树的良好生长,以提升天然橡胶的产量和质量。关键词近红外光谱;橡胶树;机器学习;进化算法;光谱波段选择;叶面氮含量中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:海南省重点研发计划项目(),国家自然科学基金项目(),海南省自然科学基金高层次人才项目(),海南省自然科学基金创新研究团队项目()资助作者简介:胡文锋,年生,海南大学机电工程学院副教授 :通讯作者 :引言长期以来,我国天然橡胶的自给率一直低于 的安全线。虽然作为我国天然橡胶主要产地的海南岛的橡胶种植面积在 年已达 万亩,但是仍然亟需研究先进的种植管理技术以提升天然橡胶产量。因此,保证天然橡胶的质量和产量具有重要意义。快速准确地检测橡胶叶片的氮含量信息,根据此信息对橡胶林实施合理科学地施肥管理是一种非常有效的措施。目前,检测橡胶树的叶片氮含量(,)主要有两种方法。一种方法是采用传统的化学分析法,即在橡胶林采摘叶片后,带回实验室以凯氏定氮法测定氮含量,该方法会花费大量时间和巨大成本,还会对叶片结构损害。第二种方法是利用成本低、速度快和无损的近红外光谱技术(,)。虽然 检测技术在橡胶叶片氮含量的定量分析中已有成功的应用,但还存在研究较少和分析准确度不够高的问题。例如,等利用高光谱反射率估算橡胶树的叶面氮含量,模型预测集的为 。等利用分数阶微积分对光谱反射率数据进行转换,结果表明使用转换后的数据 可 以 构 建 更 精 确 的 橡 胶 树 氮 估 算 模 型,模 型 精 度 为 。由于光谱有大量的冗余和共线特征,如果不进行合理的特征筛选将会严重影响预测精度。大量研究已经证明了消除光谱波段的冗余信息后再对剩余的波段建立预测模型,预测精度明显提升。例如,等提出了基于间隔偏最小二乘法与验证标准差校正标准偏差结合()的近红外光谱波长优选方法,提高了光谱信噪比;等使用改进型随机蛙跳算法(,)对东北粳稻叶的光谱反射率数据进行特征选取,建立叶绿素含量的预测模型。特征提取后模型的相关系数()提升了;等使用蒙特卡洛无信息变量消除()结合连续投影算法(,)从 个波段中提取了 个特征波段对多个品种的梨进行硬度测定,检测精度得到提高。橡胶叶片在近红外()区域()内反射率高且反射率数据差异性大,而在可见光()()和短波红外()范围()中的反射率较低同时信息含量更少。现有的特征选择算法在解决因 光谱数据间的冗余造成预测模型不可靠的难题上有显著成效,但是,忽略了选择过程完成之后,光谱特征间的高度相似性和共线性不再是对预测模型有害的,缺少了利用光谱间的高度相似性对光谱波段进行二次优化的过程,导致可提升模型精度的有价值信息丢失。然而,该二次优化对模型精度的提升十分重要的,原因是利用光谱波段之间的相似性有利于优化方向和优化范围的确定,以保证不需要付出巨大的计算代价就能有效地提升模型预测精度。鉴于此,使用了一种改进后的一体式的框架(,)进行光谱特征波段的选择,该框架包括针对整体的全局筛选和针对个体的局部优化。由于竞争自适应重加权采样(,)算法能从橡胶叶光谱中提取关键波段并建立高精度的橡胶叶 光谱估算模型。因此使用竞争自适应重加权采样()进行全局筛选,使用贪心算法(,)对初选集合进行有方向有选择地二次优化,并通过优化后的波段建立具有精度更高和鲁棒性更强的橡胶叶片氮含量预测模型。实验部分 实验区域与橡胶叶片采集样本采集地位于中国海南省儋州市,。该区域属于亚热带气候,平均气温 。本研究的 对 象 是 中 国 热 带农业科学院试验场广泛种 植 的“”的叶片。为确保样品丰富度,在试验场不同区域随机采集成熟、完整、无病害的中间小叶 片作为试验样品,在实验室进行标注和光谱测量,然后使用化学测量方法得到对应样本的氮含量。使用 软件处理光谱数据和建立回归模型。光谱测量和叶片氮含量分析 光谱测量与数据预处理使用 光谱仪测量叶片样本的反射率图像,波长采集范围为 ,光谱采样间隔平均为 。待仪器效正完成后,每个样本依次放入移动平台测量叶片正反面的光谱反射率图像,平均后输出。由于前 个采集波段信噪比极低,因此只保留 个波段,对应的波长范围为 。最终获得了 个三维光谱数据。图为五幅叶面光谱反射率的灰度图像。图 样品在波长 时的光谱反射率灰度图像 对每一个波长的反射率图像进一步求平均,以获取样本的原始平均光谱曲线。但在原始光谱的采集过程中,会受到散射和环境中的随机噪声的干扰,因此,分别使用了三种广泛使用的预处理方法消除散射和噪声对原始数据中的干扰,包 括 多 元 散 射 校 正(,),对 数 倒 数 谱 变 换()和 标 准 正 态 变 换(,)的三种不同方法,同时分析和对比它们对模型预测精度的提升效果。经过预处理后的光谱曲线如图所示。第期 胡文锋等:基于近红外光谱技术和混合学习框架的橡胶树叶片氮含量估算图不同预处理方法转换后的平均光谱曲线():;():;():;():():;():;():;():为了排除异常样本的干扰,使用了主成分分析()对每个样本进行降维处理,将它们投影到三维空间,再利用隔离森林算法(,)根据每个样本在三维空间的分布情况进行区分。区分结果如图所示,个正常样本,个为异常样本。是一种常用的异常值检测算法,该算法通过随机选择特征,然后随机选择特征的分割值,递归地生成数据集的分区。由于和数据集中正常的点相比,异常值所需的随机分区更少。因此区分准则为:异常值是多颗树中路径较短的点,路径长度计算方法如式()和式()。()()()()()()()式中,()为调和数。()为给定个样本时的路径长度的平均值,用于标准化的路径长度()。因此,样本的异常得分定义为(,)()()()式()中,()为样本在一批孤立树中的路径长度的期望。当()时,该样本被判为异常点。图 区分的异常值和正常点的散点图 叶片氮含量的化学分析目前,凯氏定氮法已广泛用于检测食品、农作物的氮含量。利用凯氏定氮法测量剩余 个样品中的叶面氮浓度(),将得到的数值作为每个叶片样本的标签。统计直方图为图所示。图样品氮浓度统计直方图横坐标是前后刻度构成叶片氮含量区间,纵坐标表示频率,即该浓度下的样本个数 ,;橡胶叶片氮含量光谱估算模型 波段变量选择为了消除冗余特征和共线特征对预测模型参数的有害影响并对模型精度进行有针对性的二次优化,采用了基于 优化框架的特征选择方法。改进后的 框架是高效的一体式框架,由全局筛选和局部优化组成:作为全局变量筛选算法,用于消除光谱特征间的冗余性和共线性并选出在所有波段中表现好的波段作为初选子集。贪心算法近邻搜索()作为局部优化算法,利用初选子集的邻近波段对已选出的波段进行更新,进行二次优化,提升模型精度。该框架的核心思想是对光谱波段从全局到局部,整体到个体的比较与筛选,达到优化精度的目的。具体的算法框架如图所示。光谱学与光谱分析第 卷图算法流程图 全局筛选从整体角度出发,全局筛选的目的是从全波段中选出能提供更高预测精度的变量,作为初选子集。不同于原始的模因算法(,),使用竞争性自适应重加权采样()取代基于基因传播和演化的变量筛选过程,作为新的全局优化算法。其原因为,相比于传统的基因传播过程,能够更快的收敛并且受初始化的影响更小。竞争性自适应重加权采样法()是一种在光谱波段筛选中广泛使用的启发式方法,其与蒙特卡罗采样(,)和局部最小二乘回归(,)相结合。每次采样时,具有更大的回归系数绝对权值的光谱波段将被保留为新子集。大量的研究已证明将 作为变量选择算法对模型精度提升十分明显且不需要花费大量计算时间。局部优化局部优化的过程可以看作是对选出的波段个体的进一步优化。由于邻近的光谱波段之间存在着高度的共线性和相关性,通过引入了皮尔逊系数(,)以描述邻近波段之间的相关性强度,其数值越接近于说明变量之间相关性越强。图证实了光谱波长越接近,两者相关程度会更高。分析可知两个邻近的光谱波段变量拥有最强的相关性和相似性。所以使用相邻波段对初选波段进行逐个替换,有一定的机率能产生新的表现更好的模型。因此,使用了一种近邻搜索算法(),有方向性和针对性地对波段子集进行二次优化,而不需要消耗大规模的计算资源就能明显地提高模型精度,是一种代价小收益高的贪心算法。近邻搜索的具体步骤如图所示。在获得全局算法选出的子集后,再对原始子集中的逐个光谱波段个体进行更新。如果更新后的模型性能提高,保留本次更新,否则不进行更新,直接进入下一个循环。如何定义邻近域范围是使用 算法的核心问题。选择较大的范围对初选子集进行优化可找到更优秀的特征子集解,但会导致大规模计算和时间消耗,甚至出现不收敛的现象。因此,引 入 了 一 种 新 的 参 数,用 于 构 造 邻 近 区 域,。分析图可知,随着波长间隔的增加,两个波长特征之间的系数减小。当两个波段的索引间隔超过时,两者的相关系数小于等于 ,相关程度明显下降。因此令等于,即,定义邻近区域由左右三个波段(共六个)组合而成。算法的详细流程如图所示。图光谱子波段之间的相关性程度热力图 图局部优化算法流程图 第期 胡文锋等:基于近红外光谱技术和混合学习框架的橡胶树叶片氮含量估算结果与讨论 数据集划分叶片样本的光谱反射率数据集被分为校准集()和预测集(),其中预测集占比 ,校准集占比 。校准数据集一般用于调整模型的参数使得在校准集上表现最好,并使用预测数据集进行测试模型的性能。校准集与预测集分布尽可能的接近,可以更真实地反映模型预测能力。因此,使用了以下的数据集拆分方式,如表所示。表数据集划分与氮含量分布 (数据集划分)(样本数量)模型评估指标模型精度应该根据校准集和预测集来评估。均方根误差()和决定系数()用于评价预测模型的性能,两个评价指标的方程列在式()和式()中。(?)()(?)(?)(?)(?)()式中,是第个样本的预测值;?是第个样本的真实值;?是平均预测值;?为平均测量值;是样本的总数。一般来说,理 想 模 型 应 该 表 现 出 较 高 的值 和 较 低 的 值。预测结果的比较与评估数据预处理方法和特征提取算法都会对预测模型的精度有影响,需要分别评估它们对预测结果的影响。因此,使用 和用于评价模型在校准集上的表现,使用 和考察模型在预测集上的表现。光谱预处理方法评估当进一步可视化异常值消除的效果时,经 算法去除异常点后的模型结果比没有异常点消除的模型拥有更符合预期的精度,如表所示,提高了 ,明显提

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开