基于
梯度
提升
决策树
算法
水深
反演
研究
孟然
第4 5卷 第1期2 0 2 3年 2月海 洋 湖 沼 通 报T r a n s a c t i o n so fO c e a n o l o g ya n dL i m n o l o g yV o l.4 5 1F e b.,2 0 2 3基于梯度提升决策树算法的水深反演研究孟 然1,2,3,沈 蔚1,2,栾奎峰1,2*,纪 茜1,2,3,饶亚丽1,2,3(1.上海海洋大学 海洋科学学院,上海2 0 1 3 0 6;2.上海河口海洋测绘工程技术研究中心,上海2 0 1 3 0 6;3.南通智能感知研究院,江苏 南通2 2 6 0 0 0)摘 要:传统的水深测量方法多通过舰载声纳实地探测的方法,灵活性较差且水深资料更新周期长,并且在某些海域,船只往往难以靠近从而无法完成测量。本文使用七连屿海域附近的W o r l d V i e w-2多光谱遥感影像构建了基于梯度提升决策树(G r a d i e n tB o o s t i n gD e c i s i o nT r e e,G B D T)算法的水深反演模型,并利用单波束与人工测量相结合的水深数据,与传统的单波段模型、双波段模型以及B P神经网络水深反演模型的水深数据进行了水深反演精度对比。结果表明,在02 0m深海域,G B D T模型反演精度高于其他模型,且更符合实际水深,其检验点的R2为0.9 6 6 4,RM S E为0.9 4m,MA E为0.7 5m,RME为1 9%。关键词:七连屿;W o r l d V i e w-2;G B D T;水深反演;精度对比中图分类号:T P 7 9 文献标志码:A 文章编号:1 0 0 3-6 4 8 2(2 0 2 3)0 1-0 4 5-0 6D O I:1 0.1 3 9 8 4/j.c n k i.c n 3 7-1 1 4 1.2 0 2 3.0 1.0 0 7引 言海洋是国家发展的战略性资源,是衡量国家综合实力的重要指标,水深数据作为基础数据,在开发海洋资源、海洋航运等领域起着至关重要的作用。由于传统水深测量方法费时费力,近年来利用遥感影像进行水深反演的研究也越来越受关注。遥感技术具有大面积、实时、快速等优势,且遥感影像中不同波段之间隐含着大量的潜在信息,通过遥感影像上一些可测定的物理参数反推水深数据的间接测量方法已有人使用。L y z e n g e等1基于底层反射模型,将波段的辐射亮度值与实测水深通过线性回归进行反演,从而获得了水深的信息。S p i t z e r等2通过分析辐射传输模型与反射光谱特征,提出了双流程辐射模型。P o l c y n等3、T a n i s等4提出一种基于水体底部光谱反射原理的水深反演模型。然而,这些传统的水深反演模型难以应对愈来愈高的水深精度要求,此外,它们对遥感影像的质量要求较高、抗干扰能力较弱。近年来,应用机器学习反演水深算法愈发火热。吴忠强5等基于极限学习机的浅海水深遥感反演研究。徐琳等6基于神经网络技术的多因子遥感水深反演研究。黄山等7通过支持向量机模型进行水深反演。邓正栋等8采用径向(R B F)神经网络进行水深遥感研究。曹斌等9通过B P神经网络进行水深反演。然而这些模型都存在一定的局限性,例如支持向量机模型对大规模样本训练速度慢且精度较低,神经网络在提高性能的同时会丧失对结果的可解释性等。梯度提升决策树(G B D T,G r a d i e n tB o o s t i n gD e c i s i o nT r e e)近年来被广泛应用于各个领域,具有较强的泛化能力,能灵活的处理各种类型的数据包括非线性数据,连续值与离散值,在样本数量很大的情况下也有很好的运行效果。金秀1 0基于梯度增强决策树的高光谱回归方法预测土壤有效磷,S e n y a nY1 1将G B D T算法用于可见光、近红外、短波红外光谱反演土壤性质,从而解决了复杂的非线性问题。目前,G B D T在水深反演的模型构建与应用实践方面等尚未完善。基金项目:国家重点研发计划(2 0 1 6 Y F C 1 4 0 0 9 0 4);上海市科委重点科研计划(1 7 D Z 1 2 0 4 9 0 2);上海市海洋局科研项目(沪海科2 0 1 9-5,沪海科2 0 2 0-5)第一作者简介:孟 然(1 9 9 7),男,硕士研究生,主要从事海洋遥感方面的研究。E-m a i l:r m e n g 0 6 91 6 3.c o m*通信作者:栾奎峰(1 9 8 1),博士,主要从事激光雷达和海洋观测方面的研究。E-m a i l:k f l u a n s h o u.e d u.c n 收稿日期:2 0 2 0-0 6-1 04 6 海 洋 湖 沼 通 报2023年对此,本文获取了七连屿海域附近的W o r l d V i e w-2多光谱遥感影像,构建了基于G B D T算法的水深反演模型,建立了该海域的水深机器学习数据集S S 2 0(包含训练集与测试集)。基于S S 2 0水深数据集训练G B D T反演模型,并与实测水深对比,为更加有效精准的水深数据反演提供了参考依据。1 反演模型介绍1.1 线性回归模型(1)单波段线性回归模型是由P o l c y n等1 2利用比尔定律,对电磁波在水体中的辐射传输方程进行了深入研究推导出的。其模型表达式如下式所示:D=al nL()-Ls()+b(1)(2)双波段线性回归模型是由S t u m p f等1 3提出的,其模型表达式如下式所示:D=al nL(1)-Ls(1)L(2)-Ls(2)+b(2)在单波段水深反演模型表达式与多波段水深反演模型表达式中,D代表反演水深值,L(n)表示的是传感器接收到n波段的辐射值,Ls(n)表示的是n波段深水区的辐射值,在这里通过R O I手动选择深水区并以R O I里深水区像元的平均波段值作为深水区的值并代入公式进行计算。其中1、2波段分别为蓝波段与绿波段。a、b是回归系数,通过部分实际水深数据、影像的像元值和选定的深水区平均像元值进行回归分析计算获得单波段对应的经验常数a和b,进而将经验参数应用到其他水体区域来反演水深。1.2 B P神经网络模型B P神经网络(B a c k-P r o p a g a t i o nN e t w o r k)是多层前馈神经网络,其误差是按照逆向传播算法训练的。在训练过程中,B P神经网络能不断的修改网络权值和阈值,从而使误差函数沿着梯度方向的反方向下降,进而使输出的数接近期望。经过试验调节优化参数,最终确定本次神经网络参数为:学习速率取0.0 1;隐藏节点为1 0;最大训练次数为10 0 0。1.3 G B D T模型G B D T是F r i e d m a nJ1 4在2 0 0 1年提出的一种迭代决策树算法,该算法在数据挖掘领域具有深远的影响。G B D T属于B o o s t i n g1 5算法,通过构建健壮的损失函数,在训练过程中不断减小残差来达到数据的回归。其算法核心是计算上一轮迭代的负梯度,从而往残差下降的梯度方向上建立新的决策树,通过不断的迭代计算得到更加精确地计算结果,因此,G B D T的各个预测函数必须采用序列化的串行方式顺序生成,后一个模型参数需要前一轮模型的结果。G D B T算法能将一族个体学习算法提升为强学习算法。G B D T以迭代生成C A R T回归树的方式逐步降低计算结果的误差。因此,在迭代过程中会限制单个C A R T回归树的最大深度1 6。图1为G B D T算法示意图。图1 G B D T算法示意图F i g.1 G B D Ta l g o r i t h ms c h e m a t i c其具体工作原理为对输入模型的训练样本(x1,y1),(x2,y2),(xn,yn),计算其损失函数1期基于梯度提升决策树算法的水深反演研究4 7 L(y,f(x),迭代次数为n=1,2,3,N。对每个样本i=1,2,I计算残差:Ti n=-L yi,f xi()()f(xi)f(x)=f(n-1)(x)(3)将上一步得到的残差作为样本新的真实值,并将(xi,Ti n)作为下棵树的训练数据,从而更新回归得到新的回归树。对回归树的每个叶子节点,范围为Ek n,k=1,2,K,K=输入样本个数,在这里每个叶子节点将得到预测值,并计算损失函数,得到最优的拟合值:k n=a r g m i nxEk nL yi,fn-1xi()+()(4)通过更新学习器:Fn(x)=Fn-1(x)+Jk=1k nI xEk n()(5)得到最终的学习器:Fn(x)=Nn=1Kk=1Tn kxEk n()(6)在G B D T算法运行过程中,通过输入各波段值与水深实测值进行迭代更新,并对每次迭带代的预测值与对应的实测水深值进行差运算得到残差,以此为基础进行迭代更新直到达到设定的迭代次数并输出最终的预测值。图2 七连屿研究区示意图F i g.2 Q i l i a n y uS t u d ya r e as c h e m a t i c s2 实验与分析2.1 区域概况如图2所示,研究区七连屿位于中国西沙群岛里宣德群岛东北部,是包括西沙洲、赵述岛、东新沙洲、西新沙洲、及其附近礁盘的 总称1 7,研究区范 围为1 6 5 5 1 6 6 1 N,1 1 2 1 1 1 1 2 1 9 E。此海区水质清澈,悬浮物泥沙等较少,是一个理想的水深反演模型场所。2.2 数据来源与应用本次研究使用的遥感影像为W o r l d V i e w-2多光谱卫星影像,多光谱空间分辨率为2m,全色波段空间分辨率为0.5 m,成 像 时 间 为2 0 1 7年3月1 1日0 3:3 3(UT C)。影像有蓝(B l u e)、绿(G r e e n)、红(R e d)、近红外(N I R)四个波段。本次研究对W o r l d V i e w-2数据进行辐射定标、大气校正、耀斑消除等预处理1 8。实测水深数据是由国内某研究所用单波束和人工测量相结合的方法实测获得的,采集时间为2 0 1 4年3月2日,测深精度小于0.1 5m。由于遥感影像与实测水深数据之间存在时间间隔,通过中国海事服务网下载该区域内的潮汐数据,遥感影像获取时刻的瞬时水深值等于实测水深值加上该时刻的潮位值1 9。根据实测的坐标点数据,利用A r c g i s提取遥感图像上对应位置的各个波段的像元值。用I D L编程建立单波段与双波段水深反演模型,利用R语言建立B P神经网络模型,利用P y t h o n建立G B D T模型,并调节参数使得模型达到最优。本文参考水深反演相关文献2 0-2 2,采用均方根误差(RM S E)、平均相对误差(RME)、平均绝对误差(MA E)作为对模型反演精度进行定量评价的指标,同时比较相关系数R2的值,来判断通过模型反演的水深数据与对应的实测水深数据的拟合效果。2.3 反演结果及精度对比通过对实测的点云进行抽稀,采集共计6 5 0个点作为样本点,并通过e n v i提取遥感影像上样本点对应的各波段像元值,选取水深训练点与水深检测点如图3所示,其中包括5 0 0个训练样本与1 5 0个检验样本。4 8 海 洋 湖 沼 通 报2023年利用5 0 0个训练样本,以实测点对应的遥感影像中B 2(绿波段)的像元值作为自变量,反演水深作为因变量进行单波段水深反演。以实测点对应的遥感影像中B 1(蓝波段)、B 2(绿波段)的像元值作为自变量,反演水深作为因变量进行双波段水深反演。以B 1、B 2、B 3(红波段)、B 4(近红外波段)与其波段之间的比值作为B P神经网络,G B D T模型的自变量,经潮位修正后的实测水深数据作为因变量,进行水深反演,构造模型。在G B D T模型中,各个变量的重要性是通过特征在单棵树中的重要度的平均值来衡量,图4表示了各个自变量的重要程度。可以看出,在输入模型的1 0个变量中,B 1/B 2重要性最大,表明这两波段的比值与水深的关系最紧密,因为