温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
模型
滑坡
易发性
评价
樊哲
数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering240近年来随着计算机运算能力的提升和研究的不断深入,越来越多基于数据的方法被应用于滑坡易发性预测。基于数据驱动的方法大体上有两种类型:一种是以概率论为基础研究社会和自然界中大量随机现象变化规律的数理统计模型,常用的数理统计模型有频率比模型、信息量模型、熵指数模型、确定性系数模型等1-4。这些模型相较于传统的知识和物理模型可以最大限度的消除主观因素对是研究结果的影响,并取得了不错的效果。另一种是基于计算机技术发展的机器学习模型,包括无监督分类模型聚类、数据降维等,监督学习模型逻辑回归(LR)、人工神经网络(ANN)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、极端随机树(ERT)、贝叶斯网络(NB)、线性和二次判别分析(QDA)、K 近邻(KNN)、梯度提升算法(GB)和模糊神经网络(NF)等5-8。机器学习算法不仅能高效的对滑坡易发性进行评价,还可以对易发区位置进行精准的定位,受到了国内外学者的欢迎。1 研究区和数据1.1 研究区介绍研究区位于中国西南山区的都汶公路沿线(图 1),地理范围为北纬 30 54-31 36和东经 103 14-10345,面积925平方公里。该区域主要位于龙门山区,包括龙门山、茶坪山、九顶山,地势总体沿线北上,海基于聚类-机器学习模型的滑坡易发性评价樊哲甄艳康锦涛(西南石油大学地球科学与技术学院 四川省成都市 610500)摘要:本文使用机器学习算法对都汶公路沿线滑坡易发性进行预测。通过野外地质调查和数据搜集分析,选取高程、坡度、坡向、平面曲率、地震烈度、地质年代、岩性、水系距离、降水分级、NDVI 和公路距离等 11 个影响因子,构建滑坡易发性评价模型。采用随机森林模型、XGBoost 模型和逻辑回归模型对研究区的滑坡易发性进行预测,最后采用 ROC 曲线、95%置信区间和 Kappa 值对模型进行评价。通过对比我们发现 XGBoost 模型在准确性、稳定性和一致性方面均优于随机森林模型和逻辑回归模型,是都汶公路沿线滑坡易发性评价最优模型。关键词:随机森林;XGBoost;逻辑回归;都汶公路图 1:都汶公路(红色标记道路)研究区位置和滑坡清单图数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering241拔逐渐升高。区内新构造运动强烈,活动断裂带构造变形复杂,中元古界至第四系均有发育,龙门山断裂带前缘发育的中三叠统侏罗系最全。都汶公路是西部交通干线和重要国防通道,也是四川省大九寨沟旅游环线的重要通道,在四川省的公路网中占有重要地位。1.2 空间数据库准备本研究滑坡易发性建模基本流程如图 2。2 模型与方法2.1 随机森林模型随机森林分类的基本步骤为:首先,利用 bootstrap抽样从原始训练数据集中抽取 k 个样本,并且每个样本的样本容量都和原始训练数据集一样;其次,对 k 个训练样本分别建立 k 个决策树模型,分别得到分类结果;最后,根据 k 种分类结果对每一个记录进行投票表决得到分类结果9。其投票方式如下所示:(1)其中,H(x)表示组合分类模型,h(i)是单个决策树分类模型,Y 表示输出变量,I()为示性函数。2.2 XGBoost模型XGBoost 模型是一种基于梯度 Boosting 的集成学习模型,其原理是通过对弱分类器的结果的迭代实现准确的分类效果10。其主要步骤如下:(1)将所有训练数据集赋予相同权重;(2)进行第 m 次迭代,每次迭代采用分类算法进行分类,采用公式计算分类的错误率:(2)式中 i代表第 i 个样本的权重,Gm代表第 m 个分类器;(3)计算 a_m=log(1-errm)/errm);(4)对于第 m+1 次迭代,将第 i 个样本的权重 i重置为;(5)完成迭代后得到全部的分类器,采用投票方式得到每个样本的分类结果。2.3 逻辑回归模型图 2:滑坡易发性建模流程图数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering242逻辑回归分析方法,其逻辑函数的形式为:(3)根据离散型随机变量期望值的定义,用 P 代表自变量为 x 时 y=l 的概率,可得:(4)由于函数 f(p)对 x 的变化在 f(p)=0 或 f(p)=l 的附近是不敏感的,并且非线性程度较高,因此引入 f(p)的Logistic 变换,即:(5)此时,可计算 P 的概率:(6)3 结果3.1 模型的验证和对比受试者工作曲线(ROC)也被称为成功率曲线,它对应的 AUC 值给出了模型准确性的定量表示,取值范围在 0-1 之间(图 3)。结果显示 XGBoost 模型的 AUC值最高(AUC=0.97),说明 XGBoost 模型预测的准确性优于另外两个模型。置信区间是指由样本统计量所构造的总体参数的估计区间,区间的宽度越窄模型在滑坡易发性预测中具有稳定性好和可靠性高等有点。从计算结果可以看出,XGBoost 模型的 95%置信区间宽度最窄,在稳定性和可靠性上高于其他模型。为了验证模型预测值和真实值的一致性,我们选择了 Kappa 值进行一致性检验。Kappa 值即内部一致性系数,是作为评价一致性程度的重要指标。三个模型的 Kappa 值分别为 0.806、0.876 和 0.706,从结果可以看出逻辑回归模型的 Kappa 值最低(Kappa 0.706),说明逻辑回归模型对滑坡易发性的预测值和真实值之间的一致性一般;随机森林模型和 XGBoost 模型的 Kappa值都大于0.8,说明两者对于滑坡易发性预测效果更好,其中 XGBoost 模型在这三个模型中的表现最好(Kappa=0.876)。如表 1。表 1:各模型精度评价AUC95%置信区间Kappa随机森林0.96(0.951-0.968)0.806XGBoost0.978(0.971-0.984)0.876逻辑回归0.92(0.907-0.933)0.7063.2 滑坡易发性制图XGBoost 模型主要通过 R4.0.2 实现。首先利用训练数据集构建 XGBoost 模型,然后使用测试数据集检验模图 4:XGBoost 模型滑坡易发性分区图 3:ROC 曲线数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering243型的预测能力,最后使用训练后的 XGBoost 模型对研究区域滑坡易发性进行预测。采用等间距划分法将结果划分为极低易发区(0-0.2)、低易发区(0.2-0.4)、中易发区(0.4-0.6)、高易发区(0.6-0.8)和极高易发区(0.8-1),如图 4 所示。4 讨论本研究的意义在于:(1)实验得到三个滑坡易发性模型的预测值并制作滑坡易发性分区图,使用 ROC 曲线、95%置信区间和 Kappa 值对三个模型进行评价。总体上三个模型在该地区的滑坡易发性评价中都有很好的适用性,其中XGBoost 模型为都汶公路沿线滑坡易发性评价最优模型。(2)都汶公路沿线滑坡总体上沿公路和高程较低的区域分布,并且研究区北部的滑坡发生概率明显高于南部发生概率。北部公路沿线应该作为防灾减灾工作的重点地区。(3)本研究的技术流程在都汶公路沿线地区的滑坡易发性评价中取得了很好的效果,可以为其他地区的滑坡易发性研究提供参考。参考文献1 ADITIAN A,KUBOTA T,SHINOHARA Y.Comparison of GIS-based landslide susceptibility models using frequency ratio,logistic regression,and artificial neural network in a tertiary region of Ambon,IndonesiaJ.Geomorphology,2018,318:101-111.2 KHAN H,SHAFIQUE M,KHAN M A,et al.Landslide susceptibility assessment using Frequency Ratio,a case study of northern PakistanJ.The Egyptian Journal of Remote Sensing and Space Science,2019,22(1):11-24.3 MARIN R J,VELSQUEZ M F,SNCHEZ O.Applicability and performance of deterministic and probabilistic physically based landslide modeling in a data-scarce environment of the Colombian AndesJ.Journal of South American Earth Sciences,2021,108:103175.4 KORNEJADY A,OWNEGH M,BAHREMAND A.Landslide susceptibility assessment using maximum entropy model with two different data sampling methodsJ.CATENA,2017,152:144-162.5 张福浩,朱月月,赵习枝,等.地理因子支持下的滑坡隐患点空间分布特征及识别研究 J.武汉大学学报(信息科学版),2020,45(08):1233-1244.6 黄龙,孙倩,胡俊.基于 InSAR 与随机森林的滑坡敏感性评价与误差改正 J.测绘通报,2022(10):13-20.7 王念秦,郭有金,刘铁铭,等.基于支持向量机模型的滑坡危险性评价 J.科学技术与工程,2019,19(35)70-78.8 CHEN W,POURGHASEMI H R,KORNEJADY A,et al.Landslide spatial modeling:Introducing new ensembles of ANN,MaxEnt,and SVM machine learning techniquesJ.Geoderma,2017,305:314-327.9 ZHOU X,WEN H,ZHANG Y,et al.Landslide susceptibility mapping using hybrid random forest with GeoDetector and RFE for factor optimizationJ.Geoscience Frontiers,2021,12(5):101211.10 ZHANG J,MA X,ZHANG J,et al.Insights into geospatial heterogeneity of landslide susceptibility based on the SHAP-XGBoost modelJ.Journal of Environmental Management,2023,332:117357.作者简介樊哲(1996-),男,河南省洛阳市人。硕士研究生。研究方向为地质灾害防治。甄艳(1985-),女,四川省成都市人。博士学历,副研究员。研究方向为时空大数据挖掘/地理国情监测/地质灾害监测分析。康锦涛(1997-),男,山西省吕梁市人。硕士研究生。研究方向为机器学习岩性预测。