温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
XGBoost
算法
吉林省
对流
天气
分类
识别
研究
第 30 卷第 2 期2023 年 6 月气象灾害防御METEOROLOGICAL DISASTER PREVENTIONVol.30 No.2June.2023收稿日期院2023-05-23作者简介院杨鹤渊1988-冤袁男袁汉族袁硕士学位袁工程师袁主要从事计算机网络研究袁遥1引言气象灾害造成的损失平均每年都占全部自然灾害损失的 70%以上1遥 强对流天气的破坏力强袁常给设施农业尧人民生活等造成危害和影响袁其产生的冰雹尧大风尧龙卷和强降水等灾害性天气通常是指强对流天气2-3遥静力不稳定尧水汽和抬升触发是产生深厚湿对流的 3 个要素4-5遥 目前气象部门使用的 SWAN 系统对冰雹的 POD 和 FAR 在 90%以上6遥强对流天气的分类判别在临近预报还存在较多不足袁 因此在强对流天气预报预警方面需要利用新的技术袁从而提升防灾减灾的服务效果遥机器学习是人工智能的一个分支袁 是计算机程序算法利用历史数据进行训练袁 得出模型评估结果袁伴随着历史数据模型结果不断提高的过程遥杨璐等7利用 XGBoost尧SVM尧DNN 建立了降水相态的高分辨率客观分类模型袁 并且做了预报效果的对比检验遥 朱岩等8利用 XGBoost 算法建立模型对 EC 细网格模式的再分析场计算诊断参量袁并结合重庆地区 2011要2014 年 5要9 月短时强降水个例进行训练袁 模型对近年来短时强降水过程的回报 TS 高于 EC 并与常规业务水平持平遥 刘新伟等9利用 LightGBM 算法对甘肃 3 个地区的 C波段雷达回波产品以及地面观测数据进行训练袁分类判识了 3 类主要的强对流天气遥 刘娜等10建立 SCWDS 系统为强对流天气机器学习提供数据支撑遥综上所述袁本文使用 44 种特征值渊包括 4 种雷达产品和 40 种环境变量冤袁 使用 9 种机器学习分类方法袁 选择针对本文特征值得分最高的 XG鄄Boost 集成学习算法袁构建强对流天气分类识别模型遥利用模型对冰雹尧雷暴大风和降水进行分类识别袁通过 ROC/ACU 和精确率等评价方法对模型进行评估遥2XGBoost 算法及检验方法2.1XGBoost 集成算法机器学习一般按照学习方式分为监督式学习和非监督式学习遥 监督式学习应用分类任务和回归任务袁分类任务预测的标签是离散型袁回归类任务预测的标签是连续型遥集成学习是通过构建并结合多个机器学习器基于 XGBoost 算法的吉林省强对流天气分类识别研究杨鹤1马洪波2孙韦男1刘宗尧3渊1.吉林省气象信息网络中心袁吉林长春130062曰2.吉林省气象台袁吉林长春130062曰3.吉林省气象探测保障中心袁吉林长春130062冤摘要院 利用 2016要2021 年吉林省 C 波段雷达回波产品和 ERA5 再分析资料袁 基于人工智能集成算法XGBoost袁构建了分类识别的 3 类强对流天气渊冰雹尧短时强降水和雷暴大风冤模型遥研究表明袁3 类强对流天气的平均命中率渊POD冤为 81.73%袁平均临界成功指数渊CSI冤为 69.43%袁平均空报率渊FAR冤为 17.99%遥POD 最高为短时强降水的 87.50%袁CSI 最高为雷暴大风的 74.19%袁FAR 最低为雷暴大风的 14.81%袁其中短时强降水和雷暴大风的评分结果接近遥 特征值结果显示袁风暴最大反射率因子顶高渊MCRT冤尧风暴移动速度渊SPEED冤尧风暴最大反射率下降高度渊DCRH冤尧风暴最大反射率因子渊MCR冤和 600 hPa 温度场对于本文构建的 XGBoost 模型判别强对流类别的重要性最高遥 总体来说基于 XGBoost 算法构建的模型对强对流天气分类较为理想袁 在未来的强对流天气自动化识别尧 预警及预报的工作中具有广阔的应用前景遥关键词院XGBoost 算法曰人工智能曰强对流天气曰分类识别第 2 期图 1机器学习建模技术路线来完成学习任务袁 比单一学习器有更显著的泛化性能11遥 泛化能力是指机器学习算法对新鲜样本的适应能力遥 学习的目的是学到隐含在数据背后的规律袁对具有同一规律的学习集以外的数据袁经过训练后网络也能给出合适的输出袁 该能力称为泛化能力遥 集成算法一般分为 Bagging尧Boosting尧Stacking袁 常见的有随机森林尧AdaBoost尧CART尧GBDT尧XGBoost尧LightGBM遥 树的集成模型是机器学习中最为强大的模型之一袁特点是精确性好尧使用场景多袁但风险高尧运行缓慢袁容易出现过拟合或欠拟合遥 过拟合是指训练误差和测试误差之间的差距太大遥 换言之就是模型复杂度高于实际问题袁模型在训练集上表现很好袁但在测试集上却表现很差遥 欠拟合是指模型不能在训练集上获得足够低的误差遥换言之就是模型复杂度低袁模型在训练集上就表现很差袁没法学习到数据背后的规律遥XGBoost 针对其缺点进行了 2 个关键改进袁 一是精确性与复杂度之间的平衡曰 二是极大程度地降低模型复杂度袁提升模型运行效率袁使算法更加适合大数据的算法遥本研究技术路线分为 5 个步骤院数据收集建立尧多种机器学习方法建模尧K 折交叉验证尧模型评估和可视化袁机器学习建模技术路线如图 1遥XGBoost 是集成树模型袁 它使用的是 K 棵CART 回归树对样本预测值的和作为预测结果袁函数式为院y 赞i=椎渊Xi冤=Kk=1移fk渊Xi冤渊1冤式中袁Xi表示第 i 个样本曰f渊x冤表示单个数的结构和叶子节点权重曰椎 表示所有 k 个数的集成遥XGBoost 目标函数由经验风险和结构风险组成袁向着令目标函数最小化的方向运行袁 优化的目标函数式为院L渊椎冤=Ii=1移L渊y 赞i袁yi冤+Kk=1移赘渊fk冤渊2冤赘渊f冤=酌T+12姿 棕2+琢棕渊3冤式中袁l渊y 赞i袁yi冤表示单一样本的损失函数曰赘 控制模型复杂度曰 y 赞i表示第 i 个样本的模型预测值曰yi表示第 i 个样本的真实标签曰K 表示树的棵数曰fk表示第 k 颗树曰T 表示每棵树的叶子节点数量曰酌表示复杂度惩罚项渊超参数 gamma冤曰姿 表示 L2 正则项系数渊超参数 lambda冤曰琢 表示 L1 正则项系数渊超参数 alpha冤曰棕 表示每棵树的叶子权重遥 XG鄄Boost 模型中的优化参数模型 fk袁不是一个具体的值袁不能在欧式空间中进行优化袁而是采用 addi鄄tive training 方式袁每一次保留原来的模型不变袁加雷达回波数据ERA5 再分析资料噎噎数据集建立归一化处理噎噎训练集测试集训练模型特征工程强对流天气分类识别模型深度学习XG BoostLight GBM随机森林朴素贝叶斯支持向量机逻辑回归KNN人工智能模型测试集调参尧检验评价预报产品特征值得分排序图ROC/AUC 图实况和预测对比检验图杨鹤袁等院基于 XGBoost 算法的吉林省强对流天气分类识别研究29气象灾害防御第 30 卷超参数参数值超参数参数值学习率0.1每棵树随机采样比例0.5决策树数量100每棵树随机采样列数的占比0.8L1 正则化项0.01树的最大深度5L2 正则化项0.6最小叶子结点样本权重和2分裂所需的最小损失函数下降值0.01表 1各类强对流天气的样本数及标签入一个新的函数到模型中遥2.2调参过程XGBoost 超参有很多袁集成算法有学习率尧决策树数量等袁弱评估器有最大深度尧最小叶子节点权重等袁其他过程有随机种子尧样本不平衡度等遥调参一般步骤是先确定学习率和通用参数的初始值袁再依次按照树的最大深度尧最小叶子节点权重和尧 分裂所需要的最小损失函数下降值和每棵树采样率等参数袁 最后降低学习率和使用更多的决策树遥常 用 的 调 参 算 法 有 院 网 格 搜 索 渊Grid鄄SearchCV冤尧随机搜索渊RandomSearchCV冤和贝叶斯优化调参渊Bayesian optimization冤遥 本文使用的调参方法有网格搜索尧交叉验证和学习曲线袁穷举式调参算法通过循环遍历尝试每种参数组合的可能性袁将平均得分最高的组合作为最佳的选择袁即实例化模型袁做 cv 次交叉验证袁返回最佳参数渊bestparams冤和最佳得分渊best score冤遥 K 折交叉验证渊cross val score冤袁即将用于训练的数据分为 K 份袁每次取 1 份为测试集袁渊K-1冤份为训练集袁经过 K次训练和测试得到结果的平均值渊表 1冤遥3资料及模型检验方法3.1建模自变量介绍本文资料使用吉林省 2016要2021 年冰雹尧短时强降水和雷暴大风共 709 例强天气案例遥 使用44 种特征值袁 包括 4 种雷达实况产品和 40 种环境量 渊表 2冤遥 4 种雷达实况产品包括 C 波段雷达渊CC 型号冤的风暴最大反射率因子渊MCR冤尧风暴最大反射率因子顶高 渊MCRT冤尧 风暴移动速度渊SPEED冤和风暴最大反射率下降高度渊DCRH冤遥 40种环境量包括 2016要2021 年 1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa尧200 hPa的 ERA5 再分析资料的温度尧 露点温度尧 位势高度尧u-wind尧v-wind袁共计 40 种环境量遥将雷达强对流回波识别分为短时强降水尧雷暴大风尧冰雹 3 类遥冰雹的定义为院5 mm 直径以上的固态降水遥 雷暴大风的定义为院17.2 m/s 以上的大风袁为了区别系统大风袁结合之前统计的雷达指标袁 发生冰雹和雷暴大风时反射率因子大于等于45 dBz袁对雷达回波强度进行筛选袁识别 45 dBz 以上的回波遥 本研究标签分类设置短时强降水为 0袁雷暴大风为 1袁冰雹为 2遥训练集中样本个数院短时强降水 191 个袁雷暴大风 214 个袁冰雹 162 个遥 测试集中样本个数院短时强降水 48 个尧雷暴大风 54个和冰雹 40 个遥3.2资料归一化处理处理分类问题时袁 由于特征值有 4 种雷达产品和 40 种环境量袁单位不同袁差值太大从而导致类别数据单位雷达渊4 种冤风暴最大反射率因子渊MCR冤dBz风暴最大反射率因子顶高渊MCRT冤km风暴移动速度渊SPEED冤m/s风暴最大反射率下降高度渊DCRH冤kmERA5渊40 种冤温度袁包括院1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa 和 200 hPa益露点温度袁包括院1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa 和 200 hPa益位势高度袁包括院1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa 和 200 hPadagpmu-wind袁包括院1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa 和 200 hPam/sv-wind袁包括院1 000 hPa尧925 hPa尧850 hPa尧700 hPa尧600 hPa尧500 hPa尧400 hPa 和 200 hPam/s表 2数据类型30第 2 期模型训练效果不好袁 需要均一化处理将数据映射到同一尺度中遥 常用的方法有最值归一化和均值方差归一化袁本文采用均值方差归一化方法袁此方法是对最值归一化的 outlier 影响进行改进袁 适用于数据分布没有明显的边界袁 整体数据集中存在极端的数据集袁即使有明显的边界袁使用这种方法也是可以的袁具体公式为院Xscale=渊X-Xmean冤/S渊4冤式中袁Xscale为均值方差归一化的结果曰Xmean为原始特征的均值曰S 为原始特征的方差遥3.3评价指标机器监督学习的分类常用的评价指标有准确率 渊Accuracy冤尧精 确 率 渊Precision冤尧召 回 率 渊Re鄄call冤尧F-score尧ROC 曲线尧AUC尧MAP尧FPR 和 FNR等遥 回归类常用的评价指标有残差平方和渊SSE冤尧均方误差渊MSR冤尧均方根误差渊RMSR冤尧平均绝对误差渊MAE冤尧R-square遥 判别强对流天气类别是分类问题袁本文使用 ROC/AUC袁以及便于判别强对流天气识别和预报效果12的命中率渊POD冤尧临界成功指数渊CSI冤和空报率渊FAR冤遥 多分类问题袁可以将其中一个类型的判别结果袁分为预报和实况袁再细分为发生和未发生袁 混淆矩阵反映了资料真实值和模型预测值的关系袁 将实况正类预报为正类用 TP渊true positive冤表示袁将实况正类预报为负类用 FN渊false negative冤表示袁将实况负类预报为正类用 FP渊false positive冤表示袁将实况负类预报为负类用 TN渊true negative冤表示遥 ROC渊Receiver oper鄄ating characteristic冤受试者特征曲线是一个二维平面空间中的一条线13袁横坐标 FPR渊the false posi鄄tive rate冤伪正类率袁预报为正实况为负的样本占所有预报错的比例袁如式渊5冤所示遥 纵坐标 TPR渊the true positive rate冤真正类率袁也就是召回率袁预报和实况为正的样本占所有预报正确的比例袁如式渊6冤所示遥 ROC 曲线绘制是阈值从 1 逐渐降低到 0袁阈值高于每个指标真类的预测概率袁则预测正袁反之则为负袁计算得到 FPR 和 TPR 组成的坐标袁连接成线的过程遥FPR=FP/渊FP+TN冤渊5冤TPR=TP/渊TP+FN冤渊6冤AUC渊Area Under Curve冤是横坐标与 ROC 曲线下的面积袁AUC 越接近 1袁说明这个分类器越适合曰AUC 接近 0.5袁说明分类器预测是随机猜测袁结果没有价值曰AUC 值越大袁一般来说分类器越好遥命中率渊POD袁Probability of Detection冤尧临界成功指数 渊CSI袁Critical Success Index冤 和空报率渊FAR袁False Alarm Rate冤如式渊7冤尧式渊8冤尧式渊9冤所示遥POD=TP/渊TP+FN冤渊7冤CSI=TP/渊TP+FP+FN冤渊8冤FAR=FP/渊TP+FP冤渊9冤4结果分析4.1特征值分析自变量重要性相对越高袁 那么它会越多的被用来在模型中构建决策树遥 自变量重要性通过对数据集中的每个自变量进行计算和排序前 20 得到图 2袁 特征值超过 100 分的有 5 项袁 分别是MCRT尧SPEED尧DCRH尧MCR 和 600 hPa 温 度 场渊600T冤袁表明在冰雹尧雷暴大风和短时强降水的强天气过程中这 5 项自变量有明显差异袁 有助于模型识别强天气类型袁其中自变量 MCRT 对于 XG鄄Boost 判别强对流类别的重要性最高遥 特征值低于30 分的有 8 项袁 分别是 500 hPa 高度场渊500Z冤尧500 hPa 温度场 渊500T冤尧925 hPa 高度场渊925Z冤尧200 hPa 高度场 渊200Z冤尧700 hPa 高度场渊700Z冤尧600 hPa 高度场渊600Z冤尧400 hPa 温度场渊400T冤和600 hPa 温度场渊600T冤遥因为 XGBoost 模型在判别强天气类型的结果是自变量综合判别的过程袁所以这 8 项自变量对于模型有着一定的意义遥4.2模型效果评估模型采用吉林省 2016要2021 年短时强降水尧雷暴大风和冰雹共 567 例强对流天气案例进行训练袁再使用 142 例强对流天气案例进行测试袁通过5 折交叉进行验证评分袁结果如表 3遥XGBoost 模型在短时强降水尧 雷暴大风和冰雹 这 3 类 强 对 流 天 气 识 别 中 袁POD 分 别 为87.50%尧85.19%和 72.50%袁平均 POD 为 81.73%袁短时强降水最高袁为 87.50%遥 CSI 分别为 73.68%尧74.19%和 60.42%袁平均 CSI 为 69.43%袁最高为雷暴大风的 74.19%遥 FAR 分别为 17.65%尧14.81%和21.52%袁平均 FAR 为 17.99%袁最低为雷暴大风的14.81%遥 其中冰雹的 POD 没有 SWAN 系统袁但FAR 明显优于 SWAN 系统的 90%4遥 总体来说基于 XGBoost 模型对强对流天气分类较为理想袁在未来的强对流天气自动化识别尧 预警及预报的工杨鹤袁等院基于 XGBoost 算法的吉林省强对流天气分类识别研究31气象灾害防御第 30 卷图 2XGBoost 模型特征重要性排名作中具有广阔的应用前景遥4.3ROC/AUC 分析ROC 曲线下的面积即 AUC 值袁一般 AUC=0.5时袁表示模型完全不起作用袁无判断价值曰AUC 在0.5耀0.7 时袁 表示模型有较低准确性曰AUC 在 0.7耀0.9 时袁表示模型有一定准确性曰AUC 大于 0.9 时袁表示模型有较高的准确性遥针对本文使用的数据集袁通过测试发现渊图 3冤袁朴素贝叶斯和决策树 AUC 值为 0.866 和 0.863袁有一定的准确性袁 其余 7 种机器学习均大于 0.9袁有较高的准确性遥 XGBoost尧LightBGM尧 随机森林和ET 的 AUC 值大于 0.960袁 分别为 0.974尧0.968尧0.967 和 0.965袁XGBoost 的 AUC 值最高袁为 0.974遥5结语本文基于 XGBoost 集成算法袁 使用 C 波段雷达渊CC 型号冤的 4 种雷达数据和 ERA5 再分析资料 40 种数据建立模型袁并检验了模型对强对流天气的判别预报性能袁主要结论如下院渊1冤在 2016要2021 年吉林省强对流天气数据集中袁XGBoost 模型对短时强降水尧雷暴大风和冰雹 3 类强对流天气的平均 POD 为 81.73%袁 平均CSI 为 69.43%袁平均 FAR 为 17.99%遥 POD 最高为短时强降水的 87.50%袁CSI 最高为雷暴大风的74.19%袁FAR 最低为雷暴大风的 14.81%袁 其中短时强降水和雷暴大风的评分结果接近遥 总体来说基于 XGBoost 模型对强对流天气分类较为理想袁在未来的强对流天气自动化识别尧 预警及预报工作中具有广阔的应用前景遥渊2冤通过 XGBoost 建模中的特征工程袁寻找反映强对流天气本质的自变量袁 特征值结果显示袁MCRT尧SPEED尧DCRH尧MCR 和 600T 对 于 XG鄄Boost 判别强对流类别的重要性最高遥 针对本文使用的数据集袁XGBoost尧LightBGM尧 随机森林和 ET的 AUC 值大于 0.960袁 分别为 0.974尧0.968尧0.967和 0.965袁有较高的准确性袁其中 XGBoost 的 AUC值最高袁为 0.974遥渊3冤本文基于 XGBoost 集成算法袁使用 C 波段雷达回波资料和 ERA5 再分析资料建立模型袁强对流天气分类短时强降水雷暴大风冰雹平均POD87.5085.1972.5081.73CSI73.6874.1960.4269.43FAR17.6514.8121.5217.99表 3测试集中 XGBoost 模型的分类识别强对流天气结果评分%MCRTSPEEDDCRHMCR600td1000t1000v600u200t1000z1000td925v500u700td700v850z925td850t200v1000u050100150200特征值得分211.0131.0118.0118.0105.092.080.079.078.071.069.063.063.062.057.057.056.056.052.048.032第 2 期图 3机器学习方法的 ROC/AUC能够较为准确地自动识别短时强降水尧 雷暴大风和冰雹 3 类强对流天气袁 能够为业务人员提供客观的预报产品遥 未来的重点工作是使用雷达提前产品资料袁结合深度学习渊如卷积神经网络算法冤实现雷达回波外推产品袁并结合本研究对未来 30 min 强对流进行预报遥参考文献1金磊袁明发源.气象科学管理指南M.北京院气象出版社袁1996院31-61.2饶云花袁马中元袁陈鲍发袁等.丰城冰雹天气超级单体回波特征分析J.气象水文海洋仪器袁2022袁39渊1冤院41-43.3李鸾袁汪茜林袁周先春.一次雹暴天气过程的天气特征及雷达图特征分析J.气象水文海洋仪器袁2012袁29渊4冤院37-41.4Doswell III C A.The distinction between large-scale andmesoscale contribution to severe convection院A case study ex鄄ample.Wea ForecastingJ.1987袁2渊1冤院3-165余辉袁马中元袁谢勇袁等.江西强对流天气概念模型及云图特征分析J.气象水文海洋仪器袁2012袁29渊1冤院31-36.6马洪波袁陈长胜袁牛立强袁等.基于 SWAN 系统的新冰雹指数应用及检验J.气象灾害防御袁2016袁23渊2冤院20-25.7杨璐袁南刚强袁陈明轩袁等.基于三种机器学习方法的降水相态高分辨率格点预报模型的构建及对比分析J.气象学报袁2021袁79渊6冤院1022-1034.8朱岩袁翟丹华袁吴志鹏袁等.基于 Xgboost 算法的短时强降水预报方法J.气象科技袁2021袁49渊3冤院406-418.9刘新伟袁黄武斌袁蒋盈沙袁等.基于 LightGBM 算法的强对流天气分类识别研究J.高原气象袁2021袁40渊4冤院909-918.10刘娜袁熊安元袁张强袁等.强对流天气人工智能应用训练基础数据集构建J.应用气象学报袁2021袁32渊5冤院530-541.11周志华援机器学习M援北京院清华大学出版社袁2016院3.12路志英袁任一墨袁孙晓磊袁等.基于深度学习的短时强降水天气识别J.天津大学学报渊自然科学与工程技术版冤袁2018袁51渊2冤院111-119.13GregoryMark.receiver-operatingcharacteristic(ROC)plots院Fundamental Evaluation Tool in Clinical Medicine J.Clin Chem袁1993袁30渊4冤院561-567.1.00.80.60.40.20.00.20.40.60.81.0False Positive RateLR ROC curve渊area=0.954冤SVE ROC curve渊area=0.958冤ET ROC curve渊area=0.965冤GNB ROC curve渊area=0.866冤DT ROC curve渊area=0.836冤RFC ROC curve渊area=0.966冤KNN ROC curve渊area=0.917冤GXBoost ROC curve渊area=0.974冤LGBM ROC curve渊area=0.968冤杨鹤袁等院基于 XGBoost 算法的吉林省强对流天气分类识别研究33