温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
EOF
LSTM
广西
降水量
预测
模型
研究
44卷气象研究与应用引言广西地处亚热带季风气候区,受低、中高纬度天气系统的交替影响,降雨量时空分布不均,尤其是夏季雨季暴雨频繁,往往导致洪涝、滑坡泥石流等灾害,造成巨大的经济损失及危害人民生命。另一方面,由于广西夏季降水年际变化差异极大,致使广西夏季干旱也频繁发生,严重制约了社会和经济的发展。因此,如果能够提前预测旱涝灾害发生的具体区域和时段,可以有效减轻灾害损失。然而,影响月降水量变化的因素很多,具有显著的非线性不规则变化特征,是目前预报中的重点、难点问题之一。目前国内外学者开展降水量短期气候预测主要研究方法可分为数理统计预报方法、动力模式方法,以及动力统计预报三种方法14。杜良敏等5采用最小二乘回归法建立中国夏季降水预测模型,5a独立样本预测检验的平均评分为771。郑然等6采用多元回归法建立中国西南夏季降水年际增量预测模型,后报检验7a的降水距平百分率的均方根误差为16。覃志年等7研发了广西月尺度动力模式产品解释应用系统,解释应用预测准确率一般在70分以上。何慧等8利用动力延伸预报产品制作广西月降水预报。由于短期气候预测所涉及的气候异常变化因子具有多样性和复杂性,相互作用机理的认识还远远不够等现状,困扰了短期气候预测准确性的进一步提高9。近年来,人工智能算法的发展为更好的深度挖掘隐藏在海量数据中的天气气候变化的物理机制,提取更有效的预报模型提供了一种新的方式,尤其在非线性智能计算和机器学习理论的发展中,深度学习的长短期记忆神经网络(Long ShortTermMemory,LSTM)是以时间序列数据建模、数据特征提取和预测为目的,在国内外已成功地应用到水文、海洋工程、气象等领域,并取得到了较好的预报效果1019。收稿日期:2023-03-01基金项目:广西自然科学基金项目(2023GXNSFAA026414)、国家自然科学基金项目(42065004)、广西重点研发计划项目(桂科AB21196041)、广西自然科学基金项目(2018GXNSFAA281229)作者简介:黄颖(1983),女,硕士,高级工程师,主要从事天气预报技术方法研究与业务应用工作。Email:yinger2001126com基于 EOF 和 LSTM 的广西月降水量预测模型研究黄颖1,陆虹2,黄小燕1,赵华生1,吴玉霜3(1广西壮族自治区气象科学研究所,南宁530022;2广西壮族自治区气候中心,南宁530022;3广西壮族自治区气象台,南宁530022)摘要:针对夏季降水天气过程具有时间相关性和非线性变化的特点,以及现有预报方法未能充分获取月降水量的本质特征而造成的建模因子处理和预报建模困难等问题,提出了一种以自然正交展开(EOF)与深度学习长短期记忆神经网络(LSTM)相结合的月降水量预测模型。以广西81个气象观测站7月降水量为预报研究对象,对81站7月降水量作EOF计算,选取累积方差贡献超过76的前7个主分量作为预报分量,再利用LSTM模型建立月降水量的深度学习预测模型,以19602016年81站7月降水量为建模样本,20172022年为独立样本进行建模研究。结果表明,在相同的预报建模样本和相同的预报因子条件下,新建立的预测模型比线性逐步回归预报方法有更高的预报能力,显示了对非线性月降水量预测问题的适用性。由于LSTM模型隐层里引入了存储单元状态和门结构,使得网络能够保留长期的状态,更适合于处理和预测时间序列中间隔和延迟相对较长的重要问题。关键词:气候预测;长短期记忆神经网络;自然正交展开;深度学习中图分类号:P457.6文献标识码:Adoi:10.19849/ki.CN45-1356/P.2023.2.04黄颖,陆虹,黄小燕,等基于EOF和LSTM的广西月降水量预测模型研究J气象研究与应用,2023,44(2):2026Huang Ying,Lu Hong,Huang Xiaoyan,et al Study on monthly precipitation prediction model in Guangxi based on EOF and LSTMJJournal of Meteorological Research and Application,2023,44(2):2026第44卷第2期气象研究与应用Vol.44 No.22023年6月JOURNAL OF METEOROLOGICAL RESEARCH AND APPLICATIONJun.20232期在大气科学领域,孙际钰14建立了基于LSTM网络的海表温度预报模型。沈皓俊等15利用LSTM网络预测2014年和2015年中国夏季降水,Ps评分分别为74分、71分。程鹏宇等16、倪铮等17运用LSTM深度神经网络建立温度预报模型。徐楠楠18、张飞鸿19采用LSTM模型分别建立日尺度降水预测模型、短临降水预测模型。这些预报模型和预报方法在预报试验中都取得了较好的预报效果。为了进一步改进和提高月降水量预测准确性,探索新的短期气候预测方法,本文尝试以广西81站7月降水量为预报研究对象,先采用EOF方法对81站7月降水量作EOF计算,选取前几个主分量作为预报分量,再利用更适用于解决非线性问题的LSTM模型建立月降水量的深度学习预测模型,进行预报建模试验。对预报分量(主分量)进行预报后,再乘以空间向量便可得到广西81站降水量预测值,而不需要对每个站建立预报模型进行预测,同时也极大地减少了计算量和解决单站资料建模时会遇到的随机性和不稳定性问题。1 LSTM方法介绍长短期记忆网络(Long ShortTerm Memory,LSTM)是在循环神经网络(Recurrent Neural Net-work,RNN)基础上提出的一种新型深度学习神经网络模型20,目前已在国内外成功地应用众多学科领域1011,2124。由于RNN隐藏层只有一个h状态,仅对短期的输入较敏感,却较难捕获相隔较长时刻的历史数据信息,易出现梯度爆炸或消失问题,Hochreiter和SchmidHuber20于1997年提出了LSTM模型,他们在RNN的 隐 藏 层 里 引 入 了 存 储 单 元 状 态(CellState,也称为细胞状态)和门结构,使得网络保留长期的状态,有效解决了RNN中的梯度爆炸和梯度消失等问题。因此LSTM更适合于处理和预测时间序列中间隔和延迟相对较长的重要问题,比如短期气候预测中的月降水量预测。LSTM模 型 主 要 由 一 个 或 多 个 记 忆 细 胞ct(Memory Cell)、一个输入门it(Input Gate)、一个遗忘门ft(Forget Gate)、一个输出门ot(Output Gate)组成(见图1)。遗忘门决定上一时刻的单元状态ct1有多少保留到当前时刻ct,输入门决定当前时刻网络的输入xt有多少保存到单元状态ct,而LSTM的当前输出值ht是由输出门和单元状态ct来决定。图1给出了LSTM网络隐层结构示意图。由图1可以看出,当前时刻网络输入值xt,上一时刻网络隐层输出值ht1,以及上一时刻网络单元状态输出ct1为LSTM隐层输入数据,当前时刻网络隐层输出值ht和当前时刻网络单元状态输出ct为LSTM隐层输出数据。LSTM通过门控单元控制位息是否通过从而实现对存储单元信息的添加和删除25。LSTM模型主要分为3个阶段26:(1)遗忘门:遗忘门决定上一时刻的细胞状态ct1有多少信息保留到当前时刻。根据上一时刻网络隐 层 输 出 值ht 1和 当 前 网 络 输 入 值xt,由 激 活sigmoid函数生成遗忘门ft,产生一个01之间的数字,来筛选上一个细胞状态ct1,其中0表示完全舍弃上一状态信息,1表示完全保留上一状态信息,数字在0到1之间表示保留部分信息。遗忘门ft计算公式如下:ft(Wf ht1,xtbf)(1)(2)输入门:输入门决定取多少新信息用于更新细胞状态ct。根据上一个时刻的隐藏状态ht1和当前状态的输入xt,分别由激活函数sigmoid生成输入门it(见式(2),由激活函数tanh产生候选记忆值(ct)(见式(3)。ct经过输入门it后得到的信息就是新加入的信息,将上一时刻的细胞状态ct1经过遗忘门ft得到的信息加上新加入的信息,就得到当前细胞状态ct(见式(4)。计算公式如下:it(Wi ht1,xtbi)(2)cttanh(Wc ht1,xtbc)(3)ctftct1itct(4)图1LSTM网络隐层结构示意图黄颖,陆虹,黄小燕,等:基于EOF和LSTM的广西月降水量预测模型研究2144卷气象研究与应用由式(4)可知,LSTM能保持长期记忆的关键在于单元状态ct。因为新单元状态ct的记忆与前一时刻t1的记忆相连接27,在很长一段时间内保持信息的不变性,有效防止了梯度消失或爆炸问题。(3)输出门:输出门确定当前细胞状态ct的输出。与遗忘门相似,根据上一时刻隐藏层输出值ht1和当前网络输入值xt,由激活函数sigmoid生成输出门ot,去筛选当前细胞状态ct经过激活函数tanh层的结果ht。输出门ot和隐层的输出结果ht的计算公式如下:ot(Wo ht1,xtbo)(5)htottanh(ct)(6)将ht传送到输出层,计算预测结果yt,计算公式如下ytWdhtbd(7)式中,Wf、Wi、Wc、Wo、Wd是权重矩阵,bf、bi、bc、bo、bd是偏置项,ht1,xt表示将两个矩阵连接成一个更长的矩阵,为sigmoid激活函数;tanh为双曲线正切激活函数。LSTM主要是求解权重矩阵和偏置项,定义交叉熵损失函数为损失函数,采用梯度下降的误差反向 传 播 算 法(Back Propagation Through Time,BPTT)求出权重和偏置参数,具体推导和计算过程参考相关文献28。2 LSTM模型的预报量和模型输入计算处理方法2.1预报量的预处理本文是以广西81个站7月降水量作为预报对象,预报量资料年限是从19602016年共57a为预报建模样本,20172022年共6a为独立预报样本,进行基于LSTM模型的月降水预测试验。考虑到如果81个站逐站建立预报方程,将要建立81个预报模型,而对于月降水量这样的短期气候预测问题,以单站作为预报量去计算分析前期的环流场预报因子,会增加预报因子的随机性和不稳定性。为此我们 考 虑 首 先 采 用 自 然 正 交 展 开 方 法(EmpiricalOrthogonal Function,EOF)29,30,先计算降水量距平率,再对7月81站降水量距平率作EOF计算,得出7月81站降水空间分布特征向量以及代表平均降水量年际变化的时间系数(主分量)。某时段降水量距平率计算公式如下:PaP-P?P?100(8)式中,P为某时段降水量(单位:mm);P为计算时段同期气候平均降水量。本文P取19912020年共30a平均降水量。对7月81站降水量作自然正交展开计算时,可以分解成时间系数Z和空间向量V两部分:XVZ(9)由于对平均降水量作EOF计算分析后得到的空间向量随时间变化很小29,因此可以将7月降水量展开的时间系数(主分量)作为预报量,进行预报建模。表1给出广西81个站7月降水量作自然正交展开后,前7个主分量累积方差贡献为7681。为此,本文将前7个主分量(时间系数)作为预报量建立预报模型,并对时间系数(主分量,Principalcomponent,PC)进行预报后,再乘以空间向量便可得到该区域的7月81站降水量预测距平值29,再结合式(8),即可得到7月81站降水量预测值。这样的计算方式,使得在对广西81个站7月降水量作预报时,不需要对每个站(共81站)建立预报模型进行预测,只要建立7个预报方程,有效减小了需要建立的预报模型个数,并避免了单站资料的随机性和不稳定性。主成分 PC1 PC2 PC3 PC4 PC5 PC6 PC7 方差贡献 48.22 11.80 6.35 3.37 2.62 2.30 2.14 累积方差贡献 48.22 60.03 66.38 69.75 72.37 74.67 76.81 表17月8