基于
CMA
REPS
预报
数据
深度
学习
风速
订正
方法
Jun.2023JOURNAL OF CHENGDU UNIVERSITY OF INFORMATIONTECHNOLOGY2023年6 月Vol.38 No.3息报工程成都大学学第38 卷第3期信文章编号:2 0 9 6-16 18(2 0 2 3)0 3-0 2 6 4-0 7基于CMA-REPS格点预报数据的深度学习风速订正方法毛波,杨昊12,周世杰,杨康权34,陈敏1(1.成都信息工程大学计算机学院,四川成都6 10 2 2 5;2.电子科技大学信息与软件工程学院,四川成都610054;3.四川省气象台,四川成都6 10 0 7 2;4.四川省气象局重点实验室,四川成都6 10 0 7 2)摘要:准确的风速预测对风能资源的充分利用和风电场的经济效益提升具有显著的意义。为提高集合数值预报的风速预报能力,弥补现有深度学习集合预报订正模型对格点预报数据时间特征提取的不足,引人ConvLSTM深度学习模型,对CMA-REPS(中国气象局区域集合预报模式)预测的华北地区近地面10 m风速格点数据进行偏差订正实验,以均方根误差(RMSE)作为评分标准将订正结果与CMA-REPS原始预报数据和Unet深度学习模型方法得到的订正结果进行对比。结果表明,ConvLSTM模型的订正效果相比Unet模型有进一步的提升,经ConvLSTM模型订正后的近地面10 m风速预报数据整体上更趋近于实况数据。关键词:CMA-REPS;集合预报;偏差订正;深度学习;风速中图分类号:TP183文献标志码:Adoi:10.16836/ki.jcuit.2023.03.0030引言风能作为一种高效清洁的新能源,其巨大的发展潜力引起了国内外广泛的重视。实现准确的风速预测能够有效地提高风能资源的利用率,降低风功率波动对电网稳定性的影响,从而提升风电场的经济效益1。集合数值预报模式由于提供了关于天气预报的不确定性信息,相比于单一的确定性数值预报模式,往往能够得到更准确的风速预报结果,现已在全球多个国家的天气业务预报中心实现常规运行2 1。但在实际应用中,由于集合预报模式设计之初的各种不完美以及大气系统的不确定性,集合预报模式一直存在系统性误差,从而造成风速预报的结果出现系统性偏差。为了满足更加精确和可靠的风速预报需求,需要对集合数值预报模式的结果进行偏差订正,以提升模式对风速的预报能力。目前,受限于风场本身所具有的变性特征,国内对风场集合预报结果偏差订正的方法还是多以传统的统计订正方法为主3,如集合模式输出统计法4 和贝叶斯模型平均法5。这类订正方法均通过建立线性统计模型来订正风场集合预报的误差,对于风场变化的随机特征,传统的线性统计模型往往不能很好地捕捉其中的非线性关系。随着近年来计算机硬件设备的不断提升以及人工智能技术的蓬勃发展,国内外气象领域的研究人员开始逐步结合机器学习方法或深度学习收稿日期:2 0 2 2-10-2 1基金项目:国家重点研发计划资助项目(2 0 2 1YFC3000902);四川省科技计划重点研发专项资助项目(2 0 2 2 YFS0542)方法对数值预报模式结果进行偏差订正,实现风速的精细化预报。LahouarA等6 使用随机森林的机器学习方法,建立了提前一小时的风速预测模型。与其他大多数机器学习方法相比,随机森林方法不需要进行调整或优化,结果表明,使用该模型的风速预报精度有显著的提高。孙全德等7 使用常见的几种机器学习算法(LASSO回归、随机森林等)对数值天气预报模式ECMWF预测的华北地区近地面10 m风速进行订正,将订正结果与传统订正方法得到的订正结果进行对比。结果表明,基于机器学习算法的风速订正方法效果均好于传统订正方法,显示了机器学习方法提升数值预报风速预报精度的潜力。但上述机器学习方法仅限于对确定性数值预报的数据进行偏差订正,尚未对集合数值预报模式进行尝试。且机器学习较依赖于复杂的特征工程,将机器学习应用于模式的偏差订正时,需要研究人员具备专业的气象知识和大量的时间,使训练过程成本偏高且十分具有挑战性。深度学习作为机器学习的一种特定形式,由于不需要进行特征工程,因此在对海量数据进行非线性建模时具有更大的优势。过去十年中,深度学习已在计算机视觉、语音识别及自然语言处理等多个领域取得了丰富的成果,为人类社会的进步和发展带来了极大的帮助。对于大气系统所具有的特殊的高度非线性特征,深度学习现已成为人工智能领域与大气科学领域交叉应用的研究热点和主流发展方向。Stephan Rasp等8 率先使用深度神经网络在分布回归框架中对集合预报预测的2 m温度进行偏差订正实验,将连续分级概率评分(continuous ranked probability score,CRPS)毛265波:基于CMA-REPS格点预报数据的深度学习风速订正方法第3 期作为其模型的损失函数。该实验的局限在于只考虑单一站点位置以及单一天气变量的偏差订正,对目前的数值预报模式生成的二维网格数据不具有适用性。对于二维网格数据所具有的空间特性,需考虑使用诸如卷积神经网络9 等方法来提取其空间特征。受此启发,GronquistPeter等【10 基于Unet模型搭建了集合预报的偏差订正模型,结果表明其模型在CRPS评分方面相比于传统订正方法取得了超过14%的相对改进。L Han 等11 基于 Unet 提出了一个 CU-net(CorrectionU-net)模型,将格点预报数据的偏差订正问题转化为深度学习中的图像识别问题,对ECMWF-IFS模式的格点预报数据进行订正,也取得了不错的订正效果。张延彪等12 为进一步加强CU-net模型对复杂的气象格点数据的偏差订正能力,引人稠密卷积模块13(Denseblock)对 CU-net 进行改进,构建了 Dense-CUnet模型。上述研究虽然都对格点预报数据的偏差订正有较好的效果,但考虑到格点预报数据的空间特征,仍存在一些不足,主要体现在没有考虑模型对格点预报数据的时间维度特征的提取融合。集合数值预报模式预报的格点数据具有复杂的空间特征和时间特征,属于典型的时空序列数据。对这类数据进行偏差订正的深度学习方法,本文引入时空序列预测问题常用到的ConvLSTM模型14 对CMA-REPS预报的近地面(10 m)风速格点数据进行偏差订正,订正的预报时间为2 4h、48 h 和7 2 h。将订正结果与CMA-REPS原始预报数据和Unet模型得到的结果进行对比,结果表明该模型方法能进一步提升集合数值预报模式风场格点数据的预报精度。1模式与方法1.1CMA-REPSCMA-REPS是中国气象局自主研发的新一代区域集合预报系统,其前身是GRAPES-REPS(g l o b a l a n dregional assimilation and prediction enhanced system-re-gional ensemble prediction system)区域集合预报系统,基于中国自主研究并建立的新一代多尺度通用资料同化与数值天气预报系统-GRAPES的区域模式发展而来15-16 。集合预报扰动方法对集合预报的可靠性提升极为重要,当前CMA-REPS初值扰动采用6 h循环计算方案的GRAPES模式面集合变换卡尔曼滤波17 ;模式扰动采用单一物理过程参数化方案与随机物理过程倾向项(stochastic perturbed parameterization tenden-cies,SPPT 18 组合;边界扰动通过提取GRAPES-GEPS(global and regional assimilation and predictionenhanced system-global ensemble prediction system)全球集合预报系统扰动成员相比于自身控制预报的扰动测边界,并叠加在CMA-REPS的控制预报测边界上得到19 。CMA-REPS参数配置如表1所示,其水平分辨率为0.1,垂直分辨率为50 层,集合预报成员数15个,预报区域为中国区域,预报时效8 4h(0 0 时,12 时(协调世界时),6 h(0 6 时,18 时(协调世界时)。CMA-REPS中的控制预报初值和侧边界来源于NCEP-GFS(national centers for environmental prediction-globalforecast system)全球模式的预报场;并且CMA-REPS加人了云分析同化技术与条件性台风涡旋重定位技术2 0 ,以期提高短临降水和台风预报能力。CMA-REPS具体参数配置见表1。表1CMA-REPS具体参数配置参数名称参数配置控制预报CMA-MESO分辨率0.1/L50控制预报初值和侧边界NCEP-GFS同化分析技术云分析初值不确定性ETKF(6h循环)模式不确定性单一物理+SPPT边界不确定性CMA-CEPS台风不确定性条件性台风涡旋重定位技术集合成员数1515N65N,70E140E(2022年预报区域6月7 日之前),10 N60N,70E145E(2 0 2 2 年6 月7 日之后)84h(0 0 0 0、12 0 0 U T C),6 h(0 6 0 0、预报时效1800UTC)模式输出间隔1h1.2基于ConvLSTM的风速订正模型集合数值预报模式的格点预报数据是在时间上连续分布的空间数据2 1,具有典型的时空特征。仅靠单一的基于CNN的深度学习模型如Unet,虽然可以有效地提取格点预报数据复杂的空间分布特征,但无法捕捉数据的时间序列信息。随着深度学习的发展,LSTM(l o n g s h o r t-t e r mme mo r y)对于气象要素站点数据的序列预测能力得到了验证。因此,考虑将时间成分纳人深度学习模型(例如通过使用LSTM),可以进一步提高深度学习模型对集合数值预报模式格点预报数据的偏差订正能力。但是,传统的长短期记忆单元无法实现对空间特征的提取。基于此,引入ConvLSTM模型,大266息都成程报信第38 卷学学尝试对CMA-REPS预报的近地面(10 m)风速格点数据进行偏差订正。ConvLSTM模型是Shi等14 为解决时空序列预测问题,结合卷积神经网络对数据空间特征的提取与编码能力及长短期记忆网络的序列特征编码特性而提出的。ConvLSTM的单元结构图如图1所示。由图1可以看到,ConvLSTM是LSTM结构的一种变体,通过遗忘门(f.)、输入门(i)和输出门(o)控制数据在细胞内部的交流。各个门控制数据参与到细胞状态的更新,通过门来选择性地保留或舍弃信息。ConvLSTM与LSTM的区别在于ConvLSTM在“输人到状态”和“状态到状态”两部分都采用卷积运算来代替矩阵乘法,并且其所有的输人Xi,X,细胞输出Ci,C,隐藏状态H,,H,和遗忘门(f.)、输人门(i)和输出门(o,)都是3维张量,这样做的好处是在提取序列的空间信息同时,可以去除大量空间穴余特征并且解决数据的时间依赖问题ConvLSTMtanhBN(7-1)(7)WpeerWt.anhbH-gWAO-BN-CBNW图1ConvLSTM单元结构图ConvLSTM门之间的传递关系如下:i,=o(Wx*X,+Wh*H,-I+W.oC,-I+b,)f,=o(Ww*X,+Ww*H,-+WgoC-I+by)C,=f,o Ct-+i,o tanh(Wxe*X,+Whe*H,-+b.)0,=o(Wxo*X,+Wh。*H,_I+W.C,+b。)H,=o,o tanh(C,)11+e一式中为输人门,f.为遗忘门,C,为细胞状态,o,为输出门,H,为隐藏层输出,*表示卷积运算符,表示Hadamard乘积,为sigmoid 激活函数。遗忘门可以控制信息的遗忘,丢弃被认为几余的信息,保留有用的信息并将其向后传递;继续传递的信息进到输人门,通过sigmoid层确定需要更新的信息,并通过tanh层得到新的细胞信息对细胞进行更新。最后通过输出门中的sigmoid的信息乘以通过tanh的记忆细胞的信息得到模型的最终