温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
要素
协助
气象
降水
数据
质量
控制
研究
信息通信基于多要素协助的气象降水数据质量控制研究王婧,魏夏璐,吕腾”,吴作航?(1.福建省气象信息中心;2.福建省气象科学研究所,福建福州350 0 0 7)摘要:针对气象降水数据质量控制难度大,准确性低等问题,提出了基于多要素协助的气象降水数据质量控制方法,使用福州市区域站逐小时数据,分析降水数据的单站要素相关性和邻近站点的降水空间相关性,使用集成学习算法XGBoost(极度梯度提升算法)训练模型,综合考虑查全率和查准率选取异常判断的阈值,最终形成降水异常检测模型,并与多种质控方法进行结果比较。结果表明:(1)单站要素之间有弱相关性,邻近站点的降水数据相关性与空间分布有关,具有强相关性。(2)与传统的变化率判断法,单站单要素方法,单站多要素方法进行结果比较,该方法可以明显区分出异常降水值,其准确性高效果好。(3)该方法泛化能力更好,总体性能优于传统的变化率判断法。关键词:多要素协助;质量控制;集成学习算法中图分类号:P413文献标识码:AStudy on Quality Control of Meteorological Precipitation Data Based on Multi-factor AssistanceWANG Jing,WEI Xialu,LYU Teng,WU Zuohang?(1.Fujian Meteorological Information Center,Fuzhou,Fujian 350007,China;2.Fujian Institute of Meteorological Sciences,Center,Fuzhou,Fujian 350007,China)Abstract:Aiming at the problems of difficult quality control and low accuracy of meteorological precipitation data,this paperputs forward a quality control method of meteorological precipitation data based on multi-factor assistance.By using the hourlydata of Fuzhou regional stations,it analyzes the correlation of single station elements and the spatial correlation of precipitationin neighboring stations,uses XGBoost(Extreme Gradient Lifting Algorithm)training model,comprehensively considers the recallrate and precision rate,selects the threshold of abnormal judgment,and finally forms a precipitation anomaly detection model,andThe results show that:(1)There is a weak correlation between the elements of a single station,and the correlation between pre-cipitation data of neighboring stations is related to spatial distribution,which has a strong correlation.(2)Compared with the tra-ditional rate of change judgment method,single-station single-factor method and single-station multi-factor method,this methodcan clearly distinguish the abnormal precipitation value,with high accuracy and good effect.(3)The generalization ability ofthis method is better,and its overall performance is better than that of the traditional change rate judgment method.Key words:multi-factor assistance;quality control;integrated learning algorithm1引言气象数据的质量控制是对所观测气象数据进行整合与分析,检查数据质量的同时进行记录,能够及时发现数据中存在的问题并快速解决。由于获取气象数据的收集、传输、编码与解码的一系列环节中均有可能发生错误与偏差,气象数据的质量控制便显得尤为重要,不仅直接影响到气象数据的可信度,更对气象预报与气象服务有着至关重要的意义。随着近年来我国气象事业的发展,全国建立了大量的气象观测站,使得气象数据的数据量大幅提升。而伴随着气象数据量的增大2 ,收稿日期:2 0 2 3-0 2-2 6基金项目:福建省气象局青年科技专项(2 0 2 2 Q03)基于遥感的台湾海峡海温反演产品真实性检验研究。作者简介:王婧(1995-),女,福建三明人,助理工程师,硕士,主要研究方向为数据分析。i+*7 Fonseca N J G.Printed S-Band 4x4 Nolen Matrix for Mul-tiple Beam Antenna ApplicationsJ.IEEE transactions onantennas and propagation,2009,57(6):1673-1678.8 Djerafi T,Fonseca N J G,Wu K.Planar Ku-Band 4x4 NolenMatrix in SIW TechnologyJ.IEEE transactions on micro-wave theory and techniques,2010,58(2):259-266.9 Tseng C H,Huang J Y,Tseng C H.Design of planar 8-by-16Butler matrix for 16-element switch-beam antenna arrayC/2018 Asia-Pacific Microwave Conference(APMC).IEEE,1532023年第0 5期(总第2 45期)文章编号:2 0 96-97 59(2 0 2 3)0 5-0 153-0 4气象数据有误的情况也逐渐增多,特别是针对强对流天气较多的沿海城市,降水数据具有随机性强,连续性差的特点3-4,相比于气温、湿度等连续数据,其数据质控难度大,准确性低 5。降水数据直接影响着人们的日常生活,为了提供更加准确的气象服务,降水数据的质控显得极为重要。传统气象数据质量控制使用气候极值、数值变化率等简单的统计学检测方法,应用广泛,但检测方法较为粗糙 8-10 。大量专家学者针对数据质量控制提出了不少改进方案。任芝花等研制了由台站到省级、国家级的三级地面自动站观测资料*T+2018:1534-1536.10 Gruszczynski S,Wincza K,Sachse K.Reduced SidelobeFour-Beam N-Element Antenna Arrays Fed by 4xN ButlerMatricesJ.IEEE Antennas and Wireless Propagation Let-ters,2006,5:430-434.11 Trinh-Van S,Lee J M,Yang Y,et al.A Sidelobe-Reduced,Four-Beam Array Antenna Fed by a Modified$4itimes4$Butler Matrix for 5G ApplicationsJ.IEEE Transactions onAntennas and Propagation,2019,67(7):4528-4536.Changjiang Information&Communications质量控制业务系统,实现实时与历史的气象资料一体化。侯灵等12)使用气象资料业务系统(MDOS)并结合台站级的操作经验进行针对性的数据质量控制。林奕平等 13 分析影响质控的因素,强化网络运行监控和设备维护管理,从加强制度、设备、网络管理来提高质控效果。但目前多数改进方案对气象要素之间的关系和站点之间的空间关系的使用较为浅显,而各气象要素之间存在的相互影响与不同站点之间的空间关系均会对质量控制的准确性产生一定的影响,这就需要使用更新的算法模型探索要素之间的关系进而提高数据质量控制的水平。近年来集成学习在气象领域应用广泛,吴建生等 14使用集成学习算法构建气象预报模型,该短期气候预测模型能有效提高系统预测的准确率。陈靖宇等 15 使用集成学习算法进行雷电特征的提取,分析雷电趋势和预警级别,并使用在雷电预测中。胡瑛使用集成学习分析数据的相关性和变动特点,构建雾霾污染预测模型。集成学习算法不仅适用于大量气象数据的处理,也能够快速处理多维数据,抗噪声能力强。目前发挥集成学习技术的优势,深入探索气象数据多要素关系,协助气象降水数据质量控制的研究较少。故本文使用国家气象信息中心的气象大数据云平台,选取2 0 2 1年到2 0 2 2 年福州市气象观测站点采集的气象数据,以降水数据为例,通过集成学习算法XGBoost进行数据质量控制,并将结果与传统的变化率控制方法、单站单要素方法和单站多要素方法进行对比,探索基于集成学习的多要素协助在气象数据质量控制方面的可行性与可靠性。2基于多要素协助的气象数据质量控制方法2.1算法介绍多要素协助气象数据质量控制方法流程如图1所示,首先使用斯皮尔曼相关系数分别计算目标站点的气象要素和邻近站点的降水要素的相关性,根据相关系数绝对值排序选择要素。将要素值代入集成学习XGBoost算法中,生成多个弱学习器,弱学习器加权组合获得初步的拟合模型17 ,再使用综合查全率和查准率的F1数值选择阈值,最终获得多要素协助的检测模型。单站要素相关性分析相关性分析属性选择集成学习XGBoost训练弱学习器1弱学习器2弱学习器3.弱学习器,组合F阀值选择多属性协助检测模型图1多要素协助气象数据质量控制方法流程图王婧等:基于多要素协助的气象降水数据质量控制研究集成学习XGBoost算法使用多个弱学习器进行加权组合获得最佳学习器。针对数值缺失值情况,其可以自动学习分裂方向。并且支持并行操作,速度快精度更高18,因此适用于处理大量气象数据,挖掘要素之间的关系,并且针对常见的数值缺失情况可以有效应对。2.2数据集介绍本文使用2 0 2 1年1月到2 0 2 2 年3月的福州市区域自动站逐小时数据,共355个区域自动站,数据量约37 1万条,数据集要素主要有时间、气温、气压、降水、能见度、湿度、风向、风速等。数据集经过简单的预处理后,将2 0 2 1年数据作为训练集训练模型,将2 0 2 2 年数据作为测试集。本实验在Win-dows10系统中,使用Python3.7语言和PyCharm2019编译器进行实验。2.3相关性分析通过观察降水数据,如图2 所示,降水数据突发性高,随机性强,连续性差。在日常业务处理中,经常出现因采集器故障、人为破坏等原因出现异常值。若仅仅使用降水数据来进行数据质量控制,其效果不乐观,因此使用其它气象要素进行辅助,进而实现降水数据的质量控制。141过去