基于
Hadoop
河北
行业
服务
数据
平台
设计
应用
张中杰
SOFTWARE软 件2023第 44 卷 第 1 期2023 年Vol.44,No.1基金项目:河北省重点研发计划项目资助(导线覆冰和风偏气象灾害精准预警技术研究:22375405D)作者简介:张中杰(1968),男,河北辛集人,本科,高级工程师,从事气象服务与应用气象技术研究工作。通讯作者:曲晓黎(1982),女,吉林蛟河人,本科,正高级工程师,从事气象服务与应用气象技术研究工作。基于 Hadoop 的河北行业气象服务大数据云平台设计与应用张中杰 1,2 李飞3 曲晓黎2,3 周朔3(1.河北省气象科学研究所,河北石家庄 050021;2.河北省气象与生态环境重点实验室,河北石家庄 050021;3.河北省气象服务中心,河北石家庄 050021)摘要:随着大数据产业的蓬勃发展和全社会对气象服务需求的日益增长,气象大数据与各行各业数据平台的融合应用越来越广泛。而传统气象数据的存储和运算方式,难以同时高效支撑多个行业、高时空分辨率的气象数据生产和传输要求。因此该方案基于 Hadoop 技术建设河北省行业气象服务大数据平台,通过分布式存储、分布式计算,快速接收原始气象数据、通过插值等方法对气象数据进行时空降尺度、通过行业专项预报指标和模型快速计算相关气象服务产品,最终生成支撑能源电力、交通运输等多领域气象监测预报服务产品,得到了很好的应用。为河北省构建气象大数据产业发展生态环境、提升气象信息产业化发展以及保障地方经济社会发展提供了有力支撑。关键词:Hadoop;大数据;气象服务;平台;设计中图分类号:TP311.1 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.01.006本文著录格式:张中杰,李飞,曲晓黎,等.基于Hadoop的河北行业气象服务大数据云平台设计与应用J.软件,2023,44(01):024-028Design and Application of Hebei Meteorological Industry Service Big Data Cloud Platform Based on HadoopZHANG Zhongjie1,2,LI Fei3,QU Xiaoli2,3,ZHOU Shuo3(1.Meteorological Institute of Hebei Province,Shijiazhuang Hebei 050021;2.Key Laboratory of Weather and Meteorological and Ecological Environment of Hebei Province,Shijiazhuang Hebei 050021;3.Hebei Province Meteorological Service Centre,Shijiazhuang Hebei 050021)【Abstract】:With the vigorous development of big data industry and the growing demand of the whole society for meteorological services,the integration and application of meteorological big data and data platforms of all walks of life are more and more extensive.However,the traditional storage and operation methods of meteorological data are difficult to efficiently support the production and transmission requirements of meteorological data with high spatial and temporal resolution in multiple industries at the same time.Therefore,the scheme is based on Hadoop technology to build a big data platform for industry meteorological services in Hebei Province.Through distributed storage and distributed computing,the scheme can quickly receive original meteorological data,conduct time-space downscaling of meteorological data through interpolation and other methods,quickly calculate relevant meteorological service products through industry specific forecast indicators and models,and finally generate meteorological monitoring and forecasting service products supporting energy,electricity,transportation and other fields,it has been applied well.It provides strong support for Hebei Province to build the ecological environment for the development of meteorological big data industry,promote the industrialization of meteorological information,and ensure the local economic and social development.【Key words】:Hadoop;big data;meteorological services;platform;design基金项目论文25张中杰李飞曲晓黎等:基于 Hadoop 的河北行业气象服务大数据云平台设计与应用0 引言随着各行各业和社会公众对气象服务需求的日益旺盛和气象信息化的快速发展,气象数据呈几何级数增长1。传统的气象数据挖掘大部分为单机模式,建立气象大数据云平台是气象信息网络智能化发展的趋势2,能够更加充分利用气象数据并深入挖掘其价值3。Hadoop 是一种分布式系统架构4,5,其核心组件有 3 个:(1)HDFS(Hadoop Distributed File System:分布式文件系统),它是一个高可靠、高吞吐量的分布式文件系统6,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色,用于存储文件,通过目录树来定位文件。HDFS 适合一次写入,多次读出的使用场景。(2)MapReduce(分布式计算框架),它是一个分布式的离线并行计算框架,用于海量数据运算分析7。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。MapReduce 将计算过程分为两个阶段 Map 和 Reduce,Map 阶段并行处理输入数据,Reduce 阶段对 Map 结果进行汇总。(3)Yarn,这是作业调度与集群资源管理的框架,采取经典的主从式(Master-Slave)分布式结构8。Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行在操作系统之上的应用程序。Hadoop 具有开源、可靠稳定、可扩展、低成本等优势9,已广泛应用于城市轨道交通、电力、农业等多种行业的数据存储与计算领域10-13。在气象大数据云平台建设方面,山东、海南、广西均介绍了当地的存储技术和实现过程1,14,15。河北省Hadoop 行业气象服务大数据云平台(简称云平台)的特点在于集成多种行业气象服务指标算法,快速生成行业用户关注范围内格点化的气象实况和预报预警服务产品,同时支撑气象业务系统和行业部门应用系统,同时支撑京津冀交通气象中心以及省内电网、电厂、铁路、公路等多部门快速共享气象信息,在气象灾害防御和气象资源趋利避害方面发挥重要作用。1 云平台系统架构河北省 Hadoop 行业气象服务大数据云平台系统架构示意图如图 1 所示,利用 Ambari 用于整体的配置,进行管理和监控 Apache Hadoop 的集群。Ambari 还提供了一个直观、易用的 Hadoop 管理 Web UI 界面。Yarn 作为资源调度平台,负责为 MapReduce 等运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,用于管理和调度各种细粒度的任务,包括格点实况的订正和交通气象风险指数等行业专项预报产品的计算任务等。Hbase 是一个 NoSQL 数据库,运行于 HDFS(包括一个 NameNode 和多个 DataNode 等)文件系统上,用于存储来自于前端的各种实况、预报数据以及运算得出的各种预报数据。Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题。MongoDB 是基于分布式文件存储的数据库,主要用于存储地理信息数据和进行空间地理位置的计算等。Nginx API 用于将各种客观化服务产品通过接口的形式对外提供发布。2 云平台数据流程河北省 Hadoop 行业气象服务大数据云平台的数据来自河北省气象局“天擎”大数据云平台资源池,读Ambari-serverSecondaryNameNodeNginxAPIMapreduce2 ClientYarnClientFTPRepoFlumeHDFSClientHbaseClientThriftServerHMasterHRegionServerZookeeperNodeManagerDataNodeAmbari-agent01020304050607080910MongodbZookeeperClientJobHistoryServerMetricsCollectorNameNodeResourceManager图 1 河北省 Hadoop 行业气象服务大数据云平台系统架构示意图Fig.1 Schematic diagram of big data cloud platform system of Hebei Hadoop industry meteorological service26软 件第 44 卷 第 1 期SOFTWARE取气象实况、预报等多源数据后,进行解析和判识,最终支撑气象服务业务人员在业务平台上使用,同时按照行业用户需求以对应形式传输至用户端,流程如图 2 所示。云平台从资源池实时读取京津冀及周边 3000 余个地面气象观测站逐 1h、部分逐 5min 的观测数据、雷达探测数据等,读取国家级业务单位下发的以及本省智能网格实况和预报数据(空间分辨率 1 3km),以及空气质量等行业实况和预报数据。(1)将原始数据通过 Flume 存储到 Hbase 数据库中;(2)进行数据解析、判识及处理:首先是通过预先设定的指标进行数据质量分析、标识和监控报警;其次是结合自主研发的指标、算法,对实况和预报数据进行时空降尺度、数据订正、反演至用户关注范围(如高速公路、铁路沿线)处理;(3)结合本地模型算法,利用实况和预报数据,计算站点及格点化的行业专项范围产品,例如用电负荷指数、高速公路雾灾风险预报等;(4)将处理后的数据传输至上层气象服务业务平台经订正后向行