温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
流程
控制
国际
气象
通信
收集
管理
系统
设计
实现
文静
第 卷第期 年月 ,气象科技 基于流程控制的国际气象通信数据收集管理系统的设计与实现顾文静王鹏戴晴韩鑫强(国家气象信息中心,北京 )摘要近年来,天气和气候业务对国外数据种类和时效要求不断提高,为解决大量数据的收集分发压力以及管理问题,设计并实现了基于流程控制的国际气象通信数据收集管理系统。系统应用数据收集器 、监听机制与分析平台 等技术,支持多种通信协议,扩展 网络爬虫功能,通过流程控制、任务调度等方式实现大量数据快速高效收集和集成管理,有效提高数据并行处理能力和可扩展性,且设计了全流程监视,保障数据时效。系统已经上线提供服务,为业务科研用户提供全球观测数据、国外卫星数据和数值预报产品等 余种,日收集数据量约。关键词国际气象通信;国外数据;收集处理;调度管理;中图分类号:文献标识码:气象科技作者简介:顾文静,女,年生,硕士,高级工程师,研究领域为气象信息平台技术,数据交换与应用,:收稿日期:年 月日;定稿日期:年 月 日引言随着天气和气候业务的发展,业务科研对国内外气象数据和产品种类需求不断增加。中国气象局是世界气象组织全球通信系统的亚洲区域通信枢纽之一,国家气象信息中心国际通信系统负责全球实时、近实时气象数据和产品的发现获取,为国家级和省级业务单位及相关行业用户提供全球观测数据、国外卫星数据和数值预报产品。国际通信系统包含全球通信系统()、平台和北京 门户系统,收集网络如图所示。图全球数据收集网络国际通信 平台作为国际通信系统的核心组成,通过互联网下载、双边交换,组播线路()等多种方式进行数据收集,共获取数据 余种。根据数据的特征分别采用 、或者爬取的方式收集,考虑到数据下载频率、数据量,以及国外数据中心对下载流量限制等诸多因素,将收集程序部署到多台异构服务器上。当程序需要修改调整时,技术人员要针对不同的数据,登录不同的服务器操作;且由于缺乏统一的管理调度,庞杂的数据信息清单需要手动维护,收集任务的分配由人工评估,且缺乏集中监视,数据的收集和故障处理效率都非常低下。为了解决上述问题,国家气象信息中心组织开发国际气象通信数据收集管理系统,针对大量数据的收集和分发压力,基于流程控制的自动化调度处理平台,实现国际数据收集的统一管理和集成,支持 、等多种通信协议,扩展 网络爬虫框架,通过文件传输、消息通信等方式,按照相应的收集策略,实现快速、高效的数据收集,有效提升系统并行处理能力和可扩展性 。并设计开发统一监视功能,有效提升故障发现和处理时效。本文详细介绍了国际气象通信数据收集管理系统的设计实现及业务应用等,依次对系统功能架构、技术实现及业务应用情况进行详细论述。系统设计 功能设计国际气象通信数据收集管理系统包含任务调度、数据获取、数据预处理、数据缓存共享、监视信息采集处理和统计查询个后台处理功能模块。如图所示。()任务调度。实现任务在不同的节点进行分布式执行,支持脚本和 类库注册、动态加载等形态的集成与管理 。任务调度通过 管理站点统一配置,进行严格的权限控制。()数据获取。对现有收集工具和脚本进行改造,支持的 ,递归镜像,接口调用,网络爬虫等方式的脚本集成,实现数据收集统一管理和集成。通过 站点配置实现对收集数据存储路径、文件名、落地时间、数据量等基本信息的监听识别。图功能结构()数据预处理。根据气象行业标准规范,对获取的气象数据进行一系列预处理操作,包括文件校验、内容解析识别、文件换名、文件拼接、解包解压缩、编码解码、格式转换等。()数据缓存共享。按照相关策略实现对获取文件的存储清理和索引入库。通过 服务及数据接收端文件的规范传输接口,实现对国内通信系统和国外中心数据产品的快速高效的共享分发。()监视信息采集处理。按照综合业务监控的要求,实现数据收集处理、信息分发共享等业务功能,以及系统运行状态信息的记录并发送到气象综合业务实时监控系统。()统计查询模块。实现数据收集、分发过程中多维的统计、查询功能,并能够以直观、界面化、图形化的形式展示,同时提供文件下载功能。架构设计为保证整个系统的稳定可靠,需要遵循合理的安全保障体系和标准规范与运行监管体系。系统的总体架构可以划分为个层次和个保障体系,如图所示,个层次自底向上分为基础设施与服务层、数据服务层、技术支撑层、应用服务层和用户访问层,个保障体系分别为标准规范体系、运行维护体系、安全保障体系、技术支持体系 :基础设施层:依托于国际通信 平台为整个系统提供服务器、存储、网络以及支撑系统运转的操作系统、数据库软件、存储备份系统、安全软件等。数据服务层:数据资源层是系统信息汇集和数气象科技第 卷图系统总体架构据存储与管理的基础。包括文件系统、数据库和内存缓存这种数据的存储方式。其中数据文件和日志文件通过文件系统进行存储;系统和业务监视信息、统计信息、业务策略和配置信息和用户信息、目录信息等通过数据库进行存储;对数据传递过程中的中间态文件以内存方式进行缓存。基础支撑层:充分利用自有平台和开源技术对系统进行快速设计与开发,主要平台和技术包括集群软件、软件、流程控制的自动化调度处理平台、基于配置的爬虫框架技术等。应用服务层:负责核心业务逻辑,包括任务调度、数据获取、数据预处理、数据缓存共享、监视信息采集处理和统计查询等后台处理服务功能,以及调度管理、数据节目表管理、策略规则管理、系统后台管理、监视信息展示等 管理站点功能。用户访问层:主要指人机交互的相关功能,管理人员可通过 页面进行系统配置、后台管理、用户授权等操作,运维人员可查看监视统计信息,业务用户可查看数据收集、分发情况。标准规范体系:是支撑系统运转的基础,用以实现应用协同和信息共享,节省项目建设成本、提高项目建设效率,满足系统不断扩充、持续改进和版本升级的需要。运行维护体系:为确保国省数据共享系统的协调性和连续性,构建以系统运行保障为基础的运行维护体系,建立了运维管理机制,明确以事件管理、问题管理、变更管理和配置管理等环节为基础的运行维护流程。安全保障体系:是保障系统安全应用的基础,包括物理安全、网络安全、信息安全及安全管理等。技术支持体系:技术支持体系的核心是人,通过科学的服务管理流程建立专业服务体系的标准化,针对国省数据共享系统新的数据需求和功能需求不断推 陈 出新,优 化 组合,保障 系 统的不 断优化 和完善。系统实现 关键点解决方案 流程控制的自动化调度处理平台根据业务需要,系统整合不同协议的多个独立软件,用自研的流程控制的自动化调度处理平台,通过集中调度和分布式执行方式,实现统一的配置管理和集成调度的交换服务微代理模式,实现国外数据并行高效地获取。第期顾文静等:基于流程控制的国际气象通信数据收集管理系统的设计与实现调度平台由调度中心和执行器组成,调度中心负责系统管理和任务调度功能,自身不承担业务代码,系统管理功能包括任务管理、执行器管理、日志管理等,任务调度功能从数据中心拉取任务,按照执行时间将新任务投递给执行器;执行器负责接收调度请求并执行任务逻辑,任务模块专注于任务的执行等操作。调度处理平台以 调度器,分布式组件 ,消息中间件,以及 、数据库等作为支撑,调度器在 的基础上修改了任务调度的模式,采用注册和 (远程服务调用)方式来实现任务调度;实现任务的分布式协调,并通过 分布式锁,避免集群中的多个服务器同时调度任务;当任务调度时,发送消息到 ,执行器收到任务消息后,消费任务信息并执行任务 。整体架构如图所示。调度系统与任务解耦,提高了系统可用性和稳定性;支持可视化、简单且动态的管理调度信息,包括任务新建,更新,删除,任务报警等,所有上述操作都会实时生效,同时支持监控调度结果以及执行日志。图调度平台整体架构 基于配置的 爬虫框架技术根据业务需求,从互联网上获取各类气象数据,面对网页数据爬取的复杂性,基于配置的 爬虫框架技术可以灵活配置获取互联网气象数据和产品,对 协议有良好的支持,适应不同网页数据内容的灵活获取,并依托于流程控制的自动化调度处理平台实现动态加载服务、界面可配置、结果可展示、流程可监控。技术实现系统实现紧密结合现代气象业务发展和实际业务需求,统一软件技术框架,面向接口实现服务化开发。通过数据库与文件库的优化配置、动态调整作业优先级、动态调整执行作业数、作业负载均衡、硬件合 理 的 冗 余 配 置 等 措 施 提 高 系 统 的 处 理时效 。系统主要涉及到任务调度、数据获取、处理分发和监视四个方面技术点,如图所示,数据获取模块封装 、递归镜像以及 等工具,实现快速、高效地文件、消息收集及爬取等数据获取。应用基于事件驱动机制的 程序进行数据目录的监听,实现对事件处理的实时响应,且没有轮询造成的系统资源消耗。当被监听文件落地后,将文件路径、文件名、文件落地时间等信息写入 库。任务调度模块按照配置的路由策略和时间触发识别任务,任务调度模块采用 作为注册中心,可以动态发现和检查执行器的状态。任务调度模块将任务路由指定执行器后,启动识别任务,调用 服务获取数据的识别配置(如文件路径、文件名规则等),使用 提供的正则匹配功能快速匹配文件,识别数气象科技第 卷图系统功能模块交互关系据时次、预报时效等信息,并将处理状态和识别后的信息更新到 库,实体数据文件通过链接方式发布到用户目录下,实体数据文件仅存储一份,减少文件存储空间。各个环节均根据规范要求输出详细日志,监视信息采集模块通过 实现数据收集日志信息、下载服务日志信息等监视日志实时抽取并存储到 库表中。统计查询模块读取各类数据的监控配置,判断文件的时效性状态,将其更新到 逐日文件明细表中,按照数据进行汇总,更新逐日数据汇总信息到 库表中。并封装成 发送至气象综合业务实时监控系统,异常情况则根据告警策略封装成 发送气象综合业务实时监控系统。数据库结构数据收集管理系统包含了数据收集、数据识别预处理和缓存、监视统计、共享分发以及调度框架、权限认证部分基础信息表,共创建 张数据表。对数据识别预处理和缓存表以及监视统计相关表进行统计预处理,生成数据收集日志索引和节目单索引表;其中索引表的可统计属性均与基础信息表建立主外键关系。业务应用国际气象通信数据收集管理系统已实现美国、欧洲、日本等国家 余种观测数据、卫星高分和数值高 分 数 据 的 收 集 处 理,接 收 的 、等卫星高分数据,获取数据量约 。其中日本 卫星数据、全球预报系统 、产品、全球数据同化系统 产品、欧洲中心大气模式产品、日本高分辨率数值预报产品()等备受用户关注的数据已经通过共享分发提供国家局和省局天气气候业务使用,提升预测、预报精准度 。任务调度 任务调度配置对任务调度进行统一管理,根据业务需要注册新的脚本或类库进行可视化任务调度配置,并支持动态修改任务状态、暂停恢复任务,以及终止运行中任务,即时生效。通过【数据管理】的【关联程序】【关联任务】分页面进行脚本注册和任务配置。脚本注册配置包括脚本名称、执行类标识、脚本类别、阻塞处理策略、脚本类型、脚本全路径以及数据分类等信息。新增任务配置包括任务调度策略、任务执行策略,任务种类、选择脚本、优先级和调度异常处理等信息(图)。任务调度管理【任务管理】的【调度日志】页面展示所有调度任务的名称、调度时间、调度结果、执行结果、执行状态及详细日志信息,并对近一个月的调度信息进行汇总形成运行报表,如图所示。第期顾文静等:基于流程控制的国际气象通信数据收集管理系统的设计与实现图任务调度策略页面图任务调度管理页面气象科技第 卷 监视统计根据调度策略定时启动的节目单更新和汇总任务,统计各业务时次数据的收集情况并在【监视统计】页面按照业务时次粒度(年、月、日、时、分)展示,根据节目表将数据文件划分为及时(已到文件数量)、不影响业务迟到、影响业务迟到和缺收种状态,用不同的颜色表示,如图所示。图数据监视统计页面 时效统计 年 月,针对用户重点关注的 种数据进行 收 集 时效性统 计,如 表所 示,及时 率 均在 以上,根据业务需求,文件大小小于 的文件收集时效小于,文件大小大于 小于 的收集时间小于 ,文件大小大于 小于 的收集时间小于 ,如表所示,种数据均满足业务要求。结