温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
重载
铁路
港口
数据
应用
研究
王宏嘉
第1期重载铁路港口站大数据应用研究王宏嘉,王晶,李瑞辰,王健,徐永梅(中国铁道科学研究院集团有限公司通信信号研究所,北京100081)摘要:本文根据我国铁路的发展要求,结合重载铁路港口站的作业特点,研究了铁路大数据应用的总体架构,以朔黄铁路黄骅港站为研究对象建立大数据平台系统。通过对大数据特性分析,大数据应用价值挖掘,结合港口站的作业方式,设计了黄骅港站大数据平台应用的总体架构。对大数据平台系统应用中的问题,提出了软件和硬件的解决方案,对系统应用中数据采集、数据存储、数据分析、数据管理和数据应用等关键技术进行阐述,同时总结了研究中尚未解决的问题,为重载铁路港口站大数据应用指明了发展方向,对我国铁路行业数字化建设进行了展望。关键词:重载铁路;港口站;大数据;机器学习;人工智能中图分类号:U691文献标识码:B文章编号:2096-7691(2023)01-076-05基金项目:国家能源投资集团有限责任公司科技创新项目(GJNY-20-107)作者简介:王宏嘉(1988),男,助理研究员,现任职于中国铁道科学研究院集团有限公司通信信号研究所,主要从事轨道交通运输与控制工作。Tel:15210576916,E-mail:whj_引用格式:王宏嘉,王晶,李瑞辰,等.重载铁路港口站大数据应用研究 J.能源科技,2023,21(1):76-80.在数字经济时代,数据是新时代重要的生产要素,是国家基础性战略资源1。中国铁路总公司2017年颁布了 铁路大数据应用实施方案,该方案作为铁路大数据应用的顶层设计文件,为我国铁路大数据工作指明了方向2。马小宁等从铁路大数据平台的总体方案和关键技术方面进行了讨论和研究3;吴艳华等对国内外各行业大数据标准进行比较,研究了铁路大数据标准体系方案4;宋宗莹等围绕重载铁路智慧车站的架构和功能进行了研究5。针对重载铁路港口站大数据技术如何应用的研究,目前还鲜有人涉足。重载铁路运输是提高铁路运输效率的重要手段,其中港口站是重载铁路线路中最重要的一个环节。本文结合朔黄铁路黄骅港站现状,以大数据应用为核心,大数据特性为基础,利用智能化技术构建港口站大数据平台,旨在解决重载铁路港口站大数据应用问题。1大数据特征与面临问题1.1大数据特性重载铁路港口站大数据特性包括大量(Volume)、多样(Variety)、快速(Velocity)、价值(Value)和准确(Veracity),称为5 V特性6。大量:据不完全统计,铁路总公司及各路局存储的数据量至少在10 PB数据量级别。多样:铁路系统数据具有多层级、多地域、多系统、多部门、多业务的多样特性。快速:各系统及设备源源不断地产生数据,数据更新速度快、时效性强。价值:从海量的数据中挖掘出对未来趋势与模式预测分析有价值的数据。准确:大数据内容是系统作业情况的真实映射,能够准确地反映事物的发展规律。1.2面临问题结合大数据特性和重载铁路港口站作业现状,以朔黄铁路黄骅港站为研究对象,大数据应用主要面临以下几个问题:(1)车站既有系统落后,生产作业中数据流转多采用电话口头通知和纸质票据传递,缺少数字化的信息流转系统。同时,自动采集的智能感知设备匮乏,造成数据标准化低、准确度差、可用性不强和数据不全面的问题。(2)车站各系统单独建立数据库,数据加工标准第21卷 第1期Vol.21No.12023年2月Feb.2023第1期数据多元应用数据综合展示统计报表智能填报综合数据查询车站能力查定与作业评价智能调度智能控制智能维护风险隐患预警设备维修预警灾害监测预警数据发布统计分析数据分析与推演报表推算数据挖掘数据建模深度学习BI分析数据血缘关系图谱数据资产管理数据分域存储多元数据融合数据资产目录数据标准管理数据质量管理数据安全管理结构化数据和非结构化数据实时数据数据抽取数据清洗数据转换数据脱敏数据汇集数据抽取数据转换数据汇集数据传送既有业务数据智能感知设备数据外部数据互联网数据信息控制系统货运管理系统运输调度系统现车管理系统设备检测系统协同办公系统视频监控系统北斗定位系统天气监测系统5G通信系统应用服务数据分析数据存储数据采集数据源王宏嘉等:重载铁路港口站大数据应用研究和方式不同,数据共享不足,存在严重数据壁垒;各系统数据存储格式不统一,数据有重复,采集实时性低、延时高、保存周期短。(3)车站各系统相互独立,数据分析还停留在数据使用的初级阶段,技术手段落后,缺少有深度的数据分析和跨系统、跨专业的综合分析,导致数据利用率低,大量数据得不到有效的利用和服务。2大数据应用方案2.1大数据应用目标港口站大数据应用是通过搭建综合大数据平台,实现对数据的采集、存储、分析和应用,最终实现数据辅助决策的目的。以朔黄铁路黄骅港站为依托,针对车站作业系统智能化水平低、数据壁垒严重、数据存储量小、利用率低、缺少数据分析和综合应用等问题,建立黄骅港车站大数据平台。对车站控制系统和调度系统进行智能化改造,新建5G通信系统、视频监控系统、智能感知系统、调车自动驾驶系统等,增加数据采集和存储。打通车站与港务公司之间的数据壁垒,综合利用港口经营管理数据、生产研发数据、设备流数据、视频数据、日志数据等,整合业务相关的数据链集合,深度挖掘数据规律,实现大数据综合应用。2.2大数据应用体系研究港口站大数据平台,建立重载铁路大数据体系,整个平台体系以树形结构从底层向上层集中,在中心节点设立大数据中心,以此达到数据的高效收集和利用。黄骅港站大数据平台体系以肃宁分公司大数据中心为核心,由肃宁大数据中心向下辐射,整合肃宁分公司管辖下的朔黄铁路各站数据平台,其中以黄骅港站大数据平台最为复杂和典型。大数据平台体系结构如图1所示。肃宁分公司大数据中心防火墙防火墙防火墙防火墙黄骅港站大数据平台其他车站大数据平台图1大数据平台体系结构肃宁分公司大数据中心是包含其管辖范围内各车站的综合大数据中心,数据源从各车站级大数据平台中提取。车站级大数据平台是肃宁大数据中心的元数据层,元数据层的大数据平台以铁路专网为通信通道,各大数据平台与专网之间设置防火墙,防火墙只允许大数据平台指定端口,指定通信协议内的数据进行通信,以此保障数据安全。2.3大数据平台方案2.3.1大数据平台总体架构黄骅港站大数据平台是大数据应用体系结构中的基本单元,平台建设尽可能多地采集多样数据,存储有效数据,分析价值数据,最后提供多元应用,重载铁路港口站大数据平台架构如图2所示。黄骅港站大数据平台总体分为数据源层、数据采集层、数据存储层、数据分析层、数据应用服务层。图2重载铁路港口站大数据平台架构77第1期(1)数据源层:包括既有业务系统数据、智能感知设备数据和外部数据。既有业务数据包括联锁、停车器和翻车机等信号控制系统、货运管理系统、运输调度系统、现车管理系统等;智能感知设备数据包括车站智能化改造后采集的数据,包括视频监控系统、5G通信系统、北斗定位系统、天气监测系统等;外部数据包括来自互联网的经济数据、气象数据、政策数据等。(2)数据采集层:根据数据源的特征,将结构化的数据、非结构化的数据和实时流数据进行抽取、清洗、转换、汇集、脱敏等操作。(3)数据存储层:对数据进行多元融合,利用分布式存储技术,对数据分域存储,建立数据资产目录,实现对数据资产的标准管理、质量管理和安全管理。(4)数据分析层:建立算法模型库,使用人工智能技术和机器学习算法,对数据进行分布式计算、统计分析、数据挖掘和自主训练,构建数据应用的智能大脑。(5)数据应用服务层:根据多样化的需求,将数据的分析成果进行综合展示,实现数据综合查询、统计报表智能填报、智能调度、智能控制、智能维护等多元化应用。2.3.2大数据平台网络方案为了解决大数据平台与各作业系统的数据屏障和网络安全问题,智能调度系统、智能控制系统、综合管理信息系统、货运管理系统、综合调度系统、视频监控系统和5G通信平台等系统均通过防火墙或网闸接入车站中心网络,解决各系统数据流通问题。黄骅港站中心网络通过专网与黄骅港务公司机房,朔黄铁路中心机房和车辆分公司机房连接,从而获取港务生产调度信息、朔黄调度命令信息、综合运输信息、车辆管理信息、机务管理信息等,同时共享站内车辆信息、站内阶段计划和信号设备信息等,如图3所示。黄骅港务中心机房港务生产调度系统翻车机控制系统朔黄铁路中心机房调度集中系统 综合运输信息系统机务管理信息系统车辆管理信息系统车辆分公司机房大数据平台系统大数据综合展示大屏大数据应用终端黄骅港站中心网络防火墙智能调度系统智能控制系统综合管理信息系统调机自动驾驶系统视频监控系统5G通信平台5G基站智能终端监控终端机车无线终端图3黄骅港站大数据平台网络架构2.3.3大数据平台硬件方案为了便于车站利旧改造升级,增加大数据平台系统的可扩展性和稳定性,以集群技术为基础,利用虚拟化技术结合铁路上双机热备的优势构建大数据平台硬件方案。黄骅港站大数据平台系统集群分成A、B两组配置,两组同时运行互为主备,分别接A、B双套电源,使用A、B双套网络。向下两组集群接入光纤交换机分别与存储磁盘阵列连接共享存储。向上集群通过2 台万兆光纤交换机堆叠组成网络,通过防火墙与外部生产网络连接。同时集群通过1 台微机作为系统集群的管理终端,如图4所示。防火墙堆叠万兆光纤交换机A万兆光纤交换机B大数据服务器集群A大数据服务器集群B管理终端光纤交换机存储磁盘阵列图4黄骅港站大数据平台硬件方案2.4大数据关键技术结合重载铁路港口站的作业特性和黄骅港站的应用场景,研究适应车站的大数据关键技术,建设黄骅港站大数据平台的关键技术,如图5所示。数据存储与管理数据采集数据交换Sqoop文件收集Flume消息列队KafkaSQLHive大表HBase内存SPark流Storm批处理Tez MapReduce搜索SolrPhoneixPig HPP分布式资源调度Yarn分布式文件系统HDFS模型算法机器学习数据挖掘管理监控虚拟化管理中心协调管理Zookeeper数据分析数据应用数字孪生数据共享智能报表智能维护智能调度与控制图5重载铁路港口站大数据应用关键技术2.4.1数据采集技术根据车站作业系统和办公系统的数据特性,数据采集技术主要包括以下几个方式:Sqoop负责处理结构型数据,车站作业的调度系统、控制系统和办公系统等,90%是Oracle或MySQL等结构型数据库,利用Sqoop技术在Hadoop和数据库之间实现有效的传输数据。Flume负责收集日志文件,将各生产系统产生的日志文件通过Flume实现将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到数据存储系统。78第1期王宏嘉等:重载铁路港口站大数据应用研究Kafka负责采集实时流数据,包括系统产生的监控视频和通话录音等数据,具有消息持久化、高吞吐、分布式、多客户端支持等特性。2.4.2数据存储技术数据存储技术是大数据平台应用的基础,主要包括以下内容:HDFS是Hadoop分布式文件系统,是数据存储的核心技术。运用HDFS处理生产作业和日常办公中产生的海量数据,数据像流水一样,“流”进来一点处理一点,减少存储处理的延时,降低系统消耗的资源,为数据访问提供更高的吞吐量。同时,HDFS具有高度容错性,硬件要求低,兼容车站既有机器,又利于车站设备利旧改造。MapReduce是分布式计算框架,由编程模型和运行环境组成。编程模型为维护人员提供简易模型接口,只需要简单的函数命令,即可实现对分布式存储的管理。而系统节点间通信、节点失效、数据切分等操作,全部由运行环境自动完成。除此之外,建立在Hadoop之上的Hive数据仓库,提供资源管理和调度的上层应用YARN,分布式数据库HBase,大数据处理框架Spark,针对大规模流式数据处理的技术Storm,全文搜索服务Solr等都是大数据存储和管理的支撑技术。2.4.3数据分析技术数据分析技术是大数据平台应用的关键,可以概括为以下内容:数据挖掘:数据挖掘是从车站各系统中采集大量不完整和有噪声的随机数据,识别出对应用有效和可用的数据,进行分析处理的过程。利用数据挖掘技术对海量数据进行清洗和归并,形成各种主