分享
广州地铁信息系统自动化运维项目_张涛.pdf
下载文档

ID:2369845

大小:1.17MB

页数:5页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
广州地铁 信息系统 自动化 项目
46Information信息化城市轨道交通,2023 年第 3 期一、项目概述(一)项目背景随着广州地铁数字化转型以及智慧地铁的发展加速,业务系统以及 IT 设备数量不断增加,针对这些业务系统与 IT 设备的运维复杂度也在逐步增加。与此同时,广州地铁信息化管理水平及要求也在不断提升,单靠人工已经无法满足在技术、业务、管理等方面的精细化管理要求。基于目前情况,广州地铁需要构建一套符合集团信息化发展战略以及管理要求的云运维体系,实现 IT 运维的流程化、标准化、可视化以及自动化。(二)建设目标本项目基于目前广州地铁 IT运维现状,开展自动化运维的建设,通过各种自动化技术手段替代重复手工操作,构建高效、敏捷的运维服务体系,打造广州地铁云运维平台。基于数据驱动运维管理工作,打通 IT 运维的管理域与技术域,全力保障 IT 基础架构稳定可靠运行、降低业务系统宕机风险、提高运维管理效率、改进决策过程,从而实现以下目标:1.纳管 IT 资源,实现资源集中管理依靠自动发现的手段对全部的 IT 资源进行纳管,集中管理广州地铁信息系统自动化运维项目文:张涛、林德辉、卓熹、刘建成、邓燕君、罗耀铿丨广州地铁集团有限公司随着广州地铁数字化转型以及智慧地铁的发展加速,业务系统数量与运维复杂度也在逐步增加,单靠人工已无法适应新时代业务快速响应、快速实现、高质量交付的要求。通过参考业界先进的运维理念与应用自动化运维技术,广州地铁开展自动化运维的建设,实现了 IT 运维的流程化、标准化、可视化以及自动化,推动广州地铁 IT 运维向自动化、数据化与智能化的演进。所有 IT 资源配置信息,构建 IT资源图谱,形成 IT 资源元数据中心,同时以自动化、流程化的方式保障配置信息数据的统一性和准确性,结合可扩展开放的能力,支撑各种数据消费场景。2.提升运维效率,实现运维自动化将运维过程中产生的丰富经验进行积累和总结,基于原子化作业平台与可自定义的流程编排平台,形成高效的运维工具,建立自动化运维能力,提高运维人员的工作效率。3.帮助定位故障,快速恢复系统运行基于各类自动化采集方法对IaaS、PaaS、SaaS 各层进行相关监控指标的采集,提供灵活、自动化的事件监测能力,实时感知业务状态。当故障产生时,可以进行故障的快速定位,发现故障原因,从而缩短故障解决时间,提高业务整体可用性。4.融合运维数据,实现统一运营管理基于强大的数据引擎平台,进一步融合运维数据,提供报表和大屏的制作功能,实现数据互通,支持指标监控、异常告警、自定义报表等各业务场景的实时数据呈现与辅助运营分析,助力提升数据驱动的运维能力,构建高效、敏捷的运维体系,以实现运维到运营的转型。(三)建设内容在本项目搭建的云运维平台中,可将 IT 运维分成三个维度,即资源、动作和状态,见图 1。资源是指 IT 的资源,包括所有的对象(如主机、容器、数据库、中间件、应用等)、对象连接关系(如主机与容器、数据库、中间件、业务系统等各个对象之图 1 资源、动作、状态关系DOI:10.14052/ki.china.metros.2023.03.00447信息化城市轨道交通,2023 年第 3 期Information间的关联关系)以及其他如用户、权限等等都属于 IT 的资源,这些资源全部是为应用服务的。动作是指与应用相关的所有资源的变更,如部署、巡检、监控、维护等都属于运维动作。状态是指应用的运行状态,如主机、容器、数据库、中间件的状态都会影响到应用的状态,与应用息息相关。因此,云运维平台建设内容包括:信息资产管理:指 IT 资源管理,建立 IT 资源图谱,在业界称之为 CMDB,CMDB 是自动化运维的核心基础,支撑自动化流程的运行。运维动作管理:是自动化运维的核心动力,是基于一个个具体的场景进行任务定制。自动化运 维 需 依 赖 CMDB 提 供 资 源 支撑,同时需要基于 CMDB 搭建自动化平台框架,以确保自动化任务的执行。业务状态管理:本质上是监控管理,包括从主机、容器、数据库、中间件、应用服务等 IT 资源的实时监控。数据融合管理:对全域的运维数据进行抽取、分析、可视化展示,进一步融合运维数据,挖掘运维数据的业务价值,助力提升数据化驱动的 IT 运维能力。二、信息化运维现状(一)信息化运维现状广 州 地 铁 云 计 算 数 据 中 心目前服务范围覆盖集团内 12 个部门,7 个子公司,随着业务的创新发展及新技术的创新迭代,IT 运维从最开始的 ITIL 理念到DevOps 理念,再到现在的 AIOps理念,IT 运维已发生了翻天覆地的变化,这也对 IT 运维提出了更多新的挑战和要求。1.数字化转型以及智慧地铁的发展加速,所承载业务范围持续扩大。随着集团数字化转型以及智慧地铁的发展加速,集团云计算数据中心所承载的业务范围也在持续扩大,在承载管理域业务的同时,也承载了运营施工、维修管理、安全管理、乘车码等生产域业务。相关生产域业务一旦出现故障,可能会给集团带来社会负面影响,业务系统稳定运行的重要性不言而喻。2.运维人员数量不变,业务连续性要求提升。现有“58”的运维人员配置,难以满足生产域业务“724”的巡检要求和运维质量保障。在运维人员数量不变的情况下,业务系统的运维要求持续提高,正常运行率要求已从 99.9%提升到 99.99%。3.传统 IT 资产管理手段无法满足大规模的 IT 资产管理要求。传统的 IT 资产配置信息主要是手工填报,缺少自动化手段,依赖管理流程来管控,人工维护成本高,工作量大且数据准确性没有保障,不便于支撑后续自动化运维的开展以及 IT 资产配置信息数据的利用。这种低效的 IT 资产管理模式已无法满足大规模的IT 资产管理要求。4.业务敏捷迭代的需求愈发明显,传统的研发模式和运维模式急需转型。集团数字化转型工作的开展,促进集团各业务的优化与模式创新,业务敏捷迭代的需求也愈发明显。传统的研发模式和运维模式已无法适应新时代业务快速响应、快速实现、高质量交付的要求,需参考 DevOps 理念,促进研发与运维的沟通合作,以自动化流程来优化研发、测试、运维等所有环节。5.缺乏有效的数据利用手段和措施,未充分挖掘运维数据的业务价值。部分运维工具采用烟囱式架构独立建设,导致运维管理上的割裂,无法满足变化的运维管理场景和诉求。现有运维工具已经产生了一定的运维数据,但是数据分散且存在壁垒,缺乏有效 IT数据治理手段,难以形成一个整体的 IT 运维数据集合,导致在运维数据的利用上,仍然没有发挥应有的价值,没有真正做到数据辅助决策。(二)自动化运维实践IT 业界自动化运维的建设大致也是经历了这么几个阶段:从最开始的人工运维,到简单的运维脚本工具,到系统化和平台化的过程,而自动化运维到一定程度后,开始探索智能化领域。从传统运维中的研发与运维分离转型到新型的研发运维一体化(DevOps),不是简单把运维工作推给研发人员,而是需要把运维工作工具化,实现研发人员可以利用工具自助完成。DevOps理念的落地极度依赖运维工具的支持,运维工具的落地也不是一蹴而就的,需要结合企业实际情况逐步建设,首先完成标准化,例如 Java 类应用一套标准、.net类应用一套标准,标准化之后才能实现工具自动化,智能化的核心是数据,自动化沉淀了数据才能做智能化,以上步骤是相辅相成的,需要逐一实现。因此,自动化运维的建设应48Information信息化城市轨道交通,2023 年第 3 期遵循以下原则:1.坚持一体化建设传统运维体系建设虽然比较完整,但以烟囱式建设,信息无法互联互通,无法实现 1+12 的效果。应坚持一体化平台的规划和建设,互通各个平台或模块的能力,实现运维能力、经验的沉淀积累和复用。2.业务导向IT 运维的核心目标就是保证业务的稳定,因此 IT 运维能力的建设离不开业务。业务问题的复杂性要求 IT 运维具备复合能力,强调 IT 运维需要建设面向业务场景的运维能力。3.迭代分步实施落地自动化运维涉及到各种其他IT 运维的能力,整体的建设是一个庞大的体系,因此建设过程要根据所需的 IT 运维能力来进行分步建设落地。自动化运维以CMDB 作为运维数据的核心,自动化为基础能力,实现面向 IT 资源的场景化运维。首先,建设 IT 资源管理及自动化基础能力,能够纳管大规模IT 资源的属性及关系数据,并提供全面自动化管理能力,降低资源管理成本。其次,建设面向场景化运维的自动化运维能力,提供全面的自动化运维操作能力,降低运维管理成本。最 后,基 于 CMDB 将 监 控告警、运维流程、服务工单、自动化作业任务等运维数据进行融合,通过数据驱动运维管理。并要求业务出现故障时能够迅速告警,展示故障影响范围,基于运维数据分析,找到故障原因,快速故障恢复,提升业务的连续性。三、项目解决方案(一)云运维平台概述云运维平台借鉴 IT 业界主流的技术理念,结合广州地铁 IT 运维管理的需求现状,通过整合各个离散、孤立的 IT 组件与服务,融合所有运维数据,对所运维的应用系统和服务提供运维技术支持,打造一体化的云运维平台,形成可靠的 IT 运维支撑能力,以数据驱动运维。(二)云运维平台架构见图 2,IT 运维涵盖运维管理中心、配置管理、监控管理、自动化部署、运维工具集、运维服务管理等功能模块,基于配置管理的建设,IT 监控、自动化运维流水线消费配置管理数据来完成对应的监控管理和自动化运维管理,并通过提供规范的服务接口,实现 IT 服务管理流程与自动化流程的集成,打造“服、研、监、控、营”能力,提高运维效率,提升用户满意度,实现数据驱动的主动、敏捷的运维。服:基于ITIL、DevOps、AIOps理念,灵活定义、设计运维服务流程,并执行该流程,实现问题、事件、变更等工单运维服务,实时反馈流程进度,及时通知和闭环工单,提升用户满意度。研:基于敏捷与精益的思想,从整体业务出发,实现业务需求、应用开发、测试和部署的全栈式管理,实现应用的迭代交付、增量发布、高频部署等工作。监:全栈式告警管理,集中式性能监控、实现各层、各级运维对象的实时监控告警,全面掌控运维态势,提前发现风险,主动进行维护。控:固化运维经验,实现运维操作的可编程化、可配置化,按需调度执行等自动化运维模式,提高运维效率。营:将传统运维方式转化为数字化运维方式,通过数据分析,可视化展示,让资产总体运行态势状况通过数字化呈现出来,实现精细化管理,提前发现改进点,提升运营能力。图 2 云运维平台架构49信息化城市轨道交通,2023 年第 3 期Information四、项目效益(一)应用情况目前已完成云运维平台的运维管理中心、配置管理、监控管理、自动化部署、运维工具集、运维服务管理等功能的建设,实现了各应用系统的配置管理自动化、监控告警自动化以及应用发布自动化,并对运维数据进行融合,助力提升数据化驱动的运维能力。1.信息资产管理随着应用系统与 IT 软硬件设备数量的增加,信息资产的配置信息数据量也剧增。大量的配置信息数据过往都需要人为进行数据的梳理、导入、更新,人工投入工作量大。通过对信息资产的数据建模,结合 SNMP/Agent/API等自动化采集手段,以“数据消费”为导向构建统一权威的数据源。目前平台已纳管1058台主机,210 个容器,604 个中间件,615个数据库,实现信息资产配置信息的自动采集与自动更新,在减少人力维护成本的同时提升配置信息的准确性与实时性。2.信息资产运营分析见图 3,基于信息资产配置信息与监控数据,进一步融合运维数据,实现数据互通,支持信息资产实时状态、异常告警、自定义报表等各业务场景的实时数据呈现与辅助运营分析,有效地解决数据分散且存在壁垒的问题,助力提升数据化驱动的运维能力,实现运维到运营的转型。3.服务管理流程与自动化流程联动基于可自定义编排的流程引擎来制定服务管理流程,并与自动化运维流程打通,在实现对服务管理流程进行规范化和标准化管理的同时,也强调对服务交付的质量与效率,有效地解决了运维服务流程孤立与执行效率低的问题。4.监控与故障分析见图 4,基于信息资产配

此文档下载收益归作者所有

下载文档
猜你喜欢
你可能关注的文档
收起
展开