温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
军事
信息系统
保障
工作
研究
董云泰
电子质量2022年第12期(总第429期)军事信息系统运维保障工作研究董云泰,牛晓,吴兴发,张海(中国电子科技集团公司第二十八研究所,江苏 南京210007)摘 要:随着现代社会信息技术的不断发展,军事信息系统从初始发展、各业务独立建设、跨业务综合集成发展到当前业务一体化体系建设,系统的更新迭代和新技术的运用也给系统运维保障工作带来了新的变化与发展,系统运维对象在种类和数量上都有所增加,待解决的运维保障问题也愈发的复杂和多变,因此对系统运维保障工作的技术技能、管理水平、服务意识和应急故障处置能力提出了更高的要求。结合现阶段系统在线值班运行过程中的实际情况,深入地阐述了系统运维保障工作的运维对象、工作基本内容、待解决的问题和值班职责等方面的经验体会,予以有关单位参考与借鉴。关键词:军事信息系统;运维保障;对象;基本工作内容;建议中国分类号:TP 306文献标识码:A文章编号:1003-0107(2022)12-0006-04Study on the Operation and Maintenance of MilitaryInformation SystemDONG Yuntai,NIU Xiao,WU Xingfa,ZHANG Hai(The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China)Abstract:With the continuous development of information technology in modern society,mili-tary information systems have developed from the initial development,the independent con-struction of each business and comprehensive integration across business to the current con-struction period of business integration system.The update and iteration and the use of newtechnologies bring new changes and development to the operation and maintenance of the sys-tem,system operation and maintenance objects are increasing in the type and number,andthe operation and maintenance security problems to be solved are becoming more and morecomplex.Therefore,higher requirements for the technical skills,management level,serviceconsciousness,emergency trouble-shooting ability for the system operation and maintenanceguarantee work are put forward.Combined with the actual situation in the process of online dutyoperation of military information systems at this stage,the experience of system operation andmaintenance guarantee work in terms of operation and maintenance objects,basic content ofwork,problems to be solved and duty responsibilities is elaborated in depth so as to give refer-ence to relevant units.Keywords:military and information system;operation and maintenance;object;basic workcontent;suggestionCLC number:TP 306Document code:AArticle ID:1003-0107(2022)12-0006-04收稿日期:2022-10-28修回日期:2022-11-21作者简介:董云泰(1990),男,江苏南京人,中国电子科技集团公司第二十八研究所工程师,从事信息系统运维实施的研究工作。6军事信息系统运维保障工作研究董云泰,等0引言随着现代社会信息技术的不断发展,军事信息系统从初始发展、各业务独立建设、跨业务综合集成发展到当前业务一体化体系建设,为适应体制改革普遍采用了网络化和服务化技术架构1,引入了云计算平台、微服务架构、容器化部署、知识图谱和大数据平台等新兴技术支撑系统开设部署和业务功能实现。但随着微服务的运用,分布式服务间的连接、管理、监控和运维等问题也日趋复杂2,云计算的弹性伸缩能力、容器化部署和大型资源池的持续建设上线使得系统部署和运维更为灵活,但也使运维内容变得更加丰富,对运维保障工作带来新的变化和挑战。本文结合军事信息系统现阶段在线值班运行过程中的实际情况,深入地阐述了系统运维保障工作的基本内容、痛难点问题和值班职责等方面的经验体会,以期为相关人员提供一定的指导。1系统运维保障对象运维保障的对象分为军事信息系统本身的后台服务和系统依赖的外部软硬件设施。1.1军事信息系统本身的后台服务军事信息系统业务功能要正常运行,本身的后台服务是关键。系统本身的后台服务包括HDFS、Hbase、Oracle数 据 库、DM数 据 库、Zookpeer、memcache、redis、kafka、tomcat等数据库,以及开源组件和各类业务应用的C服务或Web服务。1.2军事信息系统依赖的软硬件设施军事信息系统究其本质是需要与其他系统互联互通的复杂软件产品,系统运行必须依赖服务器、网络和安防等。军事信息系统业务功能子系统多,业务之间信息流关系复杂,各类各型的服务器使用数量多,既有实体物理服务器,也有依托云平台创建的虚拟服务器,服务器依赖磁盘阵列存储海量数据。同时系统对安防要求高,需要虚拟机防护、Web应用防护、防火墙、信息服务可信防护、终端指纹登录认证等多层安全防护,必须配备相应安防设备和安防策略。实体物理服务器、网络设备、云平台、安防设备和客户机等硬件设施,网络和安防等配置策略,以及机房制冷、供电和UPS等基础设施,这些军事信息系统依赖的所有软硬件设施组成一个整体,为系统的稳定运行提供保障。2系统运维保障工作情况2.1系统的值班维护军事信息系统的运维保障工作一般都是采用轮班值守的方式进行值班维护,每班至少3个值班人员在岗。第一位值班人是系统运维人员,负责系统服务的运维监控,实时掌握系统后台服务的CPU、内存、网络、磁盘及关键服务的运行状态,及时处置监控告警;第二位值班人是网络运维人员,负责系统网络及机房设施的巡查监控,实时掌握网络节点通联状态和机房动环监控告警,对机房设施进行巡查,及时处置巡查过程中发现的问题;最后一位是安防值班人员,负责安防设备的状态监控、安防策略的调整、系统防病毒入侵和导入导出管控,及时处置危机系统安全的相关情况。每班的3个值班人员所负责的值班维护内容都与系统稳定运行密切相关,各环节环环相扣,无论哪一环出现问题都可能导致系统业务功能使用受限。值班人员的运维操作不只关系到本环节,也可能会对其他环节造成影响,这就要求值班人员应各司其职且密切配合,工作细心认真的同时要做到信息共享,切不能盲目大意,避免造成连锁反应。2.2系统运维过程中待解决的问题系统运维人员要通过专业的技术培训之后才能上岗,要求熟练处理系统出现的宕机等问题,其工作的局限性主要是对系统整体性、跨系统性问题不了解。在服务出现异常时,服务间数据流跨多个业务系统,不再局限于单个服务或单个业务系统的几个服务2,运维人员只知道检查某个服务,是无法找出实际故障点的。业务出现故障时,有可能不是系统服务的异常,也可能是安防端口策略未配置或网络ACL策略未开启等原因所导致,运维人员简单地总结问题,不愿去找出故障的根本原因,会延误解决问题的最佳时机,出现集群的某个节点故障,但集群整体仍对外提供服务的问题。这些问题都是目前军事信息系统运维过程中所常见的,只有将这些问题解决好才能让信息系统正常稳定地运行。2.3系统运维人员的工作职责a)运维人员应具有处理故障的专业能力对于突发故障的处理,必须要严格地按照有关规范处置和要求上报,问题处置的基本原则为:先进行应急处置恢复系统功能、后进行分析处理并给7电子质量2022年第12期(总第429期)出详细的分析解决措施。必须要保存故障突发的现象及处置过程,分析清楚故障后提供故障原因分析报告、修复措施和改进建议。b)保障日常安全运行保障信息系统各服务器和软件服务的正常运行,保障系统网络和安防策略的正确配置和通联顺畅,必须要制定日常巡检计划并按计划开展巡检巡修,建立与软硬件设备厂家的常态联系方式,与厂家共同制定完整的故障处置流程及故障应急方案,并根据软硬件升级同步更新方案文档,以备不时之需。c)保证系统可持续运行日常安全运行的保障措施已大大地降低了系统发生的风险隐患,但系统常年累月持续运行不发生任何问题到底是理想情况,系统终究可能因硬件设备老化、系统蓝屏和数据库崩溃等意外情况而发生宕机故障。因此必须做好硬件设备的备品部件预置,对军事信息系统的核心业务功能服务器采取集群化部署,提高服务可靠性,对不具体集群部署能力的服务采取冷备模式提供备份手段,同时利用数据库exp命令对数据库用户进行定期数据备份。d)处理系统的冗余数据系统长时间持续运行过程中,会逐步地累积系统日志、服务dump数据文件等冗余数据,大量的小文件和过大的文件会影响操作系统性能,进而对业务服务正常运行造成影响。特别是YHkylin操作系统重启时会先清空tmp目录才能完成正常启动,当tmp目录下存在上万甚至几十万个文件或文件夹套文件时会导致系统启动时间长达几个小时,影响业务功能正常提供服务。因此,必须对服务器系统磁盘空间大小、服务日志目录和操作系统tmp目录等加入监控,设置告警阀值,定期进行数据清理。e)整理系统的技术资料在系统运维保障工作中,完整的技术资料记录是后期运维、优化改造和故障诊断的原则基础,技术资料主要包括硬件设备使用说明书、军事信息系统使用维护手册、应急处置预案、故障分析报告、值班值勤日志和巡检巡修记录,以及设备保养维修记录等等。运维人员必须要保存好系统有关的文档资料并定期整理归档,当系统软件升级或设备更新时及时更新相关技术资料。f)运维人员应急演练军事信息系统的运维保障工作是一个系统的过程,要求运维人员在身体、心理和技能上都具备抗压能力,十分考验一个人的综合素质。运维人员在模拟训练环境中对军事信息系统做定期的应急演练,在演练的过程中学会处理常见的系统问题和应对突发故障,在实践中了解系统运行原理,进一步熟悉系统各类技术资料,能为在岗值班时从容处置各种情况提前打下基础。3提高系统运维保障工作水平的建议军事信息系统随着信息技术的发展在不断地更新迭代,这就要求系统运维保障工作也应紧跟系统发展步伐不断地改进提升,要求运维人员适应新技术新发展理念不断地提高保障工作水平。笔者认为,具体应从以下几个方面努力。3.1学习新技术、新发展理念运维的发展与技术趋势发展从来都是相辅相成。现在大体量、高并发等复杂场景下发展演进出来了服务化和分布式等技术,同时运维面临的软硬件复