温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
XX_3_SYS_
系统
日常
安全
监控
管理
规范
文档编号
XX_3_SYS_系统部日常安全监控管理规范
版 本 号
V1.0
密 级
内部公开
系统部日常安全监控管理规范
XXX信息技术有限公司
第 12 页 共 12 页
文档信息
发布版本:V1.0
最后发布时间:XX
编写人:XX
审核人:XX
版本控制
编号
修订人
修订时间
版本号
修订内容说明
1
2
3
目 录
第一章 目的 4
第二章 适用范围 4
第三章 职责与分工 4
第四章 监控分类 4
第五章 监控策略原则 6
第六章 机房环境监控策略 6
第七章 设备硬件监控策略 8
第八章 程序及进程监控策略 9
第九章 网络及线路监控策略 10
第十章 监控策略的实施 11
第十一章 维护与解释 12
第一章 目的
为有效保障XXX关键信息系统运行安全,及早发现事故隐患并处理,规范信息系统监控管理,特制定本程序。
第二章 适用范围
监控点是指各系统有可能出现故障的隐患点,包括硬件、软件、以及支持系统运行的基础环境。
本程序适用于本公司总部的硬件设备、应用程序,还包括机房环境、网络线路等的日常监控管理。
第三章 职责与分工
职责与分工
运营副总裁
负责批准本程序。
信息安全部
负责组织编制、审核本程序,检查并监督本程序执行情况,协调解决相关问题。
系统部:
网络工程师负责对公司硬件设备包括网络出口设备、核心交换机、路由器进行监控与日常维护;
系统工程师与数据库工程师负责对服务器、存储等情况进行监控和维护,同时,还包括对应用程序、机房环境、网络线路等的日常监控管理。
第四章 监控分类
关键系统监控对象可进行如下分类:
(一) 机房环境监控:包括机房温度监控、机房湿度监控、机房红外监控、机房烟雾监控、机房地面水浸监控、机房出入门禁监控、机房市电输入监控、空调运行情况、UPS运行情况等。
备注:本公司核心机房托管于世纪互联,机房环境监测由世纪互联的维护人员负责相关内容的日常监控,具体由IDC托管机房完善此项工作。
(二) 涉及到对XXX生产应用服务器、数据库服务器以及存储等设备,涵盖如下的重哟啊监控信息指标:设备硬件监控:包括服务器的负载情况、CPU利用率、内存使用率、交换空间的空闲率、硬盘使用率,以及涵盖了对硬件之间的I/O吞吐情况等。
(三) 涉及到XXX核心的应用程序需要完成如下的实际监控内容与性能指标:根据应用的等级进行划分,大致分为应用服务器JBOSS/CDN服务器/DB服务器等;其中,应用服务器监控需要涵括对应用组JBOSS以下重要指标:HTTP可用数监控、FreeMemory可用内存监控、ThreadBusy现成繁忙情况监控、ActiveThreadCount当前活动线程数监控、maxThreads最大线程数监控、Established建立连接数监控、Time_WAIT等待连接数监控等;包括前端应用程序、DB与后台服务程序需要记录当前DB2DS/DBSTATE的状态,完成数据库系统以及中间件程序的正常工作等。具体本文末尾的附件内部——《XXX运维监控管理列表》
(四) 网络通信和安全系统监控:包括局域网络、广域网络及互联网的监控,以及广域网线路和互联网接入线路的监控和安全系统监控等。
根据监控系统所发挥的监控作用可进行如下分类:
(一) 状态监控:指对监控点是否运行在正常状态的监控;
(二) 性能监控:指对监控点的性能和容量是否满足设定指标要求的监控。
根据监控系统的工作原理可进行如下分类:
(一) 应用层监控:指使用应用系统软件进行的监控。该系统一般独立于被监控系统运行,通过检查系统各监控关键点运行状况是否满足设定阀值要求,来实现监控功能;
(二) 专用工具监控:指针对特定设备、系统使用厂商或第三方的专用工具来进行的监控。
第五章 监控策略原则
系统部及各应用系统负责部门应针对关键和重要系统,确定相应的监控点,并制定相应的监控策略。
监控策略制定应遵循以下原则:
(一) 有效性原则,即应根据系统的特点和在所关注的信息系统整体所发挥的作用制定监控策略,确保监控功能发挥应有的作用;
(二) 可靠性原则,即监控策略,尤其是关键功能点的监控策略应尽可能采用软件与硬件相结合、自动与人工相结合等方式,以使监控能对影响或可能影响服务的事件准确及时响应;
(三) 可行性原则,即制定的监控策略应能通过工具、巡查有效执行;
(四) 开放性原则,即监控策略应具有较好的兼容性和可扩充性,可根据系统的增减和变化不断完善。
监控策略制定时,应充分考虑被监控系统的对象分类,根据其系统特点和在信息系统中发挥的作用,来确定相应的监控点和监控策略。
监控策略制定时,应对监控点分别考虑监控作用分类,即单一状态监控、单一性能监控、或两者同时监控。
监控策略制定时,应充分考虑完成监控功能所需的条件,在技术条件许可的前提下,应尽量采用自动监控策略。
第六章 机房环境监控策略
系统部需对机房的温度湿度进行有效监控,具体要求如下:
(一) 监控时间:每日应24小时对机房的温度湿度进行探测监控。
(二) 监控要求:要求监控超出规定范围时能够通过报警声和短信相结合的方式进行预警,具体监控范围参见下表(引自《电子计算机房设计规范》GB50174)
监 控
项 目
总部主机房和灾备机房
各分支机构机房
夏 季
冬 季
全 年
温 度
22 ±4 ℃
20±4 ℃
16-26℃
相对湿度
45%-65%
40%-70%
温度变化率
<5℃/h 并不得结露
<10℃/h 并不得结露
系统部需对机房人员进出进行有效管理,具体要求如下:
(一) 监控时间:每日应24小时对机房进行门禁管理、保安值班和人员物品出入登记。
(二) 监控记录频次:实时记录。
(三) 监控要求:在机房各出入口,应当配备门禁系统,只有经过授权的人员才能通过门禁系统进出机房,门禁监控系统应当能够详细记录人员进出情况。
系统部需对机房的火灾隐患进行有效监控,具体要求如下:
(一) 监控时间:每日应24小时对机房进行烟感探测。
(二) 监控记录频次:实时记录。
(三) 监控要求:机房内应当在每20平米配备至少一个烟感探测设备,烟感探测设备应与机房环境监控系统相连。并能够通过报警声及短信方式进行预警。
信息技术中心需对机房的地面水浸进行有效监控,具体要求如下:
(一) 监控时间:每日应24小时对机房进行水浸探测。
(二) 监控记录频次:实时记录。
(三) 监控要求:机房内应当在消防供水管道附近、空调主机附近及空调风口附近配备若干水浸探测设备,水浸探测设备应与机房环境监控系统相连,并能够通过报警声及短信方式进行预警。
信息技术中心需对机房的市电输入情况进行有效监控,具体要求如下:
(一) 监控时间:每日应24小时对机房市电输入进行监控,应采用持续探测监控。
(二) 监控记录频次:实时记录。
(三) 监控要求:应对市电输入交流电压监测(按三相考虑)、负载分配交流电流监测(按三相考虑)、直流电压输出配电监测。
项目
A
B
C
稳态电压偏移范围(%)
±2
±5
+7
-13
稳态频率偏移范围(Hz)
±0.2
±0.5
±1
电压波形畸变率
(%)
3-5
5-8
8-10
允许断电持续时间(ms)
0-4
4-200
200-1,500
此外有条件的机房,还应对重要机柜中的微环境进行有效监控。
第七章 设备硬件监控策略
系统部及各应用系统负责部门按照关键业务的优先级别,对支持关键和重要业务运行的设备进行有效监控。
(一) 应通过技术手段对设备的CPU利用率进行监控,如有多个CPU或多内核CPU的,应当对所有CPU或内核进行监控。CPU利用率设定的监控阀值应不超过75%。
(二) 应通过技术手段对设备的内存使用率进行监控,应监控物理内存的总量、已用量、余量以及虚拟内存的使用情况。内存使用率设定的监控阀值应不超过80%。
(三) 应通过技术手段对设备的硬盘使用率进行监控,应监控硬盘存储空间的总量、已用量、余量的使用情况。根据对象不同,比如应用服务器设置的阀值不超过80%,数据库的磁盘监控不应该低于20%。
(四) 应通过技术手段对诸如采用磁盘阵列技术、磁盘柜以及各板卡间的I/O吞吐情况进行监控。
(五) 以上监控内容的监控间隔应控制在2分钟以内,并通过技术手段对其进行24小时不间断监控,其监控报警应至少包含有声音和邮件方式。
机房的空调系统作为重要的硬件设备,应当对其进行重点监控,对其监控的要求如下:
(一) 监控时间:每日应24小时对机房空调的运行情况进行监控。
(二) 监控要求:要求监控超出规定范围时能够通过报警声、电话等方式进行报警,具体监控范围包括机房空调制冷量、送风量、空调异常故障、空调断电自启动情况等。
(三) 如无自动监控系统,可采用人工巡查方式实现空调系统监控。
机房的UPS后备电源系统,作为重要的硬件设备,应当对其进行重点监控,对其监控的要求如下:
(一) 监控时间:每日应24小时对机房UPS的运行情况进行监控。
(二) 监控要求:要求监控超出规定范围时能够通过报警声、电话等方进行报警,具体监控范围包括市电输入端电压电流变化情况、UPS负载情况、UPS输出电压电流变化情况、UPS电池供电情况、UPS旁路工作状态以及UPS的异常故障及报警状态等。
(三) 如无自动监控系统,可采用人工巡查方式实现UPS系统监控.
第八章 程序及进程监控策略
系统部及各应用系统负责部门应当根据业务系统的优先级别,对支持关键和重要业务系统运行的程序、进程、后台数据库、消息队列等运行情况采用技术手段进行重点监控。
对程序和进程的监控应当对程序或进程的运行个数、窗体的运行个数进行有效监控。对于与重要应用系统密切相关的程序,应当保证在业务服务时间段内进行重点监控,目的是防止重要程序或进程意外关闭或终止。
对程序和进程的监控还应当包括对支持程序和进程运行的系统服务的监控,其运行状态也会影响到程序和进程的运行状态。
对后台数据库的监控,重点是对数据库死锁现象进行监控。对数据库的监控应当每天24小时进行监控,目的是防止数据库死锁对业务的影响。
对数据库的监控还应当包括对表空间和数据的监控,重点是对业务数据进行监控,已确保业务的正常开展。
对应用中间组件、DB及消息队列的监控主要是对队列以及队列中具体作业运行状态进行监控。对队列的监控应当保证在业务处理时间段内进行重点监控。
第九章 网络及线路监控策略
网络及线路作为信息系统关键的支持部分,信息技术人员应当对其进行重点监控。对网络及线路的监控应当包括如下内容:
(一) 关键和重要网络和安全设备的运行日志、异常行为监控、性能监控、性能数据进行连续采样、记录、阀值预警和趋势分析;
(二) 广域网主备线路通断状态的监控,对流量进行连续采样、记录、阀值预警和趋势分析;在正常情况下,由网络工程师每次例行巡检工作中,巡检主要包括对广域网的主、备线路的状态进行测试评估,并通过结合运用商提供的线路信息,做好对流量的监控处理。
(三) 局域网链路通断状态的监控,对流量进行连续采样、记录、阀值预警和趋势分析。
系统部及各应用系统负责部门应当运用技术手段对网络及安全设备的运行日志进行采集和分析,日志的采集和分析应当每日进行,并每周形成汇总报告。系统部及各应用系统负责部门负责对系统日志的审核。
系统部负责对网络及安全设备的性能监控,应当包括信息机房和关键防火墙设备、核心路由器设备、核心交换机设备的CPU利用率监控,各设备的CPU利用率监控阀值应当小于50%。
信息技术中心对广域网通信线路的监控应当包括对外部广域网、内部广域网、互联网连接质量、流量、中断情况的监控。
系统部对局域网的监控应当包括对各链路通断状态、各端口运行情况、网络异常行为的监控。
以上监控内容应当对其采用技术手段进行监控,并在发现异常时能够及时通过报警声或短信、电话等方式及时报警。
第十章 监控策略的实施
系统部应当根据各系统监控策略,按照成本风险平衡原则,对监控系统进行选型和建设工作。
系统部及各应用系统负责部门负责人,负责确定监控策略、制定监控技术方案;系统开发负责人或技术支持负责人,对首次开发上线的系统负责提交监控策略和监控方案的建议,并对运行中系统的监控改善提出建议。
各系统监控的技术方案中应当包含监控内容、监控点、监控工具、监控方法、监控阀值、监控周期、验证方法等内容。
监控的技术方案中,其选择方法为首先查找系统可能存在的单点故障,将其作为最重要的监控点;其次查找对系统可能产生风险的事件,将其列为监控点。最后,根据监控策略对其进行监控阀值的设定。
各系统监控的技术方案制定完成后,提交风险委员会负责评估及审批,审批后各系统负责人应按照各监控点的相应要求部署监控系统,并设置相应监控参数。
各系统负责人在选用监控工具时,应当确保对各系统的运行影响控制在可接受的范围内。
监控系统部属完毕后,应当对其进行相应测试验证。主要是采用通过模拟临界阀值,来验证各监控点的监控有效性,以确保其监控性能、预警要求达到监控策略和监控技术方案的要求。
信息技术中心在实际运行过程中,如发现监控系统出现异常问题或者没能够及时对系统异常情况进行预警,应立即对监控策略和监控系统进行相应的梳理和排查,发现不足应当对监控策略、监控技术方案、监控系统进行相应的修改。
系统负责人对于新增系统或已经移除系统的监控,应当及时进行监控点的增加和删减。对于系统的变更操作,也应考虑对监控系统的影响。必要时可根据变更的实际情况,对监控策略、监控技术方案、监控系统进行相应的变更。
风险委员会或稳定安全小组负责对监控策略和监控技术方案应定期评审和修订,至少每年一次。
监控记录管理参见各系统相关的监控管理策略。
第十一章 维护与解释
本程序由信息安全部组织起草和维护。
本程序由信息安全部负责解释。
本程序自发布之日起执行。
附件:
附件文档名称:《XXX运维监控管理列表》
涵盖内容:
监控管理流程; JBOSS应用服务器监控列表;
DB服务器监控列表; CDN服务器监控列表;