分享
横琴大数据平台运维管理规范 - v1.0.doc
下载文档

ID:3138482

大小:361KB

页数:29页

格式:DOC

时间:2024-01-22

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
横琴大数据平台运维管理规范 v1.0 横琴大 数据 平台 管理 规范 v1
横琴新区大数据平台项目(集成开发服务) 横琴大数据平台项目 日常运维管理规范 横琴大数据平台项目组 版权声明 本文档的版权属于珠海大横琴科技发展有限公司或其附属公司。本文档未经我方书面许可,任何单位及个人不得以任何方式或理由对本文档的任何部分进行使用、复制、修改、抄录、传播或销售。 凡侵犯我方版权等知识产权的,我方必依法追究其法律责任。 文档信息 项目名称 横琴大数据平台项目日常运维管理规范 版本号 V1.0 文档作者 生成日期 审核者 审核日期 文档版本维护 版本号 作者/维护人 说明 时间 目 录 一、 总则 5 二、 编制方法 5 三、 编制目的 5 四、 适用范围 6 五、 岗位划分 6 六、 岗位工作范围及职责 7 七、 岗位工作内容及流程 12 1. 系统运维管理岗(项目经理): 12 2. 系统运维组织岗(运维小组长) 14 3. 系统运维技术岗 16 八、 运维值班管理制度 17 1. 值班计划制定: 17 2. 运维管理岗值班安排: 17 3. 运维技术岗值班安排: 18 九、 值班考勤管理制度: 18 1. 上岗、离岗 18 2. 请假、换岗 18 3. 加班 19 4. 休假 19 十、 运维工作接口管理制度 20 1. 运维团队内部接口工作管理 20 2. 与项目部运维组接口工作管理 21 3. 与项目部其他部门接口工作管理 23 十一、 运维文档管理制度 23 1. 文档分类 23 2. 文档命名规则 24 3. Email文档提交规定 24 4. 运维文档的汇总提交 25 5. 运维文档的存储(保存)、备份 26 十二、 第三方人员入场操作流程 26 1. 第三方人员入场工作申请流程 26 2. 第三方人员现场工作控制流程 26 十三、 运维例会管理制度 27 1. 例会划分: 27 2. 例会组织 27 3. 例会记录 27 十四、 运维团队内部培训制度(岗位工程师讲课制度) 28 十五、 运维团队绩效考核 28 十六、 其它要求: 29 1. 值班工作要求 29 2. 外出就餐要求 29 3. 通讯手机要求 29 4. 额外工作量 29 5. QQ登录考核 29 6. 接听电话要求 30 一、 总则 第一条 为保障大横琴科技发展有限公司信息系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、规范化,特制订本制度。 第二条 运维工作总体目标:立足根本促发展,开拓运维新局面。在企业发展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性发展。 第三条 运维管理制度的适用范围:运维部全体人员。 二、 编制方法 本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。 本实施细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。 三、 编制目的 为规范横琴大数据平台项目中机房运维团队日常巡检、监控作业流程,以便随时确定被监控对象(相关设备、系统)的运行状态是否正常,及时发现故障及隐患并给予及时上报处理。同时,对机房运维团队的日常考勤、相关报告的提交进行规范,便于进行绩效考核,特编写本文档。 四、 适用范围 适用于横琴大数据平台项目中所有运维岗位的日常巡检、考勤、工作文档提交及其他相关工作。 五、 岗位划分 规划横琴大数据平台项目机房运维团队由7人组成,按职责划分为如下岗位: 运维管理岗 项目经理:1人 运维组织岗:(辅助管理) 运维小组长(兼运维技术岗) 运维技术岗 网络、安全系统技术岗:1人 小型机、存储系统技术岗:1人 数据库、备份系统技术岗:1人 虚拟化及应用技术岗:1人 安全管理岗:1人 机房设备管理岗:1人 六、 岗位工作范围及职责 运维管理岗 负责按照横琴大数据平台项目建设要求,对横琴大数据平台运维团队进行科学管理,达到横琴大数据平台日常运维工作的顺利开展、项目承诺的服务条款的可靠实施,确保横琴大数据平台业务的安全、稳定、高效运行。 运维技术岗(含小组长) 1) 系统运维技术岗(小机、系统存储) 运维范围: ² 系统主机:指平台项目中采购的小型机及内部划分的相关系统分区(各生产数据库系统分区等)系统。 ² 存储系统:指平台采购的存储阵列及光纤存储交换机。 ² 操作系统:指运行在各系统分区上的IBM Aix操作系统。 ² 小机相关辅助设备(HMC)管理。 岗位职责: 提供的主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。 进行监控管理的内容包括: Ø CPU 性能管理; Ø 内存使用情况管理; Ø 硬盘利用情况管理; Ø 系统进程管理; Ø 主机性能管理; Ø 实时监控主机电源、风扇的使用情况及主机机箱内部温度; Ø 监控主机硬盘运行状态; Ø 监控主机网卡、阵列卡等硬件状态; Ø 监控主机HA运行状况; Ø 主机系统文件系统管理; Ø 监控存储交换机设备状态、端口状态、传输速度; Ø 监控备份服务进程、备份情况(起止时间、是否成功、出错告警); Ø 监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题; Ø 对存储的性能(如高速缓存、光纤通道等)进行监控。 2) 虚拟化及应用系统岗 运维范围: ² 桌面虚拟化运维:指搭建在平台刀片服务器上的桌面虚拟化相关虚机及存储设备以及运行其上的操作系统和应用系统的运维。 ² 应用服务器系统:指平台项目采购的刀片服务器机笼及刀片服务器、存储设备及运行在其上的操作系统(Vmware、Lunix、Windows等)。 岗位职责: 提供的虚拟化及应用运维服务包括:运行在刀片服务器上的VMware、Linux、Windows Server等操作系统及服务的日常运维,故障处理,补丁升级等内容。 进行监控管理的内容包括: Ø 平台服务器的硬件管理,包括虚机的迁移,已经故障服务器切换到维护模式并从HA集群中移除等操作; Ø 虚拟化平台管理,包括HA集群配置,已经平台故障后的相关平台操作; Ø 虚拟机软件管理,包括虚拟机的备份,快照,恢复等操作; Ø 虚拟化管理服务器(Vcenter)管理,包括配置,管理,运维等操作; Ø 虚拟化平台备份管理,包括备份策略的定制,备份脚本的管理; Ø Windows Server运维管理,包括操作系统的安装、运维等服务; Ø Linux运维管理,包括操作系统的安装、运维等服务; Ø 监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整。 Ø 中间件管理,是指对BEA Weblogic、tomcat、IBM WAS等中间件的日常维护管理和监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳定运行。 3) 数据库和备份系统岗 运维范围: ² 数据库系统:指运行在小型机相关系统分区上的数据库系统及运行在X86服务器上的数据库系统(Oracle、Sqlserver等)的运维工作。 ² 备份系统:指平台采购的x86备份服务器、V5000备份存储。以及运行在其上的备份系统软件和相关备份策略(IBM TSM和Vmware VDP)等的运维工作。 岗位职责: 数据库服务主要是指主动数据库性能管理,通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。备份服务是指对备份软件的管理,确保数据备份的安全性。 进行数据库监控管理的内容包括: Ø 数据库基本信息:文件系统、碎片、死锁、CPU占用率较大或时间较长的SQL语句。 Ø 表空间使用信息监测; Ø 数据库文件I/0读写情况; Ø Session连接数量监控; Ø 数据库监听运行状态监测; Ø 查看每日数据备份、数据同步是否正常; Ø 报警日志监测; Ø 对表和索引进行Analyze,检查表空间碎片; Ø 检测数据库后台进程; Ø 数据库对象的空间扩展情况监测; 进行备份管理的内容包括: Ø 备份策略的定制; Ø 备份工作的日常工作管理; Ø 备份空间的使用情况监控管理; Ø 备份软件日常运维; Ø 备份软件的故障处理。 4) 网络设备及安全系统(含负载均衡系统)岗 运维范围: ² 网络设备及安全系统:指平台项目采购的交换机、IPS及防火墙等。 ² 负载均衡设备:指平台采购链路负载均衡器。 ² 安全审计设备:指数据库审计、运维审计及日志审计设备等。 工作职责: 从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。 Ø 设备基础性能检测:cpu、内存使用情况监测; Ø 设备日志查看; Ø 设备snmp状态; Ø 测试Ping,tracert等工具的连通性; Ø 网络安全策略应用是否正常; Ø Internet带宽流量的实时监测; Ø 网络拓扑链路状态监测; Ø 异常网络数据包流量; Ø Dos、ddos等网络攻击情况监测; Ø Internet线路的误码率、丢包率监测; 5) 机房设备管理岗 运维范围: ² 机房空调,UPS电源等相关设备维护。 ² 机房综合布线系统(光纤线、网线)维护。 ² 各机房设备故障排查、处理。 工作职责: Ø 机房设备状态灯检查; Ø 机房温度及湿度检查; Ø 机房消防器材检查; Ø 机房设备报警监控; Ø 机房设备故障排查、处理; Ø 机房综合布线系统运维,网线、光纤线连通性管理; 6) 安全管理岗 运维范围: 全部硬件设备以及各安全管理制度 工作职责: ² 负责落实大数据平台网络与信息安全的各项具体工作。 ² 负责组织制定大数据平台的网络及信息安全管理制度并进行宣贯工作,指导和监督其他安全管理员和普通用户与安全相关的工作。 ² 负责监控大数据平台网络及信息安全态势,并及时向信息安全主管提交报告。 ² 负责组织并参加定期的信息安全巡检,在其他安全管理员的协助下出具完整的安全巡检报告,并及时向信息安全主管提交报告。 ² 负责监控大数据平台的网络与信息安全需求变化,获取来自业务部门接口人和其它安全管理员、普通用户的意见,并及时进行反馈。 ² 负责汇总最新的安全漏洞信息和病毒情报,及时发布安全通告。 7) IT资产统计服务: 服务内容包括: ² 硬件设备型号、数量、版本等信息统计记录 ² 软件产品型号、版本和补丁等信息统计记录 ² 网络结构、网络路由、网络IP地址统计记录 ² 综合布线系统结构图的绘制 ² 其它附属设备的统计记录 七、 岗位工作内容及流程 1. 系统运维管理岗(项目经理): 阶段运维验收工作: ² 根据运维工作要求,提前安排阶段运维验收资料的汇总、整理、打印,在合同要求时间范围内及时提交相关运维资料进行验收审核,确保阶段运维验收工作按时完成。 项目部沟通协调工作: ² 依据运维规范,在横琴大数据平台日常运维工作中配合、协调机房运维组与项目部的相关工作,使得相关工作能够顺利开展。 ² 根据项目部阶段工作需求,对现有运维规范、制度、流程进行适当调整,以符合项目部阶段性运维要求(如项目实施等)。 ² 每周与项目部相关人员座谈一次,协调相关工作情况,征求项目部对目前运维团队工作的意见、建议。 ² 每月月末与项目部相关人员进行座谈,针对运维团队月工作情况,对相关人员进行月工作满意度调查,填写《运维工作满意度调查表》,提交公司备案。 日常运维管理工作: ² 依据运维规范要求,每月25日前完成编制《运维月工作安排》,提交项目部、公司领导批准备案同时发布给运维团队。 ² 按照运维月工作安排,按时参加横琴大数据平台项目部组织的例行晨会,向项目部领导汇报机房运维组一周的工作情况,对运维工作的需求、意见给予说明、解释;听取项目部领导及所属各部门对机房运维工作的意见、建议,针对性的调整机房运维工作安排,以在工作目标实现过程及要求上与项目部保持一致。(按月轮换,与当月周报、月报制作、考勤者相同) ² 按照运维月工作安排,按时到岗,项目经理每周周一至周五早9:00—18:00在岗。工作内容为负责运维团队日常工作的管理;处理运维工作中的相关协调工作。 ² 根据运维月工作安排,在每周最后一个工作日下班前,协调组织值班技术岗进行例会(晚会),对本周内运维情况进行总结,对遗留工作要求相关岗位做详细说明。 ² 根据运维月工作安排,在每日早9点组织晨会,对各技术岗的工作情况进行确认,确保运维小组各技术岗工作的顺利、准确。 ² 按照运维月工作安排,对运维组织岗提交的当日运行巡检报告及其他相关报告(故障、变更、简报等)进行审核,汇总巡检信息编制当日《运维日报》并于次日早9:00前提交项目部、抄送公司领导审核备案。 ² 按照运维月工作安排,对运维组织岗提交的运维小组各技术岗工作报告进行审核;对周内横琴大数据平台平台整体运维情况进行汇总、总结,编制当周《运维周报》并于次周周一上午9:00前提交项目部、抄送公司领导审核备案。 ² 按照运维月工作安排,对平台整体运维情况进行汇总、总结,编制当《月/季运维报告》并于次月/季第三个工作日上午9:00前提交项目部、抄送公司领导审核备案。 ² 按月度(每月最后一天)组织运维团队整体会议,对上月度运维情况进行总结,对运维工作中出现的问题提出修正建议,对下一月度运维工作的目标进行确认。 考核工作: ² 根据运维团队考核制度,按日对运维团队中运维组织岗、各运维技术岗提交的运维报告进行审核,针对相关指标(提交时间、报告数量、报告格式、内容等)进行评估,对未达标的岗位按《运维绩效考核罚分表》记录扣罚分数,填写入《周绩效考核表》。周绩效考核表按周提交公司领导审核备案并在运维团队内公示。 ² 根据运维团队考核制度,按月对运维团队相关岗位进行绩效考核,汇总《周绩效考核表》填制月绩效考核表,报公司领导审核、备案,并将审核后绩效考核表按月向运维团队各岗发布。 2. 系统运维组织岗(运维小组长) 阶段运维验收工作: ² 根据运维工作要求,配合运维管理岗进行阶段运维验收资料的汇总、整理、打印,在合同要求时间范围内完成提交相关运维资料进行验收审核,确保阶段运维验收工作按时完成。 项目部沟通协调工作: ² 依据运维规范,在横琴大数据平台平台日常运维工作中辅助管理岗配合、协调机房运维组与项目部的相关工作,使得相关工作能够顺利开展。 ² 根据项目部阶段工作需求,配合对现有运维规范、制度、流程进行适当调整的工作,根据实际运维情况,对变更后的相关运维规范、制度、流程提出相关意见、建议。 日常运维及协助管理工作: ² 按照运维月工作安排,按时到岗; ² 在值班工作日晨检完成后,完成将当日晨检报告、运维报告的审核,并以Email方式提交系统运维岗同时抄送项目部备案、审核。 ² 在值班工作日期间,根据运维规范要求按时进行平台系统设备的例行巡检、故障处理、系统变更等工作(日例行巡检时间上午10:00、下午14:00及下午17:00);在完成故障处理、系统变更等工作后,应根据要求及时填写相关报告提交审核。 ² 根据运维规范要求,在值班工作当日18:00前完成相关运维报告(例行巡检报告、故障处理、系统变更、简报等)的填制工作。《周岗位工作日志》要求在值班当周周日晚19:00前完成填制。 ² 根据运维月工作安排,在每个值班工作日,负责组织当日技术岗进行例会,对当日运维情况进行总结。 ² 对在工作日期间各运维技术岗按日提交的运维巡检报告及其他相关报告(巡检、故障、变更、简报等)进行初步审核、汇总,对初审过程中发现的报告错误,给予指出并要求相关运维技术岗对报告进行修改后再提交。审核汇总后当日巡检文档要求于当日晚20:00前提交运维管理岗审核备案,同时抄送给运维团队内相关岗位人员。本组运维技术岗《周工作日报》要求在每周周日晚19:00前完成审核提交 ² 负责在当班值日结束前(当值日18:00撤离值班场地前),督促相关技术岗位(含晨检值班岗)完成对当日审核后巡检报告、故障/变更报告及简报等的打印归档工作。 ² 根据运维月工作安排,在每周初负责组织晨会,对各技术岗的工作情况进行确认,确保运维小组各技术岗工作的顺利、准确。 ² 按月度配合运维管理岗组织运维团队整体会议(月会),对上月度运维情况进行总结,对运维工作中出现的问题提出修正建议,对下一月度运维工作的目标进行确认。 ² 在值班工作日内,配合协助运维管理岗进行运维团队日常工作的管理;处理运维工作中的相关协调工作。 ² 负责对当日运维团队各岗位考勤进行监督。及时汇报工作考勤中出现的问题。 ² 对运维管理岗根据运维工作需要提出的临时性工作安排,配合、协调运维技术岗按时完成相关工作。 ² 对运维管理岗提出的运维规范、制度等的变更,根据实际运维情况提出建设性意见。 ² 根据运维实际情况,对运维团队周考核结果提供符合实际情况的建设性意见。 ² 对故障处理、系统变更过程中的相关文档,要求运维技术岗在处理过程中要将相关报告抄送相关负责人以及甲方负责人。 3. 系统运维技术岗 ² 按照运维月工作安排,按时到岗; ² 在工作日晨检完成后,于当日早9:30前,完成将当日晨检报告的编制并提交运维小组长进行审核。 ² 在工作期间,根据运维规范要求,采用轮班制(运维小组内定)对白天集中平台系统设备运行状态进行定期巡检;要求当日轮值运维工程师每隔2小时进行一次巡检;巡检具体时间要求为:9:00、11:00、13:00、15:00、17:00,共5次。填制《设备运行状态定时检查表》中巡检部分。 ² 在值班工作日期间,根据运维规范要求按时进行平台系统设备的例行巡检、故障处理、系统变更等工作(日例行巡检时间上午10:00、下午14:00及下午17:00);在完成故障处理、系统变更等工作后,应根据要求及时填写相关报告提交审核。 ² 根据运维规范要求,在值班工作当日18:00前完成相关运维报告(例行巡检报告、故障处理、系统变更、简报等)的编制、提交工作(提交运维小组长);《周岗位工作日志》要求在值班当周周日下午18:30前完成编制、提交相关工作报告(提交运维小组长)。 ² 根据运维月工作安排,在每个值班工作日,参加当日技术岗进行例会,对当日运维情况进行总结。 ² 负责在当班值日结束前,完成所属岗位经运维小组长审核确认后的相关运维报告(巡检报告、故障处理、系统变更、运维简报等)打印归档工作。 ² 根据运维月工作安排,在每周初参加晨会,对上周工作情况进行总结,确保运维技术岗工作的顺利、准确。 ² 根据运维管理岗要求,按月度参加运维团队整体会议,对上月度运维情况进行总结,对运维工作中出现的问题提出修正建议,对下一月度运维工作的目标进行确认。 ² 对运维管理岗根据运维工作需要提出的临时性工作安排,严格执行,及时反馈相关工作汇报。 ² 对运维管理岗提出的运维规范、制度等的变更,根据实际运维情况提出建设性意见。根据运维实际情况,对运维团队周考核结果提供符合实际情况的建设性意见。 八、 运维值班管理制度 1. 值班计划制定: 运维管理岗于每月25日之前排定下月值班表,以Email方式报项目部批准备案同时发布给运维团队全体成员。运维团队各岗位人员应严格按照月度值班表安排进行岗位值守。 2. 运维管理岗值班安排: ² 运维管理岗(项目经理)采用每周周一至周五值班,周六、日电话并行值班方式进行值班工作。 ² 每周周一至周五在岗期间根据运维小组值班安排分别负责当日运维管理工作。周六、日电话值班期间,如遇有突发情况,要求运维管理岗在第一时间赶到机房现场进行处理。 ² 根据项目部工作安排,要求确保每周周一运维管理岗参加项目部例会。 3. 运维技术岗值班安排: 运维技术岗采用工作日值班方式进行日常运维工作: ² 运维小组按工作日早9:00到晚6点进行日常现场运维值班。 ² 运维技术岗按岗位职责要求按时到岗,在完成运维当日岗位职责要求的相关工作后,经运维小组长审核,方可离岗。 九、 值班考勤管理制度: 1. 上岗、离岗 运维管理岗: 周一至周五:早9:00到岗,下午18:00离岗; 周六、日:全天电话值班,出现紧急故障,第一时间赶往机房进行现场处理。 运维技术岗: 周一至周五:早9:00到岗,下午18:00完成当天全部工作后离岗。采用轮班制(运维小组内定)当日轮值运维工程师每隔2小时进行一次系统设备运行状态巡检;巡检具体时间要求为:9:00、11:00、13:00、15:00、17:00,共5次。在值班工作日期间,根据运维规范要求按时进行平台系统设备的例行巡检、故障处理、系统变更等工作(日例行巡检时间上午10:00、下午14:00及下午17:30);在完成故障处理、系统变更等工作后,应根据要求及时填写相关报告提交审核。 各岗位人员应严格遵守运维团队的值班考勤制度,不得迟到、早退,值班人员须恪尽职守,不得擅离岗位,若确有特殊事情,须经运维经理批准; 2. 请假、换岗 请假: 当值岗位人员如因个人原因需长时间离岗(超过半天),须电话报告当日值班管理岗,提交《横琴大数据平台日常管理报告(请假审批表)》由运维经理签字批准并安排/确认相关岗位替班人员后,方可离岗。 换岗(换班/替班): 工作原因换班/替班: 为确保运维团队工作有序进行,原则上不安排换班/替班,当有其他特殊情况(公司部门人员紧急调用),如被调用人员属于在岗人员,则由被调用工程师填写《横琴大数据平台平台日常管理报告(换岗审批表)》,经运维管理岗审批并协调安排相关岗位替班人员后,方可离岗。 个人原因换班/替班: 如确因个人原因需要临时进行换班/替班,由提出换班工程师协调其它工程师,如其它工程师无异议,可电话报运维管理岗审批,通过电话审批后填写《横琴大数据平台日常管理报告(换岗审批表)》提交备案。 特殊情况换班/替班: 如因特殊情况(如突发疾病、工伤事故等),需要进行岗位换班/替班,相关岗位可先行向系统运维岗电话申请,批准后进行相关处理,相关请假手续可后补。 3. 加班 按国家规定执行。 4. 休假 按国家规定执行。 十、 运维工作接口管理制度 1. 运维团队内部接口工作管理 日常巡检工作流程: Ø 运维值班岗依据运维规范按时向值班小组长提交运维报告,并配合进行报告的修正工作。 Ø 运维技术岗根据岗位职责,按时进行例行巡检,并将相关报告汇总提交给相应运维小组长进行初审,并根据运维小组长提出的改进意见对当日报告进行修改后再提交审核。 Ø 运维小组长对当日运维技术岗及运维值班岗提交巡检报告进行初审,指出错误,责成编制工程师进行修正,将当日审核后运维报告汇总提交运维管理岗。 Ø 运维管理岗对小组长提交的当日运维报告进行审核,依据考核条理进行考核,并编制、汇总相关报告提交项目部。 运维值岗期间其他工作安排流程: Ø 运维管理岗因工作需要(项目部临时安排及相关配合工作需求),以口头方式安排相关工作给运维小组长或运维工程师(含技术岗和值班岗)。 Ø 运维工程师在接到工作安排指令后应及时向当值运维小组长汇报并根据要求完成具体工作,将工作成果相关信息报运维小组长审核。 Ø 运维小组长在接到运维管理岗安排工作后,可根据当值现场工作进行情况,对本组运维工程师进行工作安排,并负责收集工作成果信息进行初审。 Ø 运维小组长对工作成果信息处审核将相关信息汇总提交运维管理岗。 Ø 运维管理岗审核工作成果信息后间结果反馈给项目部。 运维值岗期间故障、变更操作流程 运维各岗位按运维规范中系统故障处理流程和系统变更处理流程进行实际工作,相关工作接口要求详见相关流程。 2. 与项目部运维组接口工作管理 平台故障汇报接口要求 故障等级划分 1) 一级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。发生的故障已经影响横琴大数据平台业务生产,造成一定时间业务访问中断。 2) 二级:属于严重问题;其具体现象为:出现部分功能的失效、系统性能下降但能正常运行,不影响正常业务运作。 3) 三级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。 4) 四级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。发生的故障对横琴大数据平台业务生产不产生影响。 平台故障汇报接口 1) 一级&二级故障:在故障发生后: Ø 项目部汇报流程:项目经理应及时电话通知项目部平台项目组相关负责人,并由项目部相关负责通知项目部领导; Ø 故障分析总结:故障处理完毕系统恢复正常生产后,有项目经理根据实际情况,协调相关人员组织现场故障总结会,对故障导致原因、处理过程、遗留隐患等进行分析总结,并依此出具故障分析报告,经项目组相关负责人审核后以邮件方式向项目部领导汇报,同时抄送相关人员。 2) 三级:故障发生后,项目经理应及时电话通知项目组相关人员,协商确认故障级别,由项目组相关人员把握是否应电话通知项目部领导。故障处理完毕后,当值项目经理汇总故障处理相关信息,以邮件方式向项目部运维组进行汇报,并根据需要抄送项目部领导及公司部门领导。 3) 四级:故障发生后,项目经理应及时电话通知项目组相关负责人,并及时安排工程师对故障进行排查、处理。故障处理完成后,由故障处理工程师根据运维规范要求,编制故障处理相关文档(含故障简报),经审核后提交项目组同时抄送项目经理。 项目部安排多部门配合工作汇报要求 在完成项目部计划工作后,要依据《大数据平台通讯录》中相关责任人员邮件地址(主送项目组人员、抄送配合的各组负责人及本团队项目经理小组长),及时发送完成情况工作汇报。汇报内容要求简明扼要、列明工作内容、体现时间点、及时发送。 项目部邮件工作安排 1) 项目部通过邮件方式直接向项目经理安排工作,项目经理在接到工作安排邮件后,将该邮件转发给相应岗位工程师进行处理(通知运维小组长)。相应岗位工程师完成安排的工作后,将工作成果相关信息提交运维小组长审核后以回复邮件的方式提交工作,同时将相关工作成果信息以附件方式提交。 2) 如遇有重要或突发紧急工作安排,项目部在发邮件给项目经理同时进行电话确认。项目经里要在规定时间内反馈结果,如因故延期完成,要分阶段及时汇报。由项目经理在日报中做出工作进展情况记录。 3) 项目部通过邮件方式直接向岗位工程师安排工作同时抄送项目经理。相应岗位工程师在收到工作安排邮件后,应电话向运维管理岗汇报,征得同意后向运维小组长通报,并按照工作安排要求进行工作,在完成工作后,将工作成果相关信息提交运维小组长审核后以回复邮件的方式提交工作,同时将相关工作成果信息以附件方式提交。 项目部电话工作安排 1) 项目部电话安排工作时,如工作内容为了解平台运行性能和配置情况(用户密码除外),对于需要电话回复的,工程师可立即执行相关工作并通过电话将工作结果反馈项目部。对于需要邮件回复的,工程师在回复项目部邮件同时应抄送项目经理。以上工作应在当日巡检报告中有所体现(总结部分附加说明一下)。 2) 项目部电话安排工作时,如工作内容使得平台系统发生系统变更或要求提交平台管理机密信息时(如用户密码),工程师可电话应允该操作,但根据运维规范要求请项目部发工作需求Email并抄项目经理,同时电话向项目经理汇报情况,在未收到工作需求Email且未得到项目经理电话确认前,不允许进行相应工作。在收到项目部工作需求email 且得到项目经理的确认后,通报运维小组长后,可按照项目部工作需求Email要求进行工作,在完成工作后,将工作成果相关信息提交运维小组长审核后以回复邮件的方式提交工作,同时将相关工作成果信息以附件方式提交。 3) 以上流程在特殊情况下(如遇重大紧急故障等)相关流程文档(工作需求Email等)可后补。但要求得到运维经理电话认可后才能执行。 项目部现场工作安排 同项目部电话安排工作流程 3. 与项目部其他部门接口工作管理 Ø 原则上机房运维团队不直接接受项目部其他部门的工作需求安排,如项目部其他部门有工作需求,需要机房运维团队进行工作配合,可要求相关部门按项目部内部工作安排流程提出申请给项目部运维组,由项目部运维组安排工作。 Ø 对其他团队的工作配合申请,要求经项目经理认可后方可进行配合工作。该工作返回信息无需提交项目部,具体提交方式及内容由项目经理安排。 十一、 运维文档管理制度 1. 文档分类 工作文档分为运维文档、日常管理文档和其他文档。 2. 文档命名规则 每日巡检报告的命名规则 Ø 横琴大数据平台系统运维报告(晨检/网络设备/广域网线路情况/数据库和备份系统/主机和存储设备/应用服务器和WAS集群/白天设备状态定时巡检/夜间设备状态定时巡检/日报)+年月日 Ø 例:横琴大数据平台系统运维报告(晨检)20150312 故障、变更报告的命名规则 Ø 横琴大数据平台+故障/变更+处理+申请/记录+表+(故障简述)+(岗位工程师姓名)+故障处理年月日; 周工作日志命名规则 Ø 横琴大数据平台运维人员周工作日志+(运维人员姓名)+周日期; 周签到表命名规则 Ø 横琴大数据平台系统运维周签到表+整理汇总人姓名+签到周期; 关于工作简报的命名 Ø 横琴大数据平台+(故障处理、系统变更、项目部安排)工作(简报)(故障处理、系统变更及项目部安排工作内容简介)+ (报告提交人姓名)+完成年月日 3. Email文档提交规定 邮件转发: ² 所有相关联邮件一定要做到最大程度转发,保留往来记录,便于查阅者了解整个事件的过程,例如项目经理接项目部安排工作,要在项目部邮件的基础上转发,标题可按需要更改后,发给工程师,工程师回复邮件也要在项目经理安排的邮件的基础上回复,并按需求自行决定是否更新邮件标题。 邮件抄送 巡检报告邮件: ² 巡检报告发送给运维小组长,同时抄送给项目经理,小组长打包整理后,发送给项目经理,抄送给所有团队成员。 工作处理邮件: 项目经理安排工作: ² 直接发送邮件,抄送组长,接工作工程师回复安排工作。 故障处理和变更申请: ² 直接发送给项目经理,当值项目经理回复给申请发起人,抄送小组长。 项目部安排多部门配合工作汇报: ² 主送项目部人员、抄送配合的各组负责人及本团队项目经理小组长和工程师。联系方式见《大数据平台通讯录》 其他: 工程师所发与工作相关邮件尽量抄送所有相关人员,便于大家了解工作情况。如事件重大,需要和项目部联系,一定要和项目经理商量确认后方可发送邮件。 4. 运维文档的汇总提交 ² 日运维报告(技术岗当日巡检报告)由运维管理岗按日进行收集、审核后,编制当日系统平台巡检日报,并将当日巡检报告汇总后按时提交给横琴大数据平台项目部。 ² 日晨检及24小时系统设备状态巡检报告由各组小组长于当日晨检后收集、审核后,按时提交横琴大数据平台项目部。 ² 周报、月报、季报、年报由运维管理岗根据运维规范要求按时编制并按时提交横琴大数据平台项目部。 ² 系统故障报告、变更报告及运维相关管理报告由系统运维管理岗按季度收集、审核,随季报一并提交横琴大数据平台项目部。 5. 运维文档的存储(保存)、备份 ² 保存:运维相关报告在按时提交项目部后,由系统管理岗在运维办公用笔记本电脑内进行整理汇总。 ² 备份:为确保运维文档的长期安全有效(保存5年),要求运维管理岗对项目运维文档定期(按月)进行两次备份,一次备份放置在运维管理岗办公笔记本电脑不同磁盘分区上,另一方要求备份在指定移动存储上,指定移动存储存放于运维办公场地指定位置(仅系统管理岗可拿取)。 十二、 第三方人员入场操作流程 1. 第三方人员入场工作申请流程 ² 在日常运维过程中,如需要第三方人员(厂家工程师)进场协助处理故障,相关运维技术岗应在第三方人员进场前,要求第三方进场人员相关信息(单位、姓名、职位及联系方式等)及进场进行的工作内容、具体步骤等给出书面说明,并提交运维管理岗审核,经审核通过后,方可安排第三方人员进场实施处理。 2. 第三方人员现场工作控制流程 ² 第三方人员进场工作过程中,相关运维技术岗应随身陪同第三方人员,检查第三方人员实施处理操作与前期审核处理内容是否相符,对突发原因需变更操作内容的,需经系统运维岗审批后方能进行,杜绝未经审核超范围的实施操作,确保系统安全。 ² 第三方人员离场前,相关运维技术岗应对本次第三方操作的系统设备、环境进行检查,确保本次操作正确,未遗留隐患。 十三、 运维例会管理制度 为了确保日常运维工作良好进行以提高工作效率,方便交流工作经验,本规范根据前期工作经验总结,设立运维团队例会制度。 1. 例会划分: 根据目前的工作情况和交流需求,例会划分为:早会、晚会、月会。其他临时会议按需求召开。 2. 例会组织 ² 早会时间:每周第一个工作日早晨9:00 地点:机房办公区 参加人员:运维小组全部人员和项目经理 主要内容:工程师汇报上周工作情况以及本周工作计划。 ² 晚会时间:每周最后一天工作日晚上6:00 地点:机房办公区 参加人员:运维小组全部人员和项目经理 主要内容:汇报本周工作情况并对下周应该注意的事情进行着重汇报。 ² 月会时间:每月的最后一个周日 地点:机房办公区 参加人员:团队内所有成员 主要内容:每个岗位总结本月的工作情况,事前要书写总结报告,报告中要列举本月的故障处理和项目部安排工作的处理情况,并根据需求提出需要解决的问题和改进意见。项目经理根据本月的工作情况做总结。 3. 例会记录 每次召开例会,由当值运维管理岗指定1名与会人员作为记录员,分别记录例会过程、内容、决议等,例会完成后提交例会会议记录给当值运维管理岗。 十四、 运维团队内部培训制度(岗位工程师讲课制度) 目的:为了便于工程师了解平台的整体运行和配置情况,更好的协作解决问题。时间:每月的最后一个工作日 与会人员:团队全体成员 主讲人:各岗位工程师 要求:讲课前要写好教案,要准备PPT。主要讲述内容要提前向项目经理汇报,每次要准备两个TOPIC,写出简要想法,由管理岗选择一个讲解。由项目经理统一协调安排,做出总的规划。大家的时间都非常宝贵,主讲的工程师一定要仔细安排讲课内容,争取让大家在有限的时间内得到最大的提高。 内容:每次每人准备一个TOPIC,主讲时间45分钟(根据需要可适当延时,但不能不足) 十五、 运维团队绩效考核 运维团队绩效从时间段上分为月度绩效考核和季度绩效考核;从考核人员上分为运维管理及辅助岗考核(项目运维经理、运维小组长)(按季度考核)和技术工程师考核(按月度考核)。 具体考核内容将根据大横琴科技发展有限公司相关制度一致。 十六、 其它要求: 1. 值班工作要求 ² 值班人员要遵守《大数据平台运维组人员守则》,保证在工作中有良好的精神状态,禁止在上班期间做与工作无关的事情,禁止将与工作无关的物品带入值班办公室; 2. 外出就餐要求 ² 值班期间午餐、晚餐时间各岗位工程师采用轮换就餐方式,确保至少有一名,工程师在岗值班,严禁电话转移外出就餐,进餐

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开