基于ELK的高校数据中心运维多层面监控平台研究与实践摘要:为了及时发现隐患和故障,提高高校数据中心的运维效率,需要对数据中心软硬件系统的性能、状态、日志等进行监控。文章以ELK为数据采集和存取平台,并借助Shell脚本强大的系统管理功能,设计了监控代理,实现了在监控平台中对多数据源的处理。經过实践,文章设计的监控平台,能实现高校数据中心的多层面监控,为数据中心高效管理提供支撑。关键词:数据中心;ELK;运维监控;监控代理中图分类号:TP391文献标志码:B文章编号:1673-8454〔2023〕07-0093-04一、引言由于受到运行环境、设备生命周期、系统变更、系统漏洞、系统性能、网络功击,以及人为误操作等影响,数据中心的根底设施和软硬件系统,在运行过程中经常出现隐患和故障。通过多层面监控,能及时发现这些隐患和故障,提高运维效率,为数据中心的平安、稳定、可持续运行提供保障。因此,数据中心多层面监控意义重大。系统性能和运行状态能反映出设备运行的稳定性和可持续性。系统日志记录了系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。运维人员可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹[1]。因此,数据中心运维监控,不仅要监控系统性能和运行状态,还要监控和分析系统日志。由于高校数据中心运维,受到本钱控制的影响,一般会采用开源监控平台来实现数据中心监控。当前大多数数据中心采用Zabbix、Splunk等开源平台来实现监控。随着ELK功能不断完善,也被一些数据中心用来作为监控平台和日志处理平台。这些监控系统,虽然性能优秀,有些功能非常实用,但从高校数据中心多层面监控角度来看,或从易用性角度来看,还有必要改良,或在此根底上进行运维开发,实现全面监控,以进一步提升监控水平。由于ELK性能较好,开放程度较高,开发接口丰富,本研究以ELK为根底,进行架构设计和数据中心运维开发实践。二、ELK简介ELK是ElasticSearch、Logstash、Kibana三个开源软件的简称,是一个日志实时处理平台[2]。ELK之间的合作机制为:Logstash作为信息收集者,用来搜集、分析、过滤软硬件系统的日志。它支持大量的数据获取方式,工作方式为C/S架构。通过把客户端〔Beats〕程序安装在计算节点上,或者在网络设备或存储设备中配置Syslog、SNMPTrap等功能,来实现日志或性能数据的过滤和处理,然后将其处理结果推送到ElasticSearch平台。ElasticSearch作为数据的保存者,保存来自Logstash收...