2023年第6期论文选粹电信大数据的价值挖掘及关键技术分析与探讨朱峰,董皓(中国联合网络通信有限公司济南软件研究院,山东省济南市250100)摘要长期的业务发展为电信行业积累了大量的日志数据,其中既有结构化的,也有非结构化的,涵盖业务日志数据以及运维日志数据等。传统的数据分析手段,往往很难兼顾各类数据的处理,并且数据中隐藏的价值未被充分挖掘。文章采用大数据的技术架构,充分利用Flink的数据处理能力和Elasticsearch的索引机制,开发一个可靠的大数据处理平台,有效挖掘分析各类日志数据,提升电信行业的业务运营水平和自动化运维能力,提高盈利能力。关键词海量数据;数据采集;数据集合;实时告警0引言电信行业对大数据的研究有着独特优势。各大运营商拥有庞大的产业基础和稳定的过亿用户数,每天会产生海量数据。相对于其他行业来说,电信大数据具备数据类型多、体量大、密度高的特点。借助产业优势,电信运营商控制着大量的智能管道和通信信息服务,能持续提供稳定可靠的真实数据。传统的数据处理方式是将数据存储到关系型数据库中,然后通过批量定时任务进行数据的聚合、处理及分析。当用户需要查询数据时,需要通知数据库管理员直接查询数据库,之后再反馈给用户,若进行数据处理,还需要人工参与。当数据量巨大时,查询速度慢、响应时间长,甚至会导致数据库崩溃,给业务运营、中台稳定带来了极大的隐患。本文设计了一个大数据分析处理平台。平台支持采集、清洗与筛选、聚合等大数据操作,并能将处理后的数据存储到非关系型数据库中,实现数据的归档[1]。平台的数据挖掘分析能发现业务分类聚合及业务堵点,为业务高效运营提供数据基础。平台处理展示数据,实现日志数据可视化查询,并支持按照业务字段查询,满足用户日志数据查询的诉求,提升数据对外价值。平台支持根据数据的重要级别分级存储,在满足数据价值挖掘的基础上,节省了不必要的存储,减小硬件资源的浪费。另外,为了提高业务告警及时率,增强各个系统的运维能力,平台支持将处理后的数据发送到Kafka集群,供业务系统后续消费处理,按照配置的告警规则进行告警。这样节省了数据聚合分析的时长,将告警时延缩短到秒级,极大地提高了告警及时率,进一步保障了业务系统的稳定运行。1大数据分析平台架构传统大数据处理架构无法支撑高并发、低时延的数据处理,无法支撑大数据量级的数据聚合、实时计算分析及快速检索等场景。本文借助互联网行业大数据思想,采用Flink+...