温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
电信
数据
价值
挖掘
关键技术
分析
探讨
朱峰
2023年第6期论 文 选 粹电信大数据的价值挖掘及关键技术分析与探讨朱峰,董皓(中国联合网络通信有限公司济南软件研究院,山东省济南市250100)摘要长期的业务发展为电信行业积累了大量的日志数据,其中既有结构化的,也有非结构化的,涵盖业务日志数据以及运维日志数据等。传统的数据分析手段,往往很难兼顾各类数据的处理,并且数据中隐藏的价值未被充分挖掘。文章采用大数据的技术架构,充分利用 Flink 的数据处理能力和 Elasticsearch 的索引机制,开发一个可靠的大数据处理平台,有效挖掘分析各类日志数据,提升电信行业的业务运营水平和自动化运维能力,提高盈利能力。关键词海量数据;数据采集;数据集合;实时告警0引言电信行业对大数据的研究有着独特优势。各大运营商拥有庞大的产业基础和稳定的过亿用户数,每天会产生海量数据。相对于其他行业来说,电信大数据具备数据类型多、体量大、密度高的特点。借助产业优势,电信运营商控制着大量的智能管道和通信信息服务,能持续提供稳定可靠的真实数据。传统的数据处理方式是将数据存储到关系型数据库中,然后通过批量定时任务进行数据的聚合、处理及分析。当用户需要查询数据时,需要通知数据库管理员直接查询数据库,之后再反馈给用户,若进行数据处理,还需要人工参与。当数据量巨大时,查询速度慢、响应时间长,甚至会导致数据库崩溃,给业务运营、中台稳定带来了极大的隐患。本文设计了一个大数据分析处理平台。平台支持采集、清洗与筛选、聚合等大数据操作,并能将处理后的数据存储到非关系型数据库中,实现数据的归档1。平台的数据挖掘分析能发现业务分类聚合及业务堵点,为业务高效运营提供数据基础。平台处理展示数据,实现日志数据可视化查询,并支持按照业务字段查询,满足用户日志数据查询的诉求,提升数据对外价值。平台支持根据数据的重要级别分级存储,在满足数据价值挖掘的基础上,节省了不必要的存储,减小硬件资源的浪费。另外,为了提高业务告警及时率,增强各个系统的运维能力,平台支持将处理后的数据发送到 Kafka 集群,供业务系统后续消费处理,按照配置的告警规则进行告警。这样节省了数据聚合分析的时长,将告警时延缩短到秒级,极大地提高了告警及时率,进一步保障了业务系统的稳定运行。1大数据分析平台架构传统大数据处理架构无法支撑高并发、低时延的数据处理,无法支撑大数据量级的数据聚合、实时计算分析及快速检索等场景。本文借助互联网行业大 数 据 思 想,采 用 Flink+Canal+Kafka+Elastic-search+HBase 的架构,设计了一套集数据采集、数据聚合、数据计算分析和数据存储的大数据分析平台。其中,数据采集模块解决不同系统重复采数的问题;数据聚合模块解决数据不规范、重复数据的问题;数据计算分析模块是整个系统的核心,实现了数据分析、价值挖掘;数据存储模块实现了数据的持久化存储,满足审计需求。大数据分析平台整体架构如图 1 所示。大数据分析平台主要由四个模块构成,分别是232023年第6期论 文 选 粹数据采集模块、数据聚合模块、数据计算分析模块以及数据存储模块。系统的实现思路2是将 Cancal 服务端作为原始数据的采集端,是整个平台的输入端。聚合程序对数据进行筛选、清洗和初步聚合,处理完的数据输出到 Kafka 集群,供后续处理。数据计算分析模块包括管理控制端、数据计算模块及数据分析模块三部分。管理控制端实现对整个平台的集群管理,保障数据处理节点的可用性。数据计算模块以 Flink 组件为核心引擎对数据进行实时计算和统计。数据分析模块根据各类规则对数据进行多维度分析,并将分析结果存储到数据库中。另外,平台支持实时告警,处理后的数据通过告警平台发出告警,保障告警的及时性。各个模块的设计原理及部署架构在下面章节详细介绍。1.1数据采集模块数据采集模块为整个平台提供原始数据,是整个平台的输入端。为了不影响个业务系统的正常运转,Canal 服务端部署在业务数据库备库集群上,读取数据库 Binlog 文件,然后将数据流转到数据筛选模块。为了保障整个平台的可靠性,Canal 部署模式采用分布式节点池的方式。当一个 Canal 节点出现故障,其他节点可自动接替故障节点继续工作,从而提高整个 Canal 集群的稳定性与容灾性。Canal 节点部署架构如图 2 所示。1.2数据聚合模块数据聚合模块主要负责数据筛选、数据清洗和初步聚合。筛选、清理可以将无用数据如系统信息、冗余数据、错误数据等筛选出来并清理,避免流入后续处理系统,从而减小平台系统的处理压力,提高数据处理的实时性和准确率。数据聚合是指根据业务系统要求将主子模块数据、相干模块数据、上下游系统数据等按照相关规则初步聚合,使数据具备标准格式。为了提高平台的数据处理能力,该模块采用多线程的方式运行。另外,异常数据处理线程处理丢失、错误、清洗掉的异常数据,为平台增加了数据补偿机制,尽量减少数据丢失,保障数据准确性。数据聚合模块线程如图 3 所示。1.3数据计算模块电信行业的数据运用有规模大、实时性要求高、确保结果准确、故障后可恢复的要求,Flink 组件能图 1大数据分析平台整体架构图图 2Canal 节点部署架构图242023年第6期论 文 选 粹完美契合。因此,平台引入 Flink 作为数据计算引擎,对数据进行计算分析3。平台的数据计算模块为整个平台的核心模块,实现数据核心价值挖掘。Flink 读取数据聚合模块预处理后的数据,经过数据流式计算或批量计算,对数据进行统计分析和规整处理4,最后将数据输出到 DataSink 算子中,实现数据存储、业务告警以及日志分析。数据计算分析模块功能如图 4 所示。1.4数据存储模块数据存储模块为整个大数据分析平台的数据持久化层,将聚合、计算完的数据进行存储。该系统支持以下三种存储方式:a)将全量聚合数据输出到 Kafka,为后续业务告警及数据进一步处理(报表类等)提供数据源,告警业务根据实际需求进行告警规则及引擎配置,读取 Kafka 数据实现钉钉、短信等实时告警。b)将业务数据解析为 key/value 的形式存储到Elasticsearch,为数据的检索提供索引,提高查询效率与精准度。c)将处理分析后的全量数据存储到 HBase 中,供数据后审计,支撑详尽信息查询。当数据审计查询时,根据 Elasticsearch 查询出的主键匹配 HBase数据,提供符合条件的数据详情。2数据处理流程数据挖掘可以获取数据信息蕴含的内在价值,对于电信运营商强化自身优势,拓宽盈利渠道,实现产业转型具有重要意义。因此,数据挖掘流程和关键技术的研究备受关注,行业内形成了基本模型:通常提取业务域、数据域、管理域的数据,然后进行数据沉淀、数据融合,基于数据特征,开展数据趋势预测及数据分类5。数据挖掘通用流程如图 5 所示。本文在通用数据挖掘处理流程的基础上,根据实际情况及日志数据特征,总结出了本文大数据平台的数据处理分析流程,如图 6 所示。平台读取业务数据库的 Binlog 文件,拉取原始数据信息作为整个平台的数据源。清洗原始数据并判断数据的可用性,之后有效数据流入后续处理系统。错误数据、无效数据等分配到异常处理线程进行处理。正常流转的数据按照服务类型、相关关系等规则进行数据的聚合,聚合之后通过 Flatmap(Flink 算子)转换数据类型(如 String 类的转换成实体类等)、数据分组及窗口内数据统计分析等一系列的数据操作。最终将处理后的数据分别写入 HBase 集群、Kafka 集群和 Elasticsearch 集群。其中,写入 Kafka图 5传统数据处理流程图图 3数据聚合模块线程图图 4数据计算分析模块功能图252023年第6期图 6数据处理分析流程图集群的数据作为业务告警模块数据源流转下去,按照配置的告警模板实时告警。3数据挖掘意义大数据处理平台真正实现了数据的聚合、计算与分析,深度挖掘数据价值,具体表现如下:a)数据集中化:将不同业务系统、不同中台的日志数据集中,实现了一点看全。b)数据规范化:规范不同格式的日志,形成统一的数据格式,用户易懂。c)实时检索价值:系统中产生的所有日志都会以数据流的方式不停地被采集到平台上,并能实时展示。解决业务系统痛点、堵点,大大降低日常运维的压力,提升整体工作效率。d)告警分析价值:数据统一进行聚合分析,避免各业务系统重复计算数据,真正实现了一次计算,多次使用,降低了数据计算成本,提高了告警处理的及时性。4结束语从电信大数据中挖掘丰富的价值,对于电信运营商服务转型和产业升级具有重要意义。本文设计的大数据分析处理平台,引入了先进架构技术,创新核心分析算法,并借助大数据各个组件的优势,实现了海量数据的快速聚合分析、低延迟处理。该系统自上线后,经过多个版本的迭代优化,目前已经支撑日均 100 亿条的数据处理与聚合,为公司数字化转型贡献了力量,也为电信行业其他大数据平台树立了标杆。参考文献1张鹏,李鹏霄,任彦,等.面向大数据的分布式流处理技术综述 J.计算机研究与发展,2014,51(S2):1-9.2吴璨,王小宁,肖海力,等.分布式消息系统研究综述 J.计算机科学,2019,46,(S1):1-5,34.3孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例 J.软件学报,2014,25(4):839-862.4郑滔,刘梦赤,冯嘉美.基于 Apache Flink 的 RDF 流数据查询 J.计算机与现代化,2020(11):47-55.朱峰(1989),男,硕士,主要从事敏捷研发及项目管理相关工作。收稿日期:2023-02-08论 文 选 粹26