小型微型计算机系统JournalofChineseComputerSystemsDOI:10.20009/j.cnki.21⁃1106/TP.2021⁃05752023年3月第3期Vol.44No.32023收稿日期:2021⁃07⁃22收修改稿日期:2021⁃09⁃29基金项目:国家自然科学基金项目(61672143)资助.作者简介:齐文,男,1974年生,硕士,副教授,CCF会员,研究方向为大数据管理;朱曦源,男,2000年生,本硕博连读生,研究方向为大数据管理;宋杰,男,1980年生,博士,教授,博士生导师,CCF高级会员,研究方向为大数据存储管理、高能效计算、机器学习应用.基于特征转移概率的网络日志聚类分析算法齐文1,朱曦源2,宋杰21(辽东学院工程技术学院,辽宁丹东118001)2(东北大学软件学院,沈阳110819)E⁃mail:qiwen@elnu.edu.cn摘要:随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处理,是一个非常具有挑战性的任务.数据挖掘的技术是非常传统的技术,实施往往耗费太多时间,并产生过多的数据,大数据环境下,传统的串行的网络日志聚类方法存在性能的局限性,不再适合处理网络日志这样的海量数据,目前比较常用的对于网络日志的并行处理方法在计算时间、并行效率、准确率等方面存在一定改进空间.因而,本文提出了一种基于特征转移概率改进的网络日志聚类处理技术,并在ApacheSpark平台上实现了用于提取频繁的庞大的网络日志的模式.实验结果表明,所提出的方法能够在大数据环境下对完整的网络日志提取所需信息并实现高效的分析,相对于目前常见的聚类分析算法,本文提出的基于特征转移概率的处理方式将执行时间降低到了75.97%.关键词:日志分析;大数据;ApacheSpark;聚类算法;并行处理中图分类号:TP391文献标识码:A文章编号:1000⁃1220(2023)03⁃0514⁃07WebLogClusteringAnalysisAlgorithmBasedonFeatureTransitionProbabilityQIWen1,ZHUXi⁃yuan2,SONGJie21(Sc...