2023年7月第44卷第7期计算机工程与设计COMPUTERENGINEERINGANDDESIGNJuly2023Vol.44■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■No.7基于大数据平台的网络日志机器行为分析陈涵1,张仰森1,2+,何梓源1,祁浩家1,黄改娟1,2(1.北京信息科技大学智能信息处理研究所,北京100192;2.北京交通大学国家经济安全预警工程北京实验室,北京100044)摘要:为从海量日志中分析并提取可能存在的机器行为日志,应用概率统计和K-means算法对网络日志进行分析,提出基于多阶段层次化判别的ChenRF模型,共包含两部分内容,分别为基于特征规则和阈值匹配的机器行为判定模型与基于Bi-LSTM+Attention的机器行为识别模型。应用Spark批处理框架,对所提模型进行算法实现,构建以一小时为单位的分布式网络日志批处理分析平台。在1万和千万级别规模的数据上,对构建的大数据日志分析处理平台进行测试,验证了所提模型的有效性。关键词:网络日志;超文本传输协议;机器行为识别;数据分析与挖掘;深度学习;分布式存储技术;大数据计算技术中图法分类号:TP391.1文献标识号:A文章编号:1000-7024(2023)07-2232-10doi:10.16208/j.issn1000-7024.2023.07.041收稿日期:2021-11-18;修订日期:2023-06-19基金项目:国家自然科学基金项目(62176023)作者简介:陈涵(1996),男,北京人,硕士研究生,研究方向为网络空间安全;+通讯作者:张仰森(1962),男,山西运城人,博士,教授,CCF杰出会员,研究方向为人工智能、自然语言处理、网络内容安全;何梓源(1994),男,北京人,硕士研究生,研究方向为自然语言处理;祁浩家(1995),男,河北沧州人,硕士研究生,研究方向为网络空间安全;黄改娟(1964),女,山西运城人,高级实验师,研究方向为自然语言处理。E-mail:906073749@qq.comNetworklogmachinebehavioranalysisbasedonbigdataplatformCHENHan1,ZHANGYang-sen1,2+,HEZi-yuan1,QIHao-jia1,HUANG...