分享
基于半监督引导的网络APT检测知识图谱构建.pdf
下载文档

ID:3078795

大小:1.92MB

页数:7页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 监督 引导 网络 APT 检测 知识 图谱 构建
第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide基于半监督引导的网络APT检测知识图谱构建王梦瑶,杨婉霞,王巧珍,赵赛,熊磊(甘肃农业大学 机电工程学院,甘肃 兰州,730070)摘要:各国信息系统等重要设施的高级持续性威胁(APT)攻击愈发频繁,且APT具有针对性强、隐蔽性好、破坏性大等特点。为了高效检测APT攻击,提出一种基于知识库的APT攻击检测方案。首先,通过搜集大量开源APT威胁数据,提出一种基于深度学习级联模型结构的新型APT知识获取方法。然后,针对数据的多源异构性,提出一种半监督Bootstrap的知识融合方法,以自动构建APT知识图谱。接下来,针对APT攻击检测识别的准确性,提出一种基于Bert+BiLSTM+Self-Attention+CRF模型的APT攻击检测方案,Bert模型提取文本特征,BILSTM提取输入语句与上下文之间的关系,融合Self-Attention机制关注上下文中的语义及APT实体间的关系,CRF模型根据标签间的依赖关系提取全局最优的输出标签序列,以得到APT攻击命名实体。实验表明,Bert+BiLSTM+Self-Attention+CRF 模型的准确率、召回率、F1值分别达到88.69%、77.13%和82.5%,整体性能相较于现有方法更优。关键词:知识图谱;高级持续威胁;深度学习;APT 攻击DOI:10.11907/rjdk.222304开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391 文献标识码:A文章编号:1672-7800(2023)009-0147-07Knowledge Graph Construction Based a Semi-Supervised Bootstrap for Network APT DetectionWANG Mengyao,YANG Wanxia,WANG Qiaozhen,ZHAO Sai,XIONG Lei(School of Mechanical and Electrical Engineering,Gansu Agricultural University,Lanzhou 730070,China)Abstract:Advanced persistent threat(APT)attacks on important facilities such as information systems in various countries are becoming increasingly frequent,and APT has the characteristics of strong targeting,good concealment,and high destructive power.In order to efficiently detect APT attacks,a knowledge-based APT attack detection scheme is proposed.Firstly,by collecting a large amount of open-source APT threat data,a novel APT knowledge acquisition method based on deep learning cascading model structure is proposed.Then,aiming at the multi-source heterogeneity of data,a semi supervised bootstrap knowledge fusion method is proposed to automatically build the APT Knowledge graph.Next,in order to improve the accuracy of APT attack detection and recognition,an APT attack detection scheme based on the Bert+BiLSTM+Self Attention+CRF model is proposed.The Bert model extracts text features,BILSTM extracts the relationship between input statements and context,and integrates the Self Attention mechanism to focus on the semantics and relationships between APT entities mentioned above and below.The CRF model extracts the globally optimal output label sequence based on the dependency relationship between labels,naming the entity to obtain APT attacks.The experiment shows that the accuracy,recall,and F1 values of the Bert+BiLSTM+Self Attention+CRF model reach 88.69%,77.13%,and 82.5%,respectively,indicating better overall performance compared to existing methods.Key Words:knowledge graph;advanced persistent threat;deep learning;APT attack收稿日期:2022-11-13基金项目:国家自然科学基金项目(62262002,61862002);甘肃省博士基金项目(2021QB-033)作者简介:王梦瑶(1997-),女,甘肃农业大学机电工程学院硕士研究生,研究方向为自然语言处理;杨婉霞(1979-),女,博士,甘肃农业大学机电工程学院副教授、研究生导师,研究方向为自然语言处理、信息处理、农业信息化和自控技术;王巧珍(1996-),女,甘肃农业大学机电工程学院硕士研究生,研究方向为自然语言处理;赵赛(1996-),男,甘肃农业大学机电工程学院硕士研究生,研究方向为自然语言处理;熊磊(1993-),男,甘肃农业大学机电工程学院硕士研究生,研究方向为自然语言处理。本文通讯作者:杨婉霞。2023 年软 件 导 刊0 引言近年来,网络安全威胁已经发生翻天覆地的变化,运用先进的攻击方法对某些机构进行持续性、针对性的网络攻击,造成高级持续性威胁(Advanced Persistent Threat,APT)已逐渐引起国内外研究者的重视1。不同于传统网络攻击手段,APT的攻击目标从常见的中断服务转为窃取目标知识产权和敏感数据,具有阶段性强、持续时间长、攻击路径多样化等特点2。例如,BlackEnergy 木马攻击的前、中、后期分别使用BlackEnergy、BlackEnergy 2、BlackEnergy 3逐渐增强的木马病毒,以邮件、文档等多种路径攻击目标。2015年,海莲花组织对多个不同国家的科研院所、政府、海事机构等重要部门发起APT攻击,造成了严重的损失3。2016年,APT 28组织入侵DNC邮件系统,造成了严重的数据泄露。同年,Apple 公司首次披露利用 IOS Trident漏洞进行的APT攻击4。2018年底,新加坡遭受了历史上最严重的APT攻击,造成包括李显龙总理在内约150万人的健康数据被泄露5。据 360 天眼实验室发布的2015中国高级持续性威胁(APT)研究报告 可知,中国是遭受APT攻击的主要受害国,全国多个省市均受到不同程度的攻击。其中,北京、广东是重灾区,工业、教育、科研领域和政府机构均受到APT攻击者的重点关注。然而,目前仍有大量APT攻击未被发现,而他们通常已存在较长时间,入侵了很多主机,在被发现前就已经造成了巨大损失,这说明目前APT攻击检测手段仍然相对滞后,对APT攻击的响应能力不足。为此,大量学者对APT的攻击开展了深入研究,在检测技术和方法方面已取得不少成果。常见的APT检测技术与方法主要包括以下3种:(1)网络流量分析。该技术通过 Netflow 或 DNS 流量规律进行基线学习与分析以发现异常,但样本获取与相关性分析的难易程度将影响模型准确度。同时,部分研究人员利用数据挖掘与机器学习方法提取正常、异常的行为特征,对未知流量进行分类以提升异常攻击检测率,但无法从根本上解决样本获取的难题。(2)负载分析(沙箱)。该技术首先模拟运行环境,通过捕获的样本在虚拟环境运行过程中的行为来提取特征,以显著提升特征匹配时效性,但目前沙箱逃逸功能已普遍存在于高级样本中,沙箱效果也大打折扣。(3)网络取证。该技术通过抓取大量流量报文或日志,通过对安全日志的行为进行建模,将偏离正常行为视为异常,以此检测多步攻击。由于该方法可较好地还原样本与攻击过程,在回溯与应急响应方面价值较高,因此广泛运用于各种新型安全管理系统,但建立完善的攻击模型是系统的关键,因此依然面临着需要精确分析网络流量的问题。鉴于现有方法存在的问题,最新研究提出构建多源异构APT攻击大数据知识图谱,通过APT事件组织动态关系模型和时间序列演化模型,解除理想样本空间和攻击模型的限制,进而解决APT攻击检测这一难点问题。为此,本文采用基于深度学习级联模型结构的新型APT知识获取方法,解决目前在APT样本获取方面存在的问题。首先,通过半监督bootstrap的知识融合方法自动构建APT知识图谱,进而解决多源异构的APT数据。然后,采用基于 BERT(Bidirectional Encoder Representations from Transformers)+BiLSTM+Self-Attention+CRF 的 APT 攻击检测模型,解决APT攻击实体识别方面存在的难点问题,进而精准构建APT攻击检测的知识图谱。1 相关研究经过对APT攻击特征的深入分析,研究者发现APT攻击检测的相关算法主要依赖专家领域知识。例如,Alshamrani等6采用白名单方法,通过学习和对系统正常行为进行建模,从而检测异常行为并发现APT攻击。Jedh等7利用连续消息序列图的相似性,通过挖掘未知异常模式来检测APT。在基于安全日志的APT攻击研究中,大多数算法通过建模 APT攻击实现检测8。例如,Zou等9建立 APT攻击模型监控民航通信网,以发现实际攻击过程中的模式。Milajerd等10构建基于杀伤链的攻击树模型,关联分析安全日志后生成攻击路径,进而预测下一步攻击行为。Zimba等11首先采用IP地址关联方法进行聚类,然后利用模糊聚类关联方法构建APT活动序列集,最后结合对抗时间策略,在较长的时间窗口内分析数据,进而实现在一段时间内检测多步复杂攻击,但该方法仍然依赖于专家知识。APT知识图谱呈现了网络威胁的知识资源及其载体,并对其中的知识及其相互关系进行挖掘、分析、构建和显示,有助于发现、挖掘多源异构网络威胁间千丝万缕的关系数据、隐藏信息,提升网络攻击威胁分析的准确性与及时性。因此,近期APT检测研究侧重于结合最新的知识工程技术构建APT知识图谱,运用大数据智能分析方法提升APT检测准确率。Xu等12基于知识图谱提出多领域安全事件关联性分析方法,利用不同领域中与安全事件内在相关的若干属性,建立异常事件与攻击行为间的因果关系。在网络安全数据可视化交互技术的研究中,Palantir、Splunk等外国公司在现有安全可视化的基础上,提出新的动态语义相关图分析方法和可视化查询分析方法,已成为网络威胁交互分析的新方向。当前,在知识图谱构建的研究中,利用深度学习算法设计自动提取、融合知识及实体链接算法是研究的热点13。例如,基于深度学习网络的有监督关系抽取算法、实体链接等算法,避免了传统实体链接中手工构建特征的 148第 9 期王梦瑶,杨婉霞,王巧珍,等:基于半监督引导的网络APT检测知识图谱构建繁琐过程,取得的性能更优14。然而,该方法在理解复杂句子时仍存在许多局限性,需要进一步深入挖掘大规模多源异构数据中的多重关系和事件。由于攻击者主动引入干扰信息、IDS等系统错误,将造成攻击事件的知识图谱存在大量垃圾信息。因此,需要使用一些先进的知识精化算法消除错误、验证一致性,但现有算法仅限于处理简单静态事件,对多源异构数据中复杂事件的处理能力有待提高。目前,大多数本体推理算法均基于OWL语言15,这种大规模知识推理还处于实验室原型系统阶段,对具有复杂字符关系和事件关系描述的字符事件知识图谱的高效推理支持有待进一步研究。Zhang等16针对网络数据中的多类型实体问题,提出一种基于条件随机场和实体词汇匹配相结合的人名实体提取方法,在整个网络数据集上收集人员姓名,识别正确率、召回率分别为 84.5%、87.8%。知识图谱关系抽取主要为了获取实体间的关系,以监督方法、半监督方法为主,目前研究成果较为成熟。Yang等17将多实例、多标签的学习机制引入实体关系抽取中,实体和一系列对应的标签是通过图模型及其潜变量进行整合,再经过实体训练进一步获得关系分类器。Cho等18提出一种基于Bootstrap算法的半监督学习方法来自动建模实体关系。综上所述,知识图谱的构建技术近年来已取得迅速发展,世界上也出现了许多相关的研究结果,但在提取实体和关系方面仍然存在许多问题尚未解决。为了降低APT事件数据的特征提取和检测难度,首先通过GitHub中获取的14年数据构建了一个APT攻击检测命名实体识别语料库;然后在相关研究中命名实体识别关系,在抽取模型Bert+BiLSTM+CRF学习中加入Self-Attention模块,以在原模型基础上进一步提升识别APT攻击检测实体的准确性;最后研究APT知识图构建系统的总体框架,侧重于APT事件知识获取、知识融合等关键技术。2 APT知识图谱构建APT攻击事件的知识图谱是与该事件相关的结构化语义描述。它不仅描述了事件的基本属性和攻击特点,还描述组织属性(包括攻击者、防御者和受害者组织)。现有知识图谱技术主要针对开放领域的大规模网页、多媒体等非结构化海量数据,构建针对人和热点事件抽取实体的知识领域可视化映射图。APT知识图谱相较于现有知识图谱的不同之处在于,从安全专家提取的威胁开源情报数据库、流量和日志规模数据中构建了一个知识图谱库。威胁情报知识库的主要文档包括样本扫描报告、动态分析报告、域名记录、IP反查、Whois、组织机构、事件归属等,因此数据来源更多样化和异质化。此外,本文还建立了事件组织属性关系网络,统一描述攻击事件的静态和动态知识,提出了一种构建APT攻击事件知识图谱的方法,包括风险事件知识提取、风险事件知识融合与提炼等。2.1APT攻击的知识图谱总体框架APT知识图谱的构建是从威胁情报中识别攻击事件、组织等,并针对某一攻击事件从中提取事件名称、攻击时间、攻击偏好、技术特征等信息,从而实现对实体属性的完整勾勒。针对攻击事件具有许多属性依赖性的特点(例如攻击工具与类型间的依赖性等),本文基于威胁情报文本数据集,提出一种深度学习与条件随机场学习相结合的方法提取实体;针对APT情报数据多源异构特点,重点研究知识的自适应提取策略,解决目前源异构数据提取方法通用性差、多类型数据提取召回率低的问题。因此,多源异构威胁情报知识库中提取的信息结果,必然包含大量冗余信息、冲突信息和互补信息,数据间存在关系扁平、缺乏层次性的问题,必须通过实体消歧和知识融合技术进行知识精细化。传统实体链接方法依赖手动定义实体和实体上下文相关特征,生成候选实体和实体间的特征向量,并通过向量间的相关性获得实体链接结果,这其中存在与数据分布相关的人工定义特征、不同场景下有限的特征泛化能力等问题。为此,本文利用深度学习对文本中词和知识库的实体进行联合建模,自动学习词和实体的低维向量表示,并通过向量计算词和实体的相关性。该方法可减少手工定义特征向量的人力负担,解决特征向量稀疏的问题,提升知识实体融合模型的泛化能力。根据上述研究思路,由于APT事件具有较强的知识专业性和数据多源异构性特征,本文设计的APT事件知识图谱自动构建整体框架,将APT情报数据、日志数据、流量分析元数据作为构建APT知识图谱的原始数据。首先对原始数据进行预处理;然后利用实体抽取技术,从预处理后的语料库中抽取APT知识图谱实体;接下来抽取实体间的关系,构建、融合知识项,以形成APT知识图谱库。APT知识图谱的总体框架构建流程如图1所示。数据预处理(缺失、异常、重复、噪音)实体关系抽取实体属性抽取知识实体抽取APT知识图谱三元组构建APT知识融合APT检测的知识图谱库非结构化APT事件报告 Fig.1Overall framework construction process of APT knowledge graph图1APT知识图谱的总体框架构建流程 1492023 年软 件 导 刊2.2APT事件实体与关系抽取方式APT知识的实体与关系抽取技术是构建 APT知识图谱的关键技术之一,当前主要的知识获取方式是通过自然语言理解技术获取文本特征,利用机器学习获取APT知识特征。首先利用实体抽取技术从最初的APT威胁情报等数据中识别APT知识实体;然后由APT事件自动关联APT知识实体;最后利用知识实体间的关系构建 APT 知识图谱。本文基于可识别动态语义的BERT词嵌入和具有记忆的BILSTM设计了神经网络分层模型,以抽取APT事件的实体和关系。面向词向量的APT知识获取方法分层模型在保证召回率基础上,使得低层网络能尽可能识别APT事件的知识实体,为后续提升实体识别准确率奠定基础。然后,将低级网络识别结果传递给包含注意力机制的高一层网络BiLSTM-Attention,以再次识别来自低层网络的信息,并将识别结果传递给条件随机场(CRF)模块。最后,输出识别结果中单一合法的实体。若存在多个APT事件实体的情况,需要将这些子结果再次传送至高层网络(BiLSTM-Attention)中进行识别,通过多层处理APT威胁情报文本提升APT知识实体识别的准确率,具体模型结构如图2所示。由图 2 可见,分层模型底层采用 BERT 模型结构。BERT是一个预训练模型,可根据上下文语义语境编码动态词向量。其中,级联模型的高层网络是一种包含注意机制的结构,采用双向Transformer编码结构,可直接获得全局信息;RNN需要逐渐递进才能获取全局信息。因此,本文选用BERT模型构建分层模型。同时,为了获取APT知识实体的具体信息,需将低层网络模型的输出作为高层网络模型的输入。BiLSTM模型通过前向、后向传播参数获取上下时刻的信息,因此能更快速、准确地编码序列。编码单元的主要组成为Self-Attention模块,计算表达式如式(1)所示:(Q,K,V)=softmax(QKTdk)V(1)式中:Q、K、V为输入词向量矩阵,用输入向量维数进行表达。Self-Attention 模块根据上述关系来调整每个实体的重要性,为每个实体定义一个包含实体本身、实体与其他实体关系的表达方式,因此相较于单个实体向量全局性更高。Transformer是基于Multihead模式对模型聚焦能力在不同位置的进一步扩展,增添了Attention单元的子空间表示,如式(2)、式(3)所示。(Q,K,V)=Concat(head1,headh)Wo(2)headi=Attention(QWiQ,KWik,VWiV)(3)图 3 为本文使用的分层网络模型的高层网络双向LSTM结构。由此可见,对于ith、Xi等实体,隐藏层的最终输出为模型前向、后向隐藏层的联合输出,即hiEnc=hi;-hi,如式(4)所示。hiEnc=-LSTM(xi)(4)式中:hiEnc表示对上下文进行编码。此外,基于BILSTM融合的Attention机制,能灵活学习APT实体的上下文语义信息。BiLSTM模型虽缓解了单向LSTM造成的前后编码差异,但无法完美解决时序编码缺陷的问题,如果仅依赖时序输出,模型将难以正确识别APT事件实体任务。因此,融合Attention机制是为了关注不同上下文片段中涉及的语义及APT实体间的关系,然后通过这种关系确定相关APT事件的实体。在级联模型中,高层网络构建部分 BiLSTM-Attention仅考虑了上下文信息中的长序列问题,忽视了标签中的依附关系。因此,在APT实体识别中存在标签无法连续出现的问题,APT的物理边界仍然存在争议。由于在标签决策中,模型无法独自通过隐藏状态完成,需要思考标签间的上下关系来获取全局中的最佳标签,但可通过条件随机场来完成,它可在输出级别时分离相关性。因此,级联模型中高层网络的输出结果,将利用更深的CRF网络建模标签序列以纠正错误标签,从而得到更可靠的标签序列。根据上述知识获取算法模型,通过Softmax函数进行激活的全连接层计算分类概率,如公式(5)所示。yi=softmax(WTpi+bT)(5)其中,WT、bT为可训练参数,yi为第ith个实体类别的概率向量。实体分类任务的损失函数如公式(6)所示。B-TimeI-TimeI-TimeI-TimeI-TimeSelf-AttentionBertLSTMLSTMLSTMLSTMLSTMBert层LSTM层Self-Attention层CRF层 Fig.2Layered model structure for the extraction of APT knowledge entities图2APT知识实体提取的分层模型结构SiTmi-1TmiSi-1 h1X1h2X2h3X3h5X5hnXnh4X4 yiai,2ai,3ai,4ai,5ai,n yi-1ai,1 Fig.3Bi-directional LSTM-Attention relationship recognition model图3BiLSTM-Attention关系识别模型 150第 9 期王梦瑶,杨婉霞,王巧珍,等:基于半监督引导的网络APT检测知识图谱构建Lentity=-i=1Vk=1Cyiklog(yik)(6)式中:yik、yik分别表示第ith个实体的真实类别标签和实体分类器预测的第ith个实体类别的分布。2.3APT知识融合算法本文提出了一种基于半监督的Bootstrapping知识融合技术。首先,利用知识提取算法得到由三元组表示的APT知识项;然后,利用知识融合技术构建APT知识图谱。由于提取的信息存在高度碎片化、离散化、冗余和模糊现象,因此将未融合的信息碎片视为各自的APT知识图谱,利用实体对齐和实体链接达到融合多个APT知识图谱的目的。目前,实体对齐问题的方法包括本体匹配与知识实例匹配。其中,本体匹配法主要解决 APT 知识实体对齐问题,通常由基本匹配器、文本匹配、结构匹配、知识表示学习等方法组成,根据APT知识图谱的现实需要,通过知识图谱的表示学习技术达到实体对齐目的。本体匹配方法利用机器学习中的表示学习技术,将图中实体和关系映射为低维空间向量,利用数学表达式计算实体间的相似度。首先将知识图谱KGb、KGe映射到低维空间,得到相应的知识表示,分别记为KGb0和KGe0;然后在此基础上,通过人工标注的实体对齐学习数据集D,即实体对间的对应关系为:KGb0 KGe0。知识实体(APT攻击关键词和同义词)的对齐过程如下:步骤1:选择种子实体。遍历、选取待融合的多个知识图谱KGe中的所有实体ee。步骤2:预处理种子实体。步骤3:通过动态索引技术索引属性。步骤4:采用精简过滤方法剔除相似度低的实体,构造对应的实体对(eb,ee),即现有知识图谱KGb中实体集结合的节点。步骤5:使相似度较高的实体对分布在多个块中,并作为候选对齐实体对。步骤6:通过匹配算法进行评分,例如基于属性相似度和结构相似度的聚合模型学习方法。步骤7:根据评分结果进行排名,排名越低的实体对表示两个实体间对齐程度越高。步骤8:采用基于图相似性传播的引导程序迭代对齐方法,选择与种子实体置信度高的匹配实体对达到实体对齐,进而有效整合APT知识。3 实验与结果分析3.1实验环境本文实验环境为:Intel(R)Core(TM)i7-8750H CPU 2.20 GHz,GPU NVIDIA GTX 1050Ti,磁盘大小为2 TB。实验开发语言为 Python,编译器为 Pycharm,采用 Tensorflow深度学习开发平台。3.2测试数据语料库本文使用数据来自 Github,整理了 2006-2020年不同来源的APT事件报告。其中,APT事件报告数据的大小约16.4 GB,APT相关实体约9 200个,如表1所示。由表1可知,APT报告多为非结构化数据,部分报告仅包含了攻击过程中的详细描述及攻击活动造成的影响,并未包含实验中所需事件信息样本。因此,基于上述数据特征,有必要处理APT事件的样本数据。首先人工提取实验所需相关事件样本,然后将提取的事件信息样本进行序列标注,最后将处理后的数据作为实验主要数据,进一步构建APT知识图谱语料库。语料库中包括APT攻击组织、攻击类型、攻击时间、攻击事件和攻击目的等实验所需事件信息样本信息。例如,The Dropping Elephant 事件是由于东南亚和南海问题,针对美国在内各国政府和公司发起的攻击行为。在准确提取APT事件特征前,需对文本进行序列标注,以更好地提升模型训练性能。序列标注中最关键的步骤是为数据赋予标签,通常会使用简单的英文字母为词语赋予标签,常用数据集标注方法包括BIO、BIOES、IOB等。本文使用目前最流行的 BIO 标注方法进行标注,该方法首先使用YEDDA工具对预处理后的APT攻击事件文本语料库进行手动标注,然后编写Python脚本处理标注后的数据,得到基于BIO注释的APT事件文本数据序列。针对 APT 事件特征,对文本的实体定义了攻击组织(Organization)、攻击目的(Purpose)、攻击目标(Target)、攻击类型(Type)、攻击工具(Tool)、攻击媒介(Medium)、攻击事件(Event)、攻击时间(Time)8种类型。其中,8个实体类别的元素标注中B-XX表示实体开始,I-XX表示实体中间或结尾,O表示定义实体之外的实体。通过BIO标记方法定义每个实体类别的标签,得到满足词向量生成层的输入语料库标准,最后将语料库中训练集、测试集及验证集按照6 2 2的比例进行划分。3.3模型性能分析本文模型输入数据为APT威胁情报、事件报告等文本数据,通过神经网络的分层模型抽取文本数据的实体和关系,从而构造三元组知识条目,目的是从输入文本的非结构化数据中提取APT的基本属性,例如攻击特点、攻击工具等。APT组织为与事件相关的黑客组织和检测组织,例Table 1Data set表1数据集事件信息样本攻击组织攻击目的攻击目标攻击类型攻击工具攻击媒介攻击事件攻击时间APT事件举例摩诃草组织窃取敏感信息中国、巴基斯坦鱼叉攻击0day和Nday漏洞电子邮件、宏文档摩诃草事件2009年11月数据集大小APT 事件报告16.4 GB相关实体9 200个,样本数量715条 1512023 年软 件 导 刊如国家、实体组织、黑客组织等。APT知识实体关系包括事件关联关系,例如APT攻击工具的更新或攻击类别的延伸。同时,模型还提取APT事件行为属性、组合流量特征和攻击场景特征信息。为模型性能评估,本文选择准确率、召回率和F1评估实体关系抽取算法的性能,模型参数设置如表2所示。3.3.1Batch_size值因素参数 Batch_size值决定下降方向,在合理范围内增大Batch_size值既能提升内存利用率、矩阵乘法的并行化效率,还会增加下降方向的准确性。例如,BIGRU+CRF模型的 Batch_size 值不同,样本数量会对模型性能产生一定影响。本文将 Batch_size值设定为 8和 16进行比较实验,具体数据如表3所示。由此可见,当样本数量小于样本1时(样本数量为300个),Batch_size=8的模型性能更优;当样本数量增大到样本 2时(样本数量为 440个),Batch_size=16的模型性能更优;当样本数量为样本3时(样本数量为715 个),Batch_size=16 的模型性能更优。综上,模型在Batch_size=16时性能最佳,因此设置Batch_size=16进行后续实验。3.3.2数据集因素GRU为LSTM的简化版本,擅长执行长期记忆任务,既能解决长期依赖问题,还可通过保留有效信息提取APT威胁情报文本的APT知识实体特征。BIGRU的前向、后向传播过程类似双向长短期记忆神经网络,但性能受限于样本数量,即保持其他参数不变,当样本数量较少时,BIGRU模型性能优于 BILSTM,但在样本数量较多时,BILSTM 模型性能优于BIGRU。由图 4 可见,在 Batch_size=16 时,当样本数量小于样本 1 时,BIGRU+CRF 模型的准确率高于 BILSTM+CRF 模型;当样本数量增加为样本 2时,BIGRU 的性能不及 BILSTM;当样本数量为样本 3 时,BILSTM+CRF 模型和 BIGRU+CRF 模型性能均有所提升,但 BILSTM 性能仍旧优于BIGRU。综上,若数据量较少时应使用 BIGRU,当样本数量较大时应选用BILSTM模型。根据上述结论,在后续实验中选取对模型性能最优的样本数量(样本 3)为实验数据。其中,样本 1 数量为 300个,样本2数量为440个,样本3数量为715个。3.4模型性能比较基于上述实验的数据集和算法,为了进一步验证Bert+BiLSTM+Self-Attention+CRF 模型在实体识别的优越性,将其与BiLSTM+CRF、BiGRU+CRF、Bert+CRF、Bert+BiGRU+CRF和Bert+BiLSTM+CRF模型进行比较,结果如表4所示。同时,从 Bert+BiLSTM+Self-Attention+CRF 算法模型中分别增加、去除或替换不同的模块进行消融实验,以验证知识抽取模型中不同模块各自的优势。由表 4 可见,Bert 模块能显著提升算法性能,原因为Bert层采用了Masked LM、Next Sentence Predictio两种方法分别捕捉词语和句子级别的representation,模型在Bert层捕获全局上下文信息并对数据进行预处理,体现了Bert层在捕获全局上下文信息方面的有效性。由 Bert+CRF、Bert+BiLSTM+CRF 模型可知,去除 BiLSTM 层后知识获取算法的准确率有所降低,因为通过堆叠的LSTM层生成的上下文字符表示难以较好地建模上下文间的依赖关系。此外,由 Bert+BiLSTM+CRF、Bert+BiLSTM+Self-Attention+CRF模型可知,加入注意力机制后能提升模型的知识提取性能,原因为注意力机制的记忆网络可将上下文感知信息整合到神经模型中,以帮助神经模型准确识别稀有实体和上下文相关实体。实验表明,Bert+BiLSTM+Self-Attention+CRF模型在验证集上的结果最优,F1 值可达 82.50%,证实了 Bert+BiLSTM+Self-Attention+CRF模型中各功能模块的有效性。本文还研究了模型F1、准确率及召回率随epoch值增加发生Table 4Model performance comparison表 4模型性能对比模型BiLSTM+CRFBiGRU+CRFBert+CRFBert+BiGRU+CRFBert+BiLSTM+CRFBert+BiLSTM+Self-Attention+CRFF10.766 20.712 30.771 60.785 60.814 30.825 0准确率0.800 20.745 50.833 20.841 60.872 80.886 9召回率0.734 40.702 30.727 50.736 70.763 30.771 3Table 2Main parameters of knowledge extraction algorithm model表2知识提取算法模型主要参数参数参数max_lenleraning_ratedrop_rate值值1501e-50.1Table 3Effect of Batch_size on model BIGRU+CRF表 3Batch_size对模型BIGRU+CRF的影响样本样本1样本2样本3Batch_size816816816准确率0.586 30.538 80.647 90.665 70.733 20.745 5召回率0.500 00.496 70.641 80.663 30.678 80.702 3F10.511 70.493 50.643 30.662 20.704 40.712 3样本1样本2样本30.00.20.40.60.8准确率准确率 BILSTM+CRFBILSTM+CRF BIGRU+CRFBIGRU+CRF Fig.4Impact of different datasets on model performance图 4不同数据集对模型性能造成的影响 152第 9 期王梦瑶,杨婉霞,王巧珍,等:基于半监督引导的网络APT检测知识图谱构建的变化,如图5所示。由图 5可见,在第 6个 epoch 值后,本文模型的 F1、准确率及召回率均趋于稳定,说明此时模型参数基本为最优值,证实了 Bert+BiLSTM+Self-Attention+CRF 模型在知识识别算法稳定性中具有较好的性能。4 结语本文研究了构建知识图谱检测APT的关键技术,包括知识提取和融合,根据攻击事件的诸多属性和APT情报数据的多源异质性,提出一种深度学习与条件随机场学习相结合的知识提取方法,重点解决了知识的自适应抽取问题,提升了知识抽取的召回率。同时,针对APT情报数据冗余信息较多、信息冲突显著的特点。首先,通过实体消歧、知识融合技术精细化知识;然后,利用深度学习对文本的词、知识库的实体进行联合建模,以自动学习词和实体的低维向量表示;最后,通过向量计算获得词和实体的相关性,以减少人工定义特征向量的开销,解决特征向量稀疏的问题,提升知识实体融合模型的泛化能力。本文在不同样本数量、Batch_size值的实验参数下,与其他模型进行比较测试的结果表明,Bert+BiLSTM+Self-Attention+CRF模型在准确率、召回率、F1值等方面表现更优。然而,本次实验均在同一个数据集下进行,后续将考虑利用更全面的APT事件数据,以研究不同数据集对实验结果造成的影响。此外,为了进一步提升APT检测的准确率,考虑在现有模型基础上进行改良,构建更大、更完整的APT知识图谱,加强知识图谱在网络安全防护中的应用。参考文献:1 RANJBAR M H,KHERADMANDI M,PIRAYESH A.Assigning operating reserves in power systems under imminent intelligent attack threat J.IEEE Transactions on Power Systems,2019,34(4):27682777.2 QUINTERO B S,MARTN D R A.A new proposal on the advanced persistent threat:a survey J .Applied Sciences,2020,10(11):38-74.3 HAN W J,XUE J F,WANG Y,et al.APTMalIn

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开