分享
图表示学习在网络安全领域的应用研究综述_刘亚.pdf
下载文档

ID:2735635

大小:1.63MB

页数:13页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
图表 学习 网络安全 领域 应用 研究 综述
小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:国家自然科学基金项目()资助;(,)资助 作者简介:刘 亚,女,年生,博士,副教授,会员,研究方向为网络分析、密码学、区块链;林明洁,女,年生,硕士研究生,研究方向为图表示学习、网络安全;曲 博,男,年生,博士,助理研究员,研究方向为网络分析、网络安全图表示学习在网络安全领域的应用研究综述刘 亚,林明洁,曲 博(上海理工大学 光电信息与计算机工程学院,上海)(鹏城实验室 新型网络研究部,广东 深圳):摘 要:近年来,图表示学习由于其能够更全面地捕捉网络数据的特征,在与各种网络异常检测方法结合后能获得更好的检测结果等特点,逐渐引起网络安全领域的关注 为进一步理清使用图表示学习进行网络安全检测相关工作的研究脉络,本文首先研究了图表示学习的定义,并从基于降维、随机游走和深度学习三类分别介绍目前被广泛使用的图表示学习算法;其次,对公开可用的网络安全数据集按照日志和网络流量、可执行文件、社交和交易网络分类,给出其具体的数据内容;再次,总结了近年来将图表示学习方法应用到网络安全领域的研究成果,给出了模型的基本流程和优缺点分析;最后探讨了目前研究的局限性和未来研究的方向关 键 词:网络安全;图表示学习;网络异常检测;新技术发展趋势中图分类号:文献标识码:文 章 编 号:(),(,)(,):,:;引 言随着网络技术和规模快速发展,网络设备及其承载的业务种类逐渐增多,网络中存储的数据也呈爆发式增长,黑客可利用的漏洞和技术手段日益丰富、对抗愈加激烈,这些促使网络中的软件、硬件及其信息更易受到来自内部和外部的安全威胁 譬如:年黑客利用 “永恒之蓝”漏洞传播的勒索病毒“”波及到 多个国家和地区;年僵尸网络“”入侵上千台华硕、路由器并进行破坏;年多家俄罗斯银行遭受大规模的 攻击,导致部分服务无法正常使用 因此,为了保护网络环境免受非法攻击,对系统进行网络安全异常检测是非常重要的异常检测是指在数据中发现不符合预期行为的工作模式,这些不合格模式在不同应用领域中的名称各不相同而 年 等人提出的定义是目前最被广泛接受的一种,即异常现象是与其它观察结果大相径庭的观察结果,以致引起人们怀疑它是由不同的机制产生的 异常由于能够代表重要且罕见的情况,并可以促使在广泛的应用领域中采取关键措施,在网络安全领域扮演着非常重要的角色 根据使用的检测技术,现有的网络安全异常检测主要可分为 类:第 类,基于统计分析的检测,如:等人提出的基于迭代局部统计方法的异常检测方法,等人提出的基于卡方统计的异常检测技术;第 类,基于签名的检测,如 等人提出的基于实时签名的短信僵尸网络检测方法,等人提出一种基于签名的物联网入侵检测系统;第 类,结合人工智能技术的检测方法,主要有基于机器学习的,如 等人提出的基于粒子群算法优化支持向量机()的实时入侵检测系统,提出的基于加权 阶邻近()分类器的拒绝服务攻击()的实时异常检测系统;基于深度学习的,如 等人提出的基于自编码器()和的深度信念网络()的恶意代码检测方法,等人提出的使用生成对抗网络()的无监督异常检测方法当前,异常检测方法大多通过分析网络数据本身的属性特征进行检测 然而许多现实世界中的数据都具有相互依赖关系,能够自然地用图模型的边来表示 此外,网络安全威胁也往往表现出相关依赖关系,如与异常点相近的点也很可能是异常的 因此,通过处理和分析图数据来进行检测是可行的,例如将主机和文件看作节点,将文件存在于主机的关系看作边,则可以通过恶意文件易聚集的特点进行检测为了便于处理使用图模型表示的网络数据,图表示学习相关方法被广泛研究和应用 这类方法首先将现实中数据建模成图,接着视下游任务的需求,将图中的节点、边或部分图结构等,转换成一组低维嵌入向量,在降低计算复杂度的同时尽量捕获图的拓扑结构、顶点和顶点之间的关系以及图、子图和顶点的其它相关信息 在网络安全领域,图表示学习方法能够与各种检测思想结合,找出网络中的异常以保护其能正常运行 当前,已有大量综述分别介绍网络安全和图表示学习领域的相关工作,如 等人、等人、等人和 等人分别总结各类使用机器学习和深度学习的网络安全检测模型,等人和 等人分别对图表示学习方法进行不同的分类并介绍具体算法 然而,对图表示学习方法在网络安全领域的应用的讨论较少,且上述综述侧重于按照使用的技术种类对相关异常检测工作进行分类介绍,此分类方法能够更深入了解技术的实现过程,但无法区分现实中各类网络场景的特点本文旨在提供图表示学习在网络安全领域的综述 考虑到相同网络场景所遭受到的安全威胁具有一定相似性,检测模型往往根据其特点进行设计等原因,本文对不同的网络场景进行分类来介绍相关检测模型,突出图表示学习的应用在现实情况下的针对性和实用性,并且不同网络场景中的数据特性差距较大,由此构造的图和检测思想也不尽相同,按照网络场景来介绍检测模型更符合现实 在此基础上,通过纵向对比不同网络场景下检测模型的优劣点,也能更深入了解图表示学习是如何进行应用的 除此之外,文章亦简单介绍目前具有代表性的图表示学习算法作为补充知识和公开可使用的网络安全数据集供相关研究人员参考 具体来说,首先简述了图表示学习的一般定义和主流的图表示学习技术等;然后分日志和网络流量、可执行程序、社交和交易网络 种类别,列举了可用图表示学习分析且和网络安全相关的代表性数据集接下来,按照应用场景进行分类,全面总结了图表示学习算法在网络安全领域应用的相关研究 最后,探讨使用图表示学习用于设计网络安全检测模型的局限性,以及未来可能的研究方向本文的主要贡献如下:)概述了图表示学习的主要内容,总结了图表示学习方法解决网络安全问题的一般框架 更进一步,将图表示学习技术分为基于降维、随机游走和深度学习 类,分别介绍其中具有代表性的算法,使读者能够快速了解图表示学习的相关知识,为更深入了解图表示学习应用于检测模型打下理论基础)列举了与图表示学习相关的公开可用网络安全数据集,涵盖网络流量、应用程序和社交网络等内容,并对数据集的样本类型和规模等进行了详细描述,可供相关研究人员进行参考,用于评估其设计的检测模型的性能)重点归纳总结了近年来将图表示学习方法应用到网络安全领域的研究成果,并将这些研究成果按照不同的应用场景分为异常事件检测模型、恶意软件检测模型、恶意域检测模型和恶意账户检测模型四种,以梳理最新研究进展 通过对比和分析了各研究之间的优劣和差异,探讨了未来研究的方向,为后续研究的开展提供思路下面将介绍论文的组织结构,第 节概述图表示学习定义、一般框架、名词定义和相关技术,第 节从日志和网络流量、可执行文件、社交和交易网络 个方面介绍了网络安全数据集,第 节根据不同网络安全场景分类阐述了网络安全模型,第 节提出了局限性和未来研究,第 节总结了全文 图表示学习概述 一般定义图表示学习是指将一个图中的节点或者整(子)图映射到低维向量空间的过程,其主要目的是使低维向量空间中的几何关系能够反映原始图中的结构信息 优化后的低维向量空间所学习到的嵌入向量能够作为特征输入来处理下游任务 在解决特定任务时,使用图表示学习技术进行学习的对象也有所不同,例如进行社区发现时需要学习子图特征,而处理节点分类问题时只需针对图中的各个节点 因此根据学习的对象不同,可以将图表示学习分为以下 种:)节点嵌入:图数据中的节点往往表示了各类重要实体,如网络流量中的 地址、应用程序中的 等 这些节点本身具有大量的属性作为其特征,通过捕捉节点的属性,对其进行表示学习以获得更低维度的节点嵌入,能够对现实中的实体进行更有效的分析)边嵌入:实体间存在的或紧密或疏远的关系,可借助于图中的边来表示 边所表示的不同依赖关系存在着重要性大小的差异,使得部分边自带有权重属性 因此,在对边进行表示学习时,可获得边本身的属性特征及所关联节点的特征来进行补充表示)子图嵌入:子图嵌入即将子图作为一个整体进行表示学习,获得低维嵌入向量 该方法首先需要根据一定的规则构造适当的子图,接着在子图中捕捉图中节点的属性和结构特征 在处理的数据量较大时,子图有时用于代替整图,能够大大减少计算成本 图表示学习解决问题的一般框架在解决网络安全问题过程中,图表示学习方法一般会经过数据采集、图构造、特征提取和下游任务这 个过程 具体如下:)数据采集:从目标系统中采集原始数据并进行清洗等处理,得到建模所需数据 期 刘 亚 等:图表示学习在网络安全领域的应用研究综述)构造图:设计图模型,将收集到的数据加以表示,这些图模型可以是同构图、异构图、时序图等)特征提取:使用图表示学习技术将图中复杂的高维数据在保留所需性质的条件下以低维的嵌入向量表示,提取出数据特征)下游任务:进一步进行节点分类、链接预测、聚类和可视化等后续任务 名词定义这一小节将定义一些重要的名词,这些名词将用于本文接下来的讨论)图:给定一个图 ,表示节点的集合,表示边的集合,表示属性矩阵 函数:和:分别对节点和边进行映射,其中 表示节点类型的集合,表示边类型的集合 若 ,则 是一个同构图 若 ,则 是一个异构图)图表示学习:设 是节点 的嵌入向量,图表示学习的目的是找到这样一个映射:,其中嵌入维度)元路径:给定一个图 ,一个元路径 被定义为节点类型 和 之间的组合关系 将 表示为 ,或者当不产生歧义的时候,简要地写成 如果 ,则 是对称元路径)一阶相似度:对于每个节点对(,),如果(,),那么 和 之间的一阶相似性由两节点之间的边权重决定;否则 和 之间的一阶相似性为 一阶相似性捕捉了节点之间的直接邻居关系)二阶相似度和高阶相似性:二阶相似度捕捉每对节点之间的两步关系 对于每个节点对(,),二阶相似度是由两个顶点共有的相同的邻居节点数决定的,它同样可以用 到 的两步迁移概率来度量 进一步,高阶相似度捕捉每对节点之间的 步关系(),能更好地保留图的全局结构 对于每个节点对(,),高阶相似度是由 到 的 步迁移概率来度量的,这也可以通过 和 之间 步路径()的数量来表示 图表示学习相关技术这一小节将从基于降维、随机游走和深度学习三个角度介绍图表示学习技术中具有代表性的算法 有关图表示学习的综述文献已经很多,本文仅简要回顾网络安全领域中常见的图表示学习方法,为第 节的内容提供理论补充,更详细的介绍可参考其它文献,)基于降维的方法传统的降维方法,即将高维向量降为低维的嵌入向量,同时保持原始数据的期望特征,亦可用于图数据,比如将图数据以矩阵形式表示,将矩阵的每一行视作一个待降维向量这类方法的代表性算法有主成分分析法()、线性判别分析()、等距特征映射()和多维度标记法()其中主要的主成分分析法指将和较大方差相关的主成分用来表示重要的结构信息,较小的方差视为噪声,将数据方差最大化来计算低维表示;线性判别分析指假设每个类别都呈现高斯分布,通过特征分解最大化类间映射和类内映射得到线性投影矩阵)基于随机游走的方法基于随机游走的方法通过对初始节点的随机游走在图上进行采样建立路径,然后使用概率模型来学习节点表示,以捕捉全局和局部结构信息 下面将简要介绍 种基于随机游走的方法:是目前最流行的基于随机游走的图嵌入方法之一 如果目标节点 能够在一定的步数中到达序列 ,中的任意一个节点,那么它就属于该序列,并且会在随机游走中被采样 节点集 ,是窗口大小为 的中心节点 的上下文,是一个可以设置的超参数 的目标是最大化随机游走序列 中所有节点上下文对的平均对数概率 ,()()其中,()是一个 激活函数是 方法的改进 该方法提出了一种概率模型,该模型具有特定的随机游走概率来重新访问遍历过的节点和参数 来控制遍历全局结构的能力 当参数 很小的时候,访问刚刚访问过的节点的概率会很高 当参数 很小的时候,随机游走变得像深度优先采样策略,因此 能够在嵌入空间中保持全局结构是一种用于异构信息网络的顶点嵌入方法,能够捕捉不同类型节点之间的语义和结构联系 使用基于元路径的随机游走来构建节点的异构邻居,然后通过自然语言处理中的经典算法 训练模型 其它类似的方法还有,等)基于

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开