温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
流量
分类
联网
设备
识别
程晟滔
年月第 卷第期计算机工程与设计 基于流量分类的工控联网设备识别程晟滔,王诗蕊,张耀方,张哲宇,王子博,王佰玲,(哈尔滨工业大学(威海)计算机科学与技术学院,山东 威海 ;国家工业信息安全发展研究中心 检查评估所,北京 ;哈尔滨工业大学 网络空间安全研究院,黑龙江 哈尔滨 )摘要:为发展工控网络智能化管理,研究工控网络中设备类型的自动识别技术,提出一种基于流量分类的设备类型识别方法,综合报文首部特征以及有效载荷隐含特征。利用随机森林模型,筛选报文首部字段中工控网络流量分类的关键特征;利用一维卷积神经网络,提取流量有效载荷的隐含特征;两种特征融合完成流量分类,基于流量分类结果实现设备类型识别。实验结果表明,由该方法训练的模型可高效完成设备流量分类,准确识别工控设备类型。关键词:工业控制系统;设备识别;流量分类;随机森林;特征重要性;卷积神经网络;特征融合中图法分类号:文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国防基础科研计划基金项目()作者简介:程晟滔(),男,江西瑞金人,硕士研究生,研究方向为工控系统安全、深度学习;王诗蕊(),女,辽宁葫芦岛人,硕士,工程师,研究方向为工业信息安全;张耀方(),女,黑龙江哈尔滨人,博士研究生,研究方向为工控系统安全;张哲宇(),女,吉林松原人,硕士,工程师,研究方向为工业信息安全;王子博(),男,黑龙江哈尔滨人,博士研究生,研究方向为工控系统安全;通讯作者:王佰玲(),男,黑龙江哈尔滨人,博士,教授,研究方向为信息内容安全、工业互联网安全。:,(,;,;,):(),:;引言在工业控制系统(,“工业控制”以下简称“工控”)中,目前常用的网络设备识别技术,依赖于已有的网络设备指纹,所谓“指纹”,指设备在其发送的报文中包含的各种特征信息,这种方式识别率高,但需要耗费不少人力分析提取设备指纹。针对此问题,本文提出一种基于流量分类的设备类型识别方法,该第 卷第期程晟滔,王诗蕊,张耀方,等:基于流量分类的工控联网设备识别方法融合了从报文首部字段提取的关键特征以及从有效载荷中提取的隐含特征,避免了对每一种新设备提取指纹的繁琐过程。本文首先设计了一种有效的二级随机森林分类模型,并利用不纯度重要性指标,从流量报文首部字段特征中筛选出在工控网络设备流量分类中起着重要作用的关键特征。随后利用一维卷积网络从有效载荷中提取出隐含特征。将隐含特征与筛选出的关键特征和进行特征融合,再利用融合特征完成流量分类,最后基于各个设备所发送的流量分类结果,实现设备的类型识别。实验结果表明,这个融合了报文首部和有效载荷特征的方法能对工控网络设备所产生的流量进行高效分类,结果显示分类精度和召回率都很高,进而可保证准确完成设备类型分类。相关工作随着机器学习技术的发展,网络资产识别领域也出现了相关的应用研究,利用机器学习方法对网络流量识别分类进而对设备分类。等应用多种机器学习技术对网络流量分析,完成对智能家居物联网设备的分类识别。采用的方法有随机森林、决策树、支持向量机、最近邻、人工神经网络以及贝叶斯网络,其中随机森林的分类效果最好。杨威超等构建了一套流量报文特征集,利用随机森林生成物联网设备识别模型,其识别准确率能达到 以上。连晓伟等构建了一种确定性有限自动机()和支持向量机()相结合的流量识别 模型,分别识别载荷特征和流量统计特征,模型识别 流量精度可达 。此外,文中还利用 算法从众多流量特征中提取了 种流量报文特征,为后续研究的特征选择提供参考。宋宇波等提出一种基于 和相似度计算的二阶段设备识别算法,依据报文首部特征和应用协议类型对 物 联 网 设 备 进 行 识 别,准 确 率 可 达 。等将深度学习引入到流量分类识别中,通过将原始流量数据转化为图片,利用卷积神经网络(,)对流量进行表征学习,完成恶意流量的分类。该团队随后提出一种基于一维卷积神经网络的端到端的加密流量识别方法,并通过实验发现,一维卷积相比于二维卷积更适合流量识别分类任务。等提出一种基于长短期记忆(,)和 的物联网设备分类模型,利用 捕获流量的时序关系特征,通过 进行分类,可有效识别新接入设备类型。针对工控系统网络中的设备分类任务,本文依据工控系统的现场控制层、过程监控层以及生产调度层,将设备分成类,分别是三层中的代表设备类型:可编程逻辑控制器(,)、人机 交 互 界面(,)以及数据采集与监控系统(,)。首先对工控网络中的流量报文进行分类,流量报文被分为某类别的含义是:这条流量报文是由该类设备产生的。对所有流量数据分类完成后,根据统计信息对发送这些流量报文的设备分类。基于流量数据的设备分类模型本节中将详细介绍通过流量数据分类实现工控系统中设备分类的方法及模型。本文中的模型直接分类对象是单条流量报文,报文可分成首部和有效载荷,首部中包含时间戳、源和目的 地址、源和目的 地址、源和目的端口以及报文的生存时间等信息,不同设备发送的流量报文中的首部信息有着不同的特点,可作为分类特征数据。同样的,不同的设备或者不同的应用服务生成的有效载荷数据也有各自特点,但因为有效载荷的数据来自应用层,没有通用的直接解析方法,但可利用卷积神经网络挖掘其中隐含的模式特征。首先根据报文首部数据,本节设计了一种有效的二级随机森林分类模型,基于此模型筛选出适于工控网络设备流量分类的关键特征,在 节中详细介绍。节中详细介绍融合了报文首部关键特征和有效载荷特征的一维 分类模型,为方便,后续简称该模型为 ()分类模型。分类任务中根据报文源 设备类型给每条报文做标记,直接分类对象是流量报文,根据每个设备发送报文的分类分布结果判断设备最终的分类。基于报文首部特征及其统计特征的分类模型 特征选取网络流量报文中存在大量特征,文献 中系统地列举了分别基于报文头部、网络流、连接图的三大类流量特征,并给出清晰明确的定义。参照前述文献,结合工控设备类型分类需求,本文选择了 种流量报文特征,见表。这些特征可以分成两类,一类是报文首部中的字段,另一类是统计特征,这些统计特征是以同一 对的当前及后续连续条报文序列为统计对象,表中所述的“报文序列”即指被统计的条连续报文。对于端口号,编号 的端口是公认端口,是注册端口,是动态端口,分别将这类端口映射为,如果端口不存在则为。将端口号映射成种类别,去除了动态端口的随机性,可以保证这一特征的稳定表达。生存时间 是一个 的值,不同操作系统有不同的默认初始生存时间值,如、。工控系统设备产生的流量的 值就是以上种之一,分别映射为,将其它值映射为。对于报文长度及其统计量特征,以 字节为步长,将报文长度映射为数字,超出 字节长度的也映射为。类似地,相邻报文到达时间间隔及其统计量特征,因其计算机工程与设计 年数值跨度大,所以按数量级划分映射为数字。表流量报文特征特征表示特征描述 源端口 生存时间 报文长度 报文序列中长度均值 报文序列中长度标准差 报文序列中长度最大值 报文序列中长度最小值 相邻报文到达时间间隔 报文序列中到达间隔的均值 报文序列中到达间隔的标准差 报文序列中到达间隔的最大值 报文序列中到达间隔的最小值 基于随机森林的二级分类模型随机森林算法组合多个不同的决策树分类器,相比单个分类器不仅分类效果更好,而且泛化能力更强,不易产生过拟合;训练过程中,各个决策树之间是相互独立的,训练速度快;而且随机森林能计算特征重要性,对选择关键特征有很大作用。因此基于报文首部特征的分类模型决定采用随机森林算法。对于分类任务,同一条件下二分类任务总是比多分类任务更容易。不同方法的三分类模型对实验数据集进行实验,结果也表明分类效果很差,精度不足以支持后续的设备分类(见 节)。说明依据现有的特征数据不适合直接生成三分类模型。所以采用多级分类的策略,利用两个二分类模型,完成三分类任务。该二级分类模型的分类流程如图所示。其中第一级分类模型从总体报文特征数据集中划分出 设备集与非 设备集;接着对非 设备集的报文特征数据集进行二级分类,得到 设备集合 设备集。图二级随机森林工控设备分类算法总体流程单级分类的详细流程如图所示。流量报文特征数据集输入到随机森林二分类器中,报文特征数据被分类器分成两类,以各源 在两个类别中的出现频率为依据,确认该源 设备的分类,分类公式如下 ,()()式中:代表类别,()是分类结果中某源 的报文在类别中的出现频率,表示出现频率最大的类别,即为该源 设备分类结果。图单级随机森林二分类器详细流程 提取流量报文首部的关键特征随机森 林 中 通 常 选 用 基 于 平 均 不 纯 度 减 少(,)的不纯度重要性或基于平均准确度减小(,)的置换重要性作为评价指标来衡量特征的重要性,本节选用计算更快的不纯度重要性,。在决策树的学习过程中,期望其中的分支节点所包含的样本尽可能属于同一类别,即节点中的“纯度”越高越好,可用基尼指数度量数据集的纯度。第 卷第期程晟滔,王诗蕊,张耀方,等:基于流量分类的工控联网设备识别假定节点中,第类样本所占比例为(,),则节点的基尼不纯度如下()()当节点划分为两个子节点和后,和代表划分到两个子节点的样本比例,不纯度变化量为()()()()()遍历随机森林中所有树中的所有节点,计算特征变量的不纯度减少()()(,)()()的值就是基于 计算得到的特征变量的不纯度重要性。利用上述方法对 节中提出的二级随机森林分类模型中的两个随机森林分类模型分别进行特征的重要性评分,将两个模型特征集的重要性相加,作为模型整体的重要性评分。按整体重要性从大到小的顺序逐一将特征加入特征集中,每加入一个特征,用新特征集重新训练二级随机森林分类模型,重新评估其性能,直到性能指标与原模型相当,此时的特征可称为来自流量报文首部的“关键特征”,这些特征可有效地对工控流量报文进行分类。分类模型本节将详细基于特征融合的卷积神经网络流量分类模型 ,模型中将 节提取的关键特征与有效载荷的隐含特 征 向 量 融 合,再 对 融 合 特 征 向 量 进 行 分 类。模型中的特征数据有着更全面丰富也更具代表性的分类信息,利用该模型可更高效快捷地完成工控设备类型分类。有效载荷预处理卷积神经网络模型中需要输入定长向量,但流量数据中每条报文的有效载荷长度是不一致的,所以需要对有效载荷进行齐整化处理。具体如何选择齐整长度数值,需要根据实际流量中有效载荷的长度分布确定,做到尽量保留更全面的信息的同时不产生过多冗余信息。而且有效载荷头部包含应用层数据的固定格式信息,对分类有重要作用,因此齐整化截取的是有效载荷前面部分。网络结构 分类模型的总体结构如图所示。输入齐整化后的有效载荷数据,经过两轮卷积、激活、池化操作,得到有效载荷映射到隐含特征空间中的特征向量。该特征向量与关键特征拼接融合,通过全连接层得到个输出,分别代表 、和 ,其中最大者为该条报文的分类结果。模型中,特征融合点选择在有效载荷的隐含特征提取出来之后,全连接层之前,保证关键特征表达不会被卷积网络抑制。图 分类模型总体结构计算机工程与设计 年如图所示,模型的输入是长度为 的一维向量(长度由 节的分析确定)。在进入第一层卷积网络前,先对输入向量两边补零,补零的长度是(卷积核大小),这使得卷积后的向量长度与输入向量一致,这层的卷积核大小为,所以两边补零长度是。第一层卷积中应用了 种卷积核,得到了 个卷积向量。对卷积后的向量进行 ()激活。接着以两个元素为单位进行平均池化,得到 个长度为 的向量。第二层卷积网络也是类似的处理,得到一个长度为 的隐含特征向量。该特征向量与关键特征拼接融合,输入到全连接层,最后得到分类结果。该分类模型得到的结果是对于单条流量报文的分类结果,对于发出这条报文的源 设备,需要计算该 发出的流量报文在类别中出现的频率(),选择出现频率最大的类别作为该 设备的分类结果 ,()()实验和分析 实验平台与数据量 实验平台实验平台通信交互关系如图所示,图中的连线表示在收集到的数据集中连线两端的设备之间存在通信,设备 都是 网 段,以 最 后 一 个 字 节 作 为 标 记。,这个 之间的通信用的是 协议,这个 之间的通信用的是