数据
环境
嵌入式
可信
软件
异常
识别
研究
江志华
收稿日期:2022-04-07 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0241-04大数据环境下嵌入式可信软件异常识别研究江志华1,赵飞宇2(1.乐山师范学院电子信息与人工智能学院,四川 乐山 614000;2.西华大学信息与网络管理中心,四川 成都 610039)摘要:嵌入式多任务操作内核是其应用的核心,但由于嵌入式操作具有开放性,导致网络化软件中出现风险漏洞,引发可信软件异常问题,对操作内核造成损坏。大数据环境下软件数据的大规模和高复杂度加大了软件异常识别的难度,为此,提出嵌入式操作内核可信软件异常识别方法。结合不同类型的受限玻尔兹曼机,构建深度信念网络用于数据降维。采用梯度下降法改进遗传算法,将其应用在支持向量机的优化中。通过优化的支持向量机建立软件异常识别模型,将降维后数据输入模型,完成嵌入式操作内核可信软件异常识别。实验结果表明,所提方法下软件异常识别的准确率、召回率、查全率和 F1 值均在 95%以上,且有效降低了内存开销和性能开销。关键词:嵌入式操作内核;可信软件;异常识别;深度信念网络;支持向量机中图分类号:TP311.5 文献标识码:BResearch on Anomaly Identification of Embedded TrustedSoftware in Big Data EnvironmentJIANG Zhi-hua1,ZHAO Fei-yu2(1.School of Electronic Information and Artificial Intelligence,Leshan Normal University,Leshan Sichuan 614000,China;2.Information and Network Management Center,Xihua University,Chengdu Sichuan 610039,China)ABSTRACT:The embedded multitask kernel is the core of its application.Due to the openness of embedded opera-tion,risk vulnerabilities in networked software may lead to software exceptions.Therefore,a method of identifying theexception of trusted software with embedded operating kernel was proposed.Combined with different types of restrictedBoltzmann machines,a deep belief network was constructed for data dimensionality reduction.And then,the geneticalgorithm was improved by gradient descent method and applied to support vector machine optimization.Moreover,the optimized support vector machine was used to build a model for identifying software anomalies.Finally,the dataafter dimensionality reduction was input into the model,thus completing the recognition.Experimental results provethat the accuracy,recall,recall and F1 value of the proposed method are more than 95%,and the memory and per-formance overhead are reduced significantly.KEYWORDS:Embedded operating kernel;Trusted software;Anomaly recognition;Deep belief network;Supportvector machine1 引言现阶段,数字化控制系统被广泛应用于工业及制造业等领域之中1,智能化仪器仪表也逐渐替代传统仪器仪表,大幅度提升了现代工业智能化水平。数字化控制系统和智能化仪器仪表等均以嵌入式系统为核心2,其安全性建立在可信嵌入式软件基础上3,嵌入式软件的潜在风险通常高于个人计算机软件,更易导致系统故障等问题的发生,对嵌入式软件异常识别和监督是保障嵌入式系统安全运行的基础,因此构建科学合理的嵌入式操作内核可信软件异常识别方法尤为重要。罗森林4等人将高斯算法和聚类算法相结合用于软件集合簇的划分,以划分后若干簇内类别比为依据筛选可靠样本,采用后验概率识别边界并在此基础上平衡加权数据,通142过平衡优化数据构建嵌入式操作内核可信软件异常识别模型,实现软件异常识别。杨宏宇5等人融合长短期记忆网络和变分自动编码器生成混合网络,并在该网络基础上建立嵌入式操作内核可信软件异常识别模型,长短期记忆网络用于提取软件数据时序特征,变分自动编码器用于建模数据分布,通过混合网络模型处理关键特征参数并获取相关异常度量值,引入耦合度方法优化传统的线性加权,量化软件异常状态,实现软件异常识别。仇开6等人采用信息熵法赋权嵌入式操作内核可信软件各维度数据,引入改进的加权局部离群因子检测方法初次识别软件数据异常,结合软件运行时上下文信息,二次识别软件异常数据,实现软件异常识别。虽然以上方法在现阶段取得了较好的应用效果,但是忽略了对软件数据规模较大和复杂度较高导致的“维数灾难”问题的考虑,导致软件异常识别结果出现一定程度偏差。为了解决上述方法中存在的问题,提出嵌入式操作内核可信软件异常识别方法。2 软件数据降维大数据技术的发展使数据收集难度降低,但大数据环境下嵌入式操作内核可信软件的数据规模和复杂度大幅度提升,导致大规模高维数据的产生,“维数灾难”问题造成异常识别困难、识别效果下降等问题,因此在嵌入式操作内核可信软件异常识别前需要将数据降维处理。采用深度信念网络降维数据7,深度信念网络由高斯伯努利型和伯努利伯努利型受限玻尔兹曼机堆叠而成8。受限玻尔兹曼机由可见层和隐藏层神经元共同构成,总体上为二分图形式。用 n 表示嵌入式操作内核可信软件数据样本总数,m 表示数据维度,则数据集可表示为 Xnm,将 Xnm输入网络模型,最终输出低维数据集 Ynd,其中,d 表示降维后数据维度,dm。在全部受限玻尔兹曼机中,每个受限玻尔兹曼机均与一个能力值相对应。用 u 表示可见层向量,g 表示隐藏层向量,将两层中神经元二进制表示,若结果服从伯努利分布,即 u0,1,g0,1,则该受限玻尔兹曼机为伯努利伯努利型。用 ui和 gi分别表示 u 和 g 的第 i 个和第 j 个神经元,W表示可见层与隐含层单元连接权重矩阵,ij表示第 i 行第 j列权重值,b1和 b2表示可见层和隐含层偏置向量,b1i和 b2j表示其中第 i 个和第 j 个偏置矩阵,则其能量函数 E(u,g)如下所示E(u,g)=-i,jijuigj-iuib1i-jgjb2j=-uTWg-(b1)Tu-(b2)Tg(1)当可见层单元为实数且服从高斯分布时,该受限玻尔兹曼机为高斯伯努利型,对于可见层和隐藏层的每个向量 u和 g,对应能量函数 E(u,g)如下所示E(u,g)=12(u-b1)T(u-b1)-(b2)Tg-uTg(2)结合能量函数 E(u,g),可得到可见层与隐藏层联合概率密度 P(u,g)如下所示P(u,g)=exp-E(u,g)u,gexp-E(u,g)(3)如果想要使受限玻尔兹曼机达到稳定状态,需要获取其势能最小值,通过对受限玻尔兹曼机各项参数的训练和优化,促使 E(u,g)取值达到最低点。由可见层概率密度 P(u)=gP(u,g),可知 E(u,g)最小值与-P(u)最小值一致。因此引入随机梯度下降法将 P(u)的负对数似然值 JNLL(W,b2,u)极小化处理9,即 minJNLL(W,b2,u)=-lbP(u)。用data和mod el分别表示相应参数在数据和模型中估计的期望值,则对于 ij存在ijJNLL(W,b2,u)=-uihjdata-uihjmod el(4)因为获取mod el的准确值难度较大,所以借助对比散度算法对mod el加以估计,通过 t 步吉布斯采样获取uihjmod el的近似值uihjt,用uihjk表示经历 k 此迭代时均值10,则有ijJNLL(W,b2,u)=-uihj0-uihjt(5)将待处理数据输入模型的输入层,通过第一个受限玻尔兹曼机处理后映射输入数据至第一个隐含层,将隐含层输出数据作为第二个受限玻尔兹曼机的输入数据,经训练后可生成第二个隐含层,第二个隐含层输出值即为深度信念网络最终输出,即降维后数据。3 嵌入式操作内核可信软件异常识别采用改进遗传算法优化的支持向量机构建异常识别模型11,12。支持向量机是依据结构风险最小化原则将实际风险最小化的分类方法13,目前被广泛应用于分类和回归问题之中。用(xi,yi),xiRN,yi-1,+1表示 m 个降维后嵌入式操作内核可信软件数据样本,i=1,2,m,(x)=(1(x),1(x),M(x)表示特征映射,表示权值向量,b表示偏置,y(x)=sgn(x)+b)表示构造的最优分离超平面,C 表示正则化参数14,i表示松弛变量,则可将二分类的 1 范数软边界支持向量机描述为优化问题 J(,)minJ(,)=12T+Cmi=1is.t.yiT(xi)+b 1-ii 0,i=1,2,.m(6)引入拉格朗日定理转换式(6)问题为对偶问题 Q(),用=(1,2,n)T表示拉格朗日乘子15,i,j=1,2,m,i,j,yi,yj表示对应最优分离超平面,转换后问题可描述为如下所示maxQ()=mi=1i-12mi=1mj=1ijyiyj(xi),(xj)s.t.mi=1iyi=00 i C(7)242 依据泛函分析原理,若存在核函数 K(xi,yi)满足 Mercer原理,则该核函数与某一变化空间的内积相对应,即 K(xi,yi)=(xi),(xj),因此可转换式(6)为二次规划问题,如下所示maxQ()=mi=1i-12mi,j=1ijyiyjK(xi,yi)(8)结合 KKT 条件可知 i满足下式iyi(xi)+b-1+i=0(9)得到的结果中非零 i对应样本即为支持向量,依据式(7)可解 i取值,从而得到软件异常识别模型 f(x)为f(x)=signmi,j=1iyiK(xi,yi)+b(10)其中K(xi,yi)=exp-xi-yi222|(11)式中,表示径向基函数扩展常数。在支持向量机中,C 和 为两个可控参数,不同取值对分类器泛化能力具有不同影响。确定 C 和 取值是可信软件异常识别的基础,引入改进的遗传算法搜索软件异常识别模型最优解。传统遗传算法在种群演化过程中交叉概率和变异概率始终为同一取值,导致支持向量机训练时间过长的问题,为此,所提方法采用梯度下降方法改进遗传算法,减少获取全局最优解所需时长。交叉操作交叉是选取母代染色体中部分基因互相交换生成新染色体的操作。交换第一个母代染色体和第二个母代染色体的2/D维,D 为染色体维度总数。用 t 和 tmax表示当前迭代次数和最大迭代次数,Pcmax和Pcmin表示最大和最小交叉概率,M 表示群体中染色体总数,则执行交叉操作染色体个数 Nc和交叉概率 Pc如下所示:Nc=M 1-ttmax()Pc=Pcmin+(Pcmax-Pcmin)1-