分享
基于K近邻算法的网络敏感信息过滤方法_成彦衡.pdf
下载文档

ID:2367473

大小:1.69MB

页数:5页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 近邻 算法 网络 敏感 信息 过滤 方法 成彦衡
电子设计工程Electronic Design Engineering第31卷Vol.31第6期No.62023年3月Mar.2023收稿日期:2021-11-23稿件编号:202111152基金项目:四川省科技厅项目(2019YJ0705)作者简介:成彦衡(1987),男,江苏连云港人,工程师。研究方向:医院信息化、计算机网络、网络信息安全。信息时代的迅猛发展,使信息能够更加及时和广泛地传播到各种社交平台,为人们实时提供最新的信息。但是,当今网络技术的飞速发展,为黑客提供了可入侵的空间,其通过各种手段在网络上发布一些虚假信息和非法传播内容,给网络信息共享带基于K近邻算法的网络敏感信息过滤方法成彦衡1,黄 宇2(1.连云港市第四人民医院,江苏 连云港 222000;2.成都理工大学工程技术学院,四川 成都 614000)摘要:面对当前方法受到数据稀疏性影响,导致敏感信息过滤效果差的问题,提出了基于K近邻算法的网络敏感信息过滤方法。以K近邻算法中用到的评分实际数据稀疏度为评判依据,对网络敏感信息进行分类,避免了过滤过程受数据稀疏性的影响。构造敏感信息决策树,在树节点上添加敏感关键词,利用K近邻分类算法计算特征值方差矩阵的权重和累积权重。将计算结果添加到反敏感信息库中,引入时间和主题相关度变量参数计算相似度,通过查找网络上的敏感素材,筛选符合条件的敏感信息。由实验结果可知,该方法平均绝对误差和标准化平均绝对误差与其他方法相比数值最小,分别为0.19和0.20,说明其网络敏感信息过滤效果较好。关键词:K近邻算法;网络敏感信息;过滤;数据稀疏度;相似度中图分类号:TN99.34文献标识码:A文章编号:1674-6236(2023)06-0105-04DOI:10.14022/j.issn1674-6236.2023.06.022Network sensitive information filtering method based on K-nearestneighbor algorithmCHENG Yanheng1,HUANG Yu2(1.The Fourth People s Hospital of Lianyungang City,Lianyungang 222000,China;2.The Engineering&Technical College of Chengdu University of Technology,Chengdu 614000,China)Abstract:Facing the problem that the current methods are affected by data sparsity,resulting in poorfiltering effect of sensitive information,a network sensitive information filtering method based onK-nearest neighbor algorithm is proposed.Based on the actual data sparsity used in the K-nearestneighbor algorithm,the network sensitive information is classified to avoid the influence of data sparsityon the filtering process.A sensitive information decision tree is constructed,sensitive keywords areadded to the tree nodes,and the weight and cumulative weight of eigenvalue variance matrix arecalculated by K-nearest neighbor classification algorithm.Add the calculation results to the anti sensitiveinformation database,introduce the time and subject correlation variable parameters,calculate thesimilarity,and screen the qualified sensitive information by finding the sensitive materials on thenetwork.The experimental results show that the average absolute error and standardized average absoluteerror of this method are the smallest compared with other methods,which are 0.19 and 0.20 respectively,indicating that the filtering effect of network sensitive information is better.Keywords:K-nearestneighboralgorithm;networksensitiveinformation;filtering;datasparsity;similarity-105电子设计工程 2023年第6期来阻碍,严重危害了网络环境的健康发展。因此,有效过滤敏感信息可以保护网络环境。目前,采用的过滤仿真方法有两种,一种是陆态网络敏感信息多级纵深过滤仿真方法1;另一种是决策树识别算法2。在研究大量网络敏感信息时,上述两种方法均受到数据稀疏性的影响,即相似性计算不精准,从而导致敏感信息不能被完全过滤。为此,该文提出了基于K近邻算法的网络敏感信息过滤方法。1基于K近邻算法的网络敏感信息分类1.1网络敏感信息稀疏性分析由于 K近邻算法不需要用任何方法预测空格的分数,因此,K 近邻算法对数据稀疏性有很好的适应性3。假设网络中有v个用户、c个项目,总评分数为T,在 K 近邻算法中,数据稀疏度为T/(vc),也就是数据集本身具有稀疏性4。数据稀疏度愈小,数据集愈稀疏。用kTT(ci)代表用户ci的动态 k近邻,则提出的 K 近邻算法中,由于每个用户的近邻数最大为 k,即:|i=1vkTT()cikv(1)设算法中的所有评分集合为Y,其中,|Y T,即过滤过程中用到的评分数通常小于目前的评分数T。因此,在 K 近邻算法中用到的评分实际数据稀疏度可表示为:=|Ycv(2)由式(2)可确定网络敏感信息的稀疏性。1.2网络敏感信息分类基于K近邻算法的网络敏感信息分类包括三个步骤:步骤一:将网络敏感信息集G划分为 k 个大小相等的信息子集G1,G2,Gk;步骤二:将Gi作为检验的信息集,将剩余的k-1个子集作为训练的信息集,计算Gi作为待检验信息集时的分类精准度P()i如下:P()i=j=11/kMf()Xj1/kM(3)式(3)中,M代表数据集中的样本数量;Xj代表检测的样本数量。步骤三:迭代处理步骤二 k 次,获取最终分类结果。2基于K近邻算法的网络敏感信息过滤为了筛选敏感信息,必须具备过滤标准,所以要区分敏感词的内容和等级。设立敏感词语库,按照敏感词的类型,对敏感词进行分类。将网络敏感信息分为政治、色情、暴力等三大类信息,这些敏感词影响了国家的发展和社会的稳定,因此,需要过滤这些信息。针对网络敏感信息的过滤,首先要筛选出网络敏感信息,然后构建敏感信息决策树,最后利用K近邻分类算法设计过滤步骤。2.1基于K近邻算法的敏感信息决策树的构建以敏感词的首字母为依据,构建决策树的根目录子树,将根目录子树上存在的敏感词添加到敏感信息数据库中,以便提取。对于不存在根目录子树上的敏感词,需进行剔除5。由于在构建的决策树中存在多个子节点,这些节点信息除了敏感信息外,还存在伪敏感信息。因此,需对其进行非叶节点处理6。基于K近邻算法的敏感信息决策树构建步骤为:步骤一:在敏感信息数据库中isLeaf()有三类数值,分别是isLeaf a非叶节点数值,isLeaf b叶节点数值,isLeaf c伪叶节点数值。对于这三类数值,根据根目录子树中每个树枝对应敏感词的首字母进行排序;步骤二:分析第一个敏感词的第二个或第三个字母,当敏感信息数据库中的敏感词的最后一个字母没有子节点时,就变成了真实的叶节点。当敏感信息数据库中的敏感词的最后一个字母有子节点时,就变成了伪叶节点7-8;步骤三:根据子树中的敏感词拼音,及时更新信息库,在决策树相应节点上添加敏感信息,并过滤相似的敏感词,由此完成敏感信息决策树构建9。在敏感信息数据库中构建的决策树,能够减少数据在敏感信息数据库中所占的内存,减少伪敏感信息提取时间。2.2网络敏感信息过滤步骤设计利用近邻分类算法结合决策树对网络中的敏感信息进行集中过滤,结合 K 近邻算法设计网络敏感信息过滤步骤,如图1所示。由图1可确定网络敏感信息过滤的具体步骤:步骤一:计算特征值协方差矩阵的累积权重,将敏感词库中的敏感词进行分类处理,假设敏感词库-106Q中包含了ab文本,对该文本量化处理后,可得到矩阵Qa,b,求出该矩阵的协方差10-11。根据求取结果分析敏感词特征向量,并用x1,x2,xn,y1,y2,yn来表示,由此计算的特征值协方差矩阵的累积权重,可表示为:k=yk/k=1jyk,k=k=1ik(4)式(4)中,kn表示矩阵维数。在此基础上,对敏感信息决策树中的敏感词特征和求取累积权重进行分析,为建立反敏感信息库提供逻辑支持12。步骤二:构建反敏感信息库加权每个特征值方差矩阵,以网络敏感信息为区域主题,建立敏感信息本体,通过对所有敏感信息的语义分析,形成反敏感信息库13。步骤三:计算相似度引入时间和主题相关性作为筛选参数,首先,过滤有关敏感信息的时间。时间t权重的计算公式:T=-()t1-t2(5)式(5)中,表示时间常数;t1表示信息存储时间;t2表示信息管理时间。在权重大于设定阈值时,进行主题相关性分析14。在时间权重确定的情况下,计算某一文本里面敏感词的主题相关性大小如下:i=(i,u)j=1n(j,u)lgNX(6)式(6)中,(i,u)表示敏感词i在该文本u中出现的次数,(j,u)表示敏感词j该文本u中出现的次数,N代表爬取的总文本数,X表示存在敏感词i的文本数量15。如果主题相关性对应的数值小于或等于设定的阈值时,就会被存储在一个敏感信息相关的信息库中,同时提取相应文本;如果主题相关性对应的数值大于设置的阈值,则需将其归入队列管理模块中16。根据上述原理,计算敏感信息相似度为:Sim=cos(ui,ri)=i=1nuirii=1nu2ii=1nr2i(7)式(7)中,ui表示在文本u中第i个敏感词;ri表示在敏感主题中的第i维向量。按照 URL 队列的优先次序对敏感信息进行排序,敏感信息排序越靠后说明与主题的相关性越低,需予以剔除。为此,将排序在最后的敏感信息抓取出来进行剔除处理。基于计算的相似性,利用词库筛选出合适的文本信息。词汇库的构建主要是对敏感事件进行搜索,筛选出敏感事件的相关数据,获取每个事件的标题和相关敏感信息。该方法根据网络敏感信息的分类标准,利用K近邻算法,选取有显著性关键词的关键词作为敏感词库。词汇库还将定期进行更新,通过词汇库中的词汇表进行语义分析,剔除相关性不强的词汇,过滤网络敏感信息。3仿真实验分析3.1实验设置3.1.1实验过程将所提的基于K近邻算法的过滤方法与传统的纵深过滤仿真和决策树识别算法进行对比分析,在解决敏感信息过滤问题的比较中,设计对比实验。3.1.2评价指标1)平均绝对误差MAE平均绝对误差是根据网络信息敏感度预测和实际评分之间的评估结果得到的,MAE值越小,说明图1网络敏感

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开