基于
分裂
均值
无线网络
信息
定向
挖掘
方法
研究
建德
基于分裂式K均值聚类的无线网络信息定向挖掘方法研究叶 建 德(泉州职业技术大学,福建 泉州 3 6 2 2 6 9)摘 要:为增强无线网络信息定向挖掘效果,设计一个基于分裂式K均值聚类的无线网络信息定向挖掘方法。设定数据挖掘规则,对待处理的信息分块处理,将不同数据信息统一到数据节点中,寻找海量数据中的频繁事务,计算信息的主成分,并检索边权重,得到数据关键特征,筛选数据挖掘候选集,采用分裂式K均值聚类方法对大数据聚类,进一步计算候选集中每一类别下数据特征出现的概率,实现基于分裂式K均值聚类的无线网络信息定向挖掘。实验表明,所研究的定向挖掘算法挖掘精度高、可挖掘特征形成概率高、挖掘时间少、占用的内存少,有效增强无线网络信息定向挖掘效果。关键词:分裂式K均值聚类;无线网络信息;定向挖掘;检索;匹配;规则中图分类号:T P3 1 1.1 3 文献标志码:A 文章编号:2 0 9 5 9 6 9 9(2 0 2 2)0 6 0 0 2 3 0 50 引言随着信息技术的飞速发展,各种产业的信息量越来越大,人们对数据挖掘的需求也越来越大,越来越多的学者开始研究数据挖掘方法。其中,张乾坤1等研究了一种基于E L K框架的地理信息动态时空数据获取与挖掘方法,该方法建立动态采集机制,在信息采集的基础上,筛选信息,实现海量数据的挖掘;熊菊霞2等研究了异构复杂信息网络敏感数据流动态挖掘方法,通过对数据进行预分类,对敏感信息进行识别,求出最大的离散程度,再利用遗传算法对数据进行优化迭代,从而获得数据挖掘的特点。但是在无线网络信息中,会有一些隐藏信息,这些方法在一般情况下不能实现对隐藏在海量数据下的相关内容挖掘,会造成信息的丢失,信息挖掘效果不是很好。分裂式K均值聚类方法能够根据数据的特征将其映射到几个区域的特征空间内,每个样本属于一个类,每次更新获得与该类样本相关的数据,能够有效提高数据的处理效率。基于分裂式K均值聚类方法的这个优点,设计一种基于分裂式K均值聚类的无线网络信息定向挖掘方法。1 基于分裂式K均值聚类的无线网络信息定向挖掘方法1.1 挖掘规则制定在对无线网络中的信息数据挖掘时,预先设定数据挖掘规则,主要目的是找到海量数据中的频繁事务,即频繁项集。关联规则是一种以增长趋势为主形式的挖掘算法,主要包含候选集挖掘与挖掘数据优化两个过程,具体的挖掘规则为:对待处理的信息分块处理3,将处理后的结果输入到集群节点中,并计算每一项数据节点的支持度,支持度计算公式表示为:mj=Nmi=1xi jh(1)上述公式中,N代表数据的数量,h代表数据节点支持度计算参数;对m a p程序执行,从网络文件中获取本地数据集,将所有提取的数据集累积,整合为一个整体;在m a p p e r中输入另外一个数值记录信息,将该信息与之前信息对比,如果存在相同的数据,就将其发送到同一个节点中,频繁挖掘4,得到最后的挖掘结果;将不同数据信息统一到数据节点中,汇总所第3 7卷 第6期2 0 2 2年1 2月 景德镇学院学报J o u r n a l o f J i n g D e Z h e nU n i v e r s i t y V o l.3 7N o.6D c e.2 0 2 2收稿日期:2 0 2 2 0 6 2 0作者简介:叶建德(1 9 8 6)男,泉州洛江人。实验师,本科,从事电子信息技术应用研究。有结果。1.2 数据关键特征检索在无线网络信息搜寻的架构中,包含全文索引和时态索引两条物理路径,在搜寻的过程中,必须确保全文索引时态索引的方向相反。无线网络中存在着大量的交互信息,因此必须对其进行严格的分类,以确保后续检索工作的顺利进行5。在分类时,利用支持矢量法进行数据主分量分析,其中,支持矢量数据描述法是一种核心学习算法,它在特征空间中建立一个超球面描述数据,球内部采样点为标准点,球外采样点为非常规点,如下图1所示:图1 超球面示意图将包含正常样本点的超球面表示为:m i nR2s.t.xi-c2R2,(i=1,2,N)(2)上述公式中,R代表超球面半径,c代表球心向量,xi代表到球心向量的距离。由于数据到球心向量的距离不一定小于或者等于半径,为此需要进行修正,公式如下所示:m i nR2+Cmi=1is.t.xi-c2R2+i,i0,(i=1,2,N)(3)上述公式中,C代表正则化系数,i代表松弛变量。修正后,设置约束条件,如下所示:f1(K)=1,(k=1,2,NA)0,(k=NA+1,NA+MA)f2(K)=1,(k=1,2,NA)1,(k=NA+1,NA+MA)(4)其中,NA代表第A个数据的约束参数,MA代表第A个数据的约束参数。在上述过程处理后,获得信息的主成分,在检索时,需要建立关键特征的倒排索引,根据倒排索引能够快速检测到信息的所处位置6。在建立中,所有的参数值都是事先通过存储地址进行搜索的,再进行关键词搜索,当一次搜索结束时,将最后的搜索结果传送到交互通道7。检索边权重是衡量信息关键特征检索能力的重要物理指标,边权重大小与节点交互关系强弱直接相关,将检索边权重值8表示为:g=1-k-(I-U)xfh2l-(5)上述公式中,I代表无线网络中信息的上限匹配条件参数,U为信息的下限匹配条件,x代表幂次项统计系数,h代表与程序化检索向量,l、-分别代表信息节点平均交互常量与信息优先级别。通过上述过程完成信息以及数据处理的准备工作,为后续信息处理提供依据。1.3 基于分裂式K均值聚类的无线网络信息聚类在筛选数据挖掘候选集后,对大数据聚类9。分裂式K均值聚类方法易于实现,并且计算代价较小,然而,该方法对初始分类中心的影响更大,当初始分类点不够好时,聚类时将会使聚类算法的全局最优收敛变得困难,因此必须进行初始聚类中心优化1 0。同时,在处理过程中,分类簇数是不确定的,如果时间复杂度超出溢节点,则会增加时间复杂度。基于上述问题,设置搜索分类中心的目标函数1 1写为:f(p)=Ni=1m a xdik-p-p2i(6)上述公式中,dik代表节点k到所属分类中心的距离,p代表初始分类中心,pi代表第i次均值算法的迭代次数。若已知第k类的聚类结果为Fk,在第Fk+1的聚类过程中,将k+1个初始分类中心估计结果表示为:m*k+1=a r g m a xpuf(pu)(7)在分类过程中,分布于Fk周围的数据会较多,因此,在检索的过程中,每个参考点都在各自的类别内。在第一主单元方向上构造一个平面,并在此平面上将相应的类别分成两个子集合,从而进一步缩减了搜索范围1 2。基于上述分析,提出一个以主元分析导向的增量式K均值算法,具体过程如下所示:初始化,在Fk中选取方差最大的分类,将其42 景德镇学院学报 2 0 2 2年第6期记作V;对于V的协方差矩阵,采用奇异值对最大特征值的特征矢量分解1 3;以x为初始中心,分类中心结合,获得第k+1次的聚类结果。重复上述步骤,不断迭代该算法,完成信息的聚类,即完成无线网络信息定向挖掘。1.4 候选集信息数据挖掘经过上述过程进一步聚类同一类别信息,在此基础上,进一步挖掘所需要的信息,挖掘流程如图2所示:图2 数据挖掘流程由于候选集中还有很多数据信息,所以将编程思想作为基础,计算候选集中每一类别下数据特征出现的概率1 4。在实际的挖掘过程中,如果某一特征下数据频繁出现,则会造成数据的应用价值较低,为避免这个情况发生,重新分配无线网络环境中的权重,将公式表示为:M=il o gQd i(8)上述公式中,Q代表该候选集一共出现的次数,d代表算法系数,i代表第i个数据的权重分配权值。依据上述过程重新分配数据的权重,接下来,分类无线网络环境中的信息,以保证最终挖掘结果的准确性。上述权重分配结果即候选集评价结果,如果数据的最终值与全局簇中心点数值一致1 5,则代表完成数据挖掘,如果不一致,则需要进一步过滤。将过滤后的数据作为冗余数据,在后续处理中不需要再对冗余数据处理,以此完成无线网络信息定向挖掘。2 实验对比为验证设计的基于分列式k均值聚类的无线网络信息定向挖掘方法的有效性,进行实验,并设置实验参数,保证实验严谨性,实验基本参数如下表所示:表1 实验基本参数序号指标参数1无线网络类型V i r t u a lM a c h i n eM o n i t o r2实验时间1 h3信息交互方式随机方式4检索顺序顺向信息检索顺序5平台BM的工控异构网络机6主控机2.3 GH zC P U7内存3 2 G B8实验数据库AWS9网络数据集5 0 0个在以上实验条件下,为了保证试验的准确性,必须对试验数据进行预处理,程序如下:数据清洗,在数据集中删除重复的采样,使得多个具有相同属性值的采样被合并为一个;数据转换,转换数据自己中的属性值,采用二进制编码形式转换;数据规范化处理,采用聚类思想,以保证属性权重差距不是很大,采用最小最大规范化处理,公式如下所示:=-m i nAm a xA-m i nA(n e w_m a xxA-n e w_m i nA)(9)上述公式中,m a xA、m i nA分别代表属性A的最大值和最小值。经过上述处理,获得实验数据。选取的指标如下内容:挖掘精度,估计值与真实值之间的差异;可挖掘特征形成概率,计算公式如下:bi j(Pj(t)=i jri(t)Pj(t)j1+Pj(t)j(1 0)上述公式中,i j代表特征系数,代表敏感特征系数,Pj(t)代表概率值。522 0 2 2年第6期 叶建德:基于分裂式K均值聚类的无线网络信息定向挖掘方法研究 挖掘耗时,将基于E L K框架的挖掘方法、异构复杂信息网络数据挖掘方法与所研究方法对比,对比三个方法的挖掘耗时;数据挖掘内存占用率,通过该指标进一步验证该方法的应用效果。验证所研究方法与另外两个方法的挖掘精度,对比结果如下图所示:图3 挖掘精度对比基于图3可知,所研究方法挖掘精度较高,高于9 0%,较另外两种方法挖掘精度高出很多,证明所研究的方法能够较为准确地完成信息定向挖掘。本文所研究方法、基于E L K框架方法和异构复杂信息网络敏感数据流动态挖掘方法的可挖掘特征形成概率,对比结果如表2所示:表2 可挖掘特征形成概率实验次数/次所研究方法/%基于E L K框架/%数据流动态挖掘方法/%59 97 57 01 09 87 07 41 59 77 47 52 09 97 27 62 59 87 37 13 09 57 17 2从上表看出,本文所提出的可挖掘特征的生成概率在9 0%以上,可以很好地提取出特征。另外两种方法的生成概率小于8 0%,大大低于本文的算法。由于数据挖掘的特点生成效率不高,导致数据挖掘的效果较差。挖掘耗时对比结果如图4所示。通过上述结果看出,本文所提出方法挖掘耗时较少,因为该方法能够顺利挖掘到较多的可挖掘特征,从而降低数据挖掘次数,节省数据挖掘的时间。而另外两个方法在挖掘中,数据特征挖掘概率较低,会相应地增加挖掘次数,从而提高了信息挖掘的时间。图4 挖掘耗时对比最后,对比三个方法的数据挖掘内存占有率,对比结果如图5所示:图5 数据挖掘内存占用率基于图5可知,所研究方法内存占用率较少,因为该方法采用分列式K均值聚类方法对数据进行处理,信息特征挖掘较快,避免多次数据挖掘,有效降低内存占用率,较另外两种方法更具有优势。3 结束语完成基于分列式k均值聚类的无线网络信息定向挖掘方法的研究,实验结果表明,所研究方法能够有效挖掘信息特征,使网络更加高效运行。由于篇幅有限,本文所提出的方法还有不足之处,在后续研究中,重点研究影响信息挖掘因素,从而进一步增强数据挖掘的效果。参考文献:1 张乾坤,刘小生,何琦敏.一种基于E L K框架的地理信息62 景德镇学院学报 2 0 2 2年第6期动态时空数据获取与挖掘方法J.测绘通报,2 0 2 0(1):4 5 4 9.2 熊菊霞,吴尽昭.异构复杂信息网络敏感数据流动态挖掘J.计算机工程与科学,2 0 2 0,4 2(4):6 2 8 6 3 3.3 王玻,彭伟.基于数据挖掘的服务企业诊断信息情报智能采集模型研究J.科技管理研究,2 0 2