温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
异化
需求
关系
分布式
报送
信息
数据
分类
方法
研究与开发 差异化需求下的非关系型分布式报送信息大数据分类方法 韩璐1,陈威宇1,张斐2,何建锋1,苏怀振3(1.国网甘肃省电力公司,甘肃 兰州 730030;2.国网思极飞天(兰州)云数科技有限公司,甘肃 兰州 730020;3.国网甘肃省电力公司定西供电公司,甘肃 定西 743000)摘 要:针对多源异构、分布广泛报送信息差异化应用需求较多、无法区分可用性信息的问题,研究了差异化需求下的非关系型分布式报送信息大数据分类方法。首先,分析了非关系型分布式报送信息数据库的可用性、开放性和拓展性等特征,结合字段类型的基本要求,采用非结构化数据库存储文本检索信息处理(TRIP)存储非关系型分布式报送信息;然后,分析了汉明散列家族内散列过程,在线性级要求约束下,利用多吸引子优化元胞自动机,通过遗传算法改进多吸引子元胞自动机分类器的最优参数,进而改进大数据分类方法。实验结果表明,该方法能够有效识别并分类非关系型分布式报送信息中的结构化数据与非结构化数据,具有较高的分类精度。关键词:差异化需求;非关系型;分布式;报送信息;大数据分类;元胞自动机 中图分类号:TP311 文献标志码:A doi:10.11959/j.issn.10000801.2023122 Big data classification method of non relational distributed submission information under differentiated requirements HAN Lu1,CHEN Weiyu1,ZHANG Fei2,HE Jianfeng1,SU Huaizhen3 1.State Grid Gansu Electric Power Company,Lanzhou 730030,China 2.State Grid Lanzhou Siji Feitian Cloud Date Science Technology Co.,Ltd.,Lanzhou 730020,China 3.State Grid Gansu Electric Power Company Dingxi Power Supply Company,Dingxi 743000,China Abstract:The classification method of non-relational distributed submitted information big data under the differen-tiated demand was studied,aiming at the problem of multi-source heterogeneous,widely distributed submitted infor-mation with more differentiated application requirements and inability to distinguish the available information.Firstly,the usability,openness and expansibility of the non-relational distributed submission information database were ana-lyzed.The unstructured database storage TRIP was used to store non-relational distributed submission information by combining the basic requirements of field types.Then,the hashing process within the Hamming hash family was analyzed.Under the constraint of linearity level requirements,cellular automata with multiple attractors were used to optimize the system.The optimal parameters of the multiple attractor cellular automata classifier were improved through genetic algorithm,thus improving the big data classification method.Experimental results show that this 收稿日期:20221205;修回日期:20230601 115 电信科学 2023 年第 6 期 method can effectively identify and classify structured data and unstructured data in non relational distributed sub-mission information,and has high classification accuracy.Key words:differentiated demand,non relational,distributed,submit information,big data classification,cellular automata 0 引言 信息化建设是社会发展与建设的主要方向1,而在社会各领域事件处理过程中,纪检工作报送信息工作的重要性不可忽视。通过局域网或互联网进行信息交流,将产生海量的报送信息,为应对目标需求的差异化,这些报送信息的主要特征表现为多源异构、分布广泛等2。基于信息格式角度分析,这些报送信息中不仅包括结构化数据,还包括非结构化数据3-4。划分信息大数据能够优化信息的存储、应用机制,提升信息的应用性能,例如,文献5分析了分布式科技资源局部和全局语义特征形式多样性,从分布式科技资源空间中快速、准确地获取效应知识,进行定性科技资源输出的映射变换,提出了一种基于多元神经网络融合的分布式资源空间文本分类模型。文献6并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合,满足大数据应用中时间和存储空间的限制改进需求。文献7使用映射器对从不同分布式源生成的大数据进行并行处理,获取并行数据后,再使用深度信任网络分类器,分类处理后的数据,并将其划分成数据子集输入映射器。文献8使用了一种基于数据相关性和时空财产的多副本一致哈希算法,进行数据分发策略并行数据处理和块大小调整,改善效率和存储容量低的问题。因此,本文总结以往研究经验,提出了基于此研究差异化需求下的非关系型分布式报送信息大数据分类方法,创新性地应用基于遗传算法的分类器参数优化机制,基于线性级要求更新分类策略,并进行功能与功能之间的映射,改进多吸引子元胞自动机分类器,提升分类精度。1 关系型分布式报送信息大数据分类方法 1.1 非关系型分布式报送信息大数据分类模型设计 在大数据应用持续拓展的条件下,分类应用将逐步从针对单独数据库发展为针对分布式数据库。同时,部分分类应用通常以领域专家为核心,结合分类器进行交互实现分类功能。在大数据环境下,分布式报送信息数据分类的主要特征表现为以下 3 个方面。大数据的分布性。空间领域中数据集类别的差异性。时间领域中数据集分类分布的迁移性。基于上述特征,设计了如图 1 所示的差异化需求下的非关系型分布式报送信息大数据分类模型,该模型主要分为两个部分,分别是分类器挖掘与分类器应用。由图 1 可知,分类器挖掘阶段是核心,其主要分为非关系型分布式报送信息数据库和分布式关联分类器构建两个环节。1.2 差异化需求下的非关系型分布式报送信息数据库构建 1.2.1 数据库内字段类型的基本要求 差异化需求下的非关系型分布式报送信息数据库需要创建类型有所差异的字段,存储格式有所差异地报送信息数据,同时可依照用途与需求的差异化增加、修正与清除。非关系型分布式报送信息数据库内字段类别分为字符串、数值、文本以及二进制等字段。字符串、数值字段的主要功能是存储报送信息结构化数据9-10;文本与二进制字段的主要功能分别是存储文字信息和存储非结构化数据。研究与开发 116 1.2.2 非关系型分布式报送信息数据库存储 采用非结构化数据库存储文本检索信息处理(text retrieval information processing,TRIP)存储非关系型分布式报送信息中的结构化与非结构化报送信息数据。字段汇聚成记录,进而又汇聚成 TRIP数据库。各数据库分别包含 3 个文件,分别是 baf、bif 和 vif 文件,彼此之间相对独立,设定文件内全部文字、数值与日期等内容的索引。3 个文件中,baf 文件用于存储报送信息数据11-12,bif 文件和 vif文件的主要功能分别为存储索引和词汇片段索引。1.3 基于多吸引子元胞自动机的分类器构建 1.3.1 多吸引子元胞自动机 若单一元胞自动机的状态转换图内的全部状态均包含在大量循环内,即可将其定义为有组织元胞自动机;相反,非组织元胞自动机的状态转换图内包含循环与非循环两种不同状态。单一多吸引子元胞自动机的状态转换图中包含部分循环与非循环状态13。多个非循环状态以循环状态为根构建部分倒置树,此类循环态被定义为吸引子。针对单一元胞自动机的状态变化,以 g 表示树的高度。若某n位模式集全部有概率的2m个模式均存在于模式集内,m位域可定义为伪穷举。在某包含2mk个吸引子的多吸引子元胞自动机内,包含m位的位置,则该条件下吸引子生成2m个伪穷举模式。利用n位二进制串能够描述一个包含两个吸引盆的n位多吸引子元胞自动机,该串可被定义为依赖向量,用VG表示。若VG为n位,U表示n位的模式,即可将U的因变量,也就是VG内含1 的区域模 2 相加,若U属于吸引盆,所得和为 0或 1,具体描述如下。V0,.1,UUUG零盆地非零盆地(1)任意包含2m个吸引盆的n位多吸引子元胞自 图 1 差异化需求下的非关系型分布式报送信息大数据分类模型 117 电信科学 2023 年第 6 期 动机可用过n位的依赖字符串sG描述。m个长度分别为12,mn nn的依赖向量串联形成n位的sG,此过程中12mnnnn,通过U能够描述其吸引盆将被识别的n位模式。针对各长度为in的依赖向量ViG,通过iU能够描述与U相对应的in位因变量,其值为0或1,具体描述如下。VVV0,.1,iiiiiUUUGGG零盆地或非零盆地或(2)通过式(2)能够确定第i 个伪穷举位的值。所以,可由m 个VG内得到一个m 位串,即模式U在吸引盆内的伪穷举域EU:12EVV1V2VmmUUUUU GGGG(3)其中,均为n位识别系数。因此,可通过()O n描述识别吸引盆的复杂度。1.3.2 汉明散列家族 任意多吸引子元胞自动机均能够实现稳定的散列目的,汇总全部的多吸引子元胞自动机即可构建一个散列家族。该家族内散列过程中形成碰撞的两个不同模式与汉明距离DL之间表现为显著的反比例相关性,该特征主要由汉明散列家族导致。该理论为多吸引子元胞自动机的吸引盆提供关键性质14-15。考虑这些模式的碰撞均在一个吸引盆内产生,所以根据DL可确定,距离较近的模式归于同一吸引盆。1.3.3 基于多吸引子元胞自动机的模式分类器 任意包含k个吸引盆的n元胞多吸引子元胞自动机均能够视为一个分类器,分类策略如图 2所示,以此为例进行说明。图 2 所描述的是用于模式分类的多吸引子元胞自动机被划分为与两个类别,类别和 类别分别描述的是一组吸引盆(0110,0101,0011)和剩余吸引盆(0000)。除 内的模式为类外,剩余模式均为类。依照以上模式,U成为唯一的模式识别类别,它能够描述存放对应类别信息的存储器地址。分析图 2 还能够得到,类别和类别的吸引