温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
相似
装备
数据
聚合
方法
杨杉
第 卷 第期空军工程大学学报 年月 收稿日期:基金项目:国家自然科学基金()作者简介:杨杉(),男,辽宁新民人,高级工程师,研究方向为数据理论。:引用格式:杨杉基于相似度的装备数据聚合方法空军工程大学学报,():,():基于相似度的装备数据聚合方法杨杉(部队,沈阳,)摘要现代战争需要对多源异构的装备数据进行高效集成。针对不同来源数据中装备名称不一致的问题,设计了装备数据的聚合模型和聚合流程,在综合分析现有算法的基础上,结合装备名称特点为该模型提供了一种新的相似度匹配算法,算法将 和最长公共子序列相结合,以提高匹配的精度。最后通过实验进行了验证,结果表明该算法与传统相似度算法相比具有较高的适配性和鲁棒性,可以为装备数据聚合工作提供有效支撑。关键词装备数据;数据聚合;文本相似度;最长公共子序列 中图分类号 文献标志码文章编号 ()(,),;信息融合和信息主导已成为现代战争体系作战能力生成与发挥的重要机理,随着装备信息化建设的不断深入,如何将多源异构的装备数据进行有效的融合集成已经成为不可回避的问题。装备数据聚合的主要矛盾是异源数据装备命名不唯一,该问题导致数据汇聚后难以直接使用,后期整编、维护、管理成本巨大,亟需寻找一种行之有效的装备名称匹配聚合方法。当前数据聚类、聚合的算法模型众多,在不同应用中效果迥异,但在装备数据聚合问题上尚无典型的研究案例和行之有效的实施方法。因此,本文针对装备数据聚合进行研究,根据装备名称的特点设计了装备数据的聚合模型和聚合流程,并尝试为该模型提供一个适用性较强的相似度计算方法。相关背景及概念 装备数据问题分析“装备数据”没有明确的定义,其内涵和外延存在较多解读,有学者将“装备数据”定义为“用于描述装备自身特性和状态的数据以及装备全系统全寿命管理活动所涉及的数据的统称”。装备数据涵盖范围宽泛,包含装备属性数据、装备标准数据、装备衍生数据、装备数质量数据等。作为装备数据的主体,这些数据都含有大量的装备名称,由于装备迭代更新加快、信息系统不相兼容、采集任务标准不一、人工采报内容格式不规范等原因,当前装备数据中存在大量装备名称不一致的情况,这为装备数据融合带来了困难,使装备数据难以形成统一的数据资源。装备名称不一致是指同一装备因数据来源不同存在多种命名方式的现象,该现象会严重影响数据质量,导致融合后数据失准,造成数据分析偏差,甚至影响指挥决策。例如装备可能有、等多个名称,如果直接归集使用,的统计数量会有缺漏,等非标准名称也将无法完成有效的信息关联,引发后期数据应用结果的混乱。所以在数据融合过程中必须识别出相同型号的装备并将其聚合。装备名称不一致问题产生原因多、发生频率高,情况也较为复杂,当前主要通过人工整编的方式进行解决,但因数据体量巨大,匹配工作效率低、容易出错。数据聚合及模型选择数据聚合的本质是数据匹配和对齐,是判断隶属个不同数据集合中的个实体是否属于同一个实体的过程。对装备数据聚合而言,其核心是对装备名称文本数据的聚合,目标是通过匹配对齐,消除数据的不一致性,提升数据的稳定性和准确性。为了有针对性地解决装备数据的聚合问题,本文对当前的主流方法进行了研究分析。数据聚 合 研 究 因 数 据 时 代 的 到 来 而 备 受 关注,当前数据聚合的主流方法可分为类:)基于概率的统计聚合模型。该模型是通过概率和权重的计算实现数据与主题词的聚合;)监督聚合模型。此模型是依托构建的人工神经网络模型实现数据聚合;)无监督聚合模型。该模型针对数据本身进行研究,主要通过文本相似度计算实现信息的聚类。前类模型针对的是长文本的数据聚类,主要应用于网络信息的检索,重点是对数据的数量和特征进行聚合。装备数据聚合因装备名称较短,难以统计词频和提取特征,统计模型和机器学习模型并不适用。故本文首先锁定无监督聚合模型作为解决方向。无监督聚合模型又分为“计算字符距离”和“计算语义相似度”类。前者是将文本数据作为字符序列进行量化分析,利用一些距离来衡量二者的相似度;后者一般需要依赖外部语义词典进行知识匹配来完成相似度计算。装备的命名主要由阿拉伯数字、英文字母、汉字及少量罗马字母组成,构成复杂、不易分词且缺少专用的外部词典;同时,装备名称特征具有稀疏性,容易对语义相似度计算的准确性造成较大的负面影响,所以不建议使用语义相似度进行聚合。综上所述,本文在无监督聚合模型的基础上,进一步确定采用基于字符距离计算相似度的方法解决装备数据聚合问题。装备数据聚合模型及流程 装备数据聚合模型装备数据聚合是指依据一定的规则将同一个装备对象的多个名称进行匹配对齐,根据匹配结果对待聚合数据集进行整合的过程。假定装备数据集 中的条数据和,则和匹配可定义为:(,),(,),()式中:为装备实体名称;表示条数据中装备名称的聚合相似程度,值越大,和越相似。可根据聚合要求设定阈值,如果 ,则对条数据进行聚合处理。装备名称具有规范性,在聚合过程中应向标准名称看齐,规范的装备名称来源于装备字典,所以如果聚合任务明确了装备字典,可先将 中的具体装备名称与进行匹配,选取中与相似度最高的名称作为匹配成功项,记为,即 (,)。因该匹配结果仅取最大值,本文称其为唯一性匹配。此时聚合的匹配定义由阈值判断转化为唯一性判别:第期杨杉:基于相似度的装备数据聚合方法 (,),()装备数据聚合流程装备数据聚合流程因装备数据种类不同而略有差异,但核心思想一致,本文将装备数据聚合流程分为个阶段:装备名称的提取和预处理。将装备名称从所有需要聚合装备数据集中全部提取出来,形成文本数据集,再对装备名称文本集进行剔重和清洗等预处理,以提升聚合的质量和效率;装备名称的匹配对齐。采用合适的相似度算法对装备的名称进行匹配计算,如果有明确装备字典,应将装备数据中的名称严格与装备字典进行唯一性匹配,否则通过设定相似度阈值完成匹配对齐;装备数据整合。装备名称匹配对齐后,首先应按标准统一装备名称,使装备名称具备唯一性,如果在聚合任务中没有明确的装备字典,建议选取信息较为完整的装备名称作为聚类后统一的标准。然后根据装备数据结构确定组合主键(一般包含装备名称,隶属部门,装备状态等),对数据进行删除重复项、整合同类数据等操作,进而得到最终聚合后的数据集合。整个过程如图所示。图装备数据的聚合流程分析装备数据聚合过程可知,其核心任务是对装备名称的匹配对齐,所以本文研究的重点是匹配所需的相似度算法。装备数据聚合相似度算法设计基于字符距离的相似度算法有较为丰富的研究成果,当前的主流算法有欧氏距离、余弦距离、最小编辑距离、距离 等。这些相似度算法各有特点,没有明显优劣。其中,最小编辑距离算法、余弦相似度等算法比较适合以分词为单位的计算,算法更适合以字符为单位的计算。装备名称当前缺少专用“词袋”难以分词,故 算法相对更适用于装备名称的相似度计算,但其加强对相同前缀评估的权重不符合装备名称的特点需求,因此本文尝试在该算法的基础上进行改进。装备型号命名一般用字母、数字和文字的组合表示该装备的基本性能、规格和产品种类。分析装备数据名称不一致现象,多数是由品牌、年代、型号、计量单位的不同写法造成的。虽然这些具体标识不完全一致,但内容本质上是相同的,所构成的装备名称文本也分散存在大量共有子域,例如“年式 毫米手枪”“式手枪”和“式 手枪”就拥有“”“”和“手枪”等相同子字符串。据此,本文在 的基础上增加对最长公共子序列的度量,具体算法如下:首先引入配窗口概念,对于字符串和,二者之间的匹配窗口记为():(,)()式中:和表示字符串的长度,当个相同字符的距离不大于 时认定该个字符是匹配的,因此通过可过滤掉距离相对较远的相同字符。过滤后得到新的字符串 和,因匹配字符个数相同,将新字符串长度记为:()此时 和 具有相同的字符集合,但部分字符位置不同。通过交换字符的方式将 转变为,将交换次数记为,则换位数目是发生换位次数的一半,记为:()通过和可以计算得到 距离:,(),()在 的基础上,对算法进行了补充,增加了对个字符串前缀相同部分的考量,相似度算法改进如下:()()式中:为常量,范围为(),根据实际情况进行调整,默认值通常设置为;为个字符串的起始部分存在的相同字符个数,即相同最大前缀空军工程大学学报 年长度。定义:对个字符串和在不改变字符顺序的基础上进行字符删减操作,将得到的长度最长的相同字符序列定义为和的最长公共子序列 (,),序列长度(字符个数)为 ,定义和公共子序列相似度系数为:()由 (,)可知 ,所以可以用 代替式()中的和个变量,将 算法改进得到新的:()()考虑到个系数叠加后相似度数值较大,比值结果差距较小,为了在应用中更容易设定相似度阈值,对结果进行差异放大处理,得到:(,)()()如果 (,),则认定和不具备匹配条件;如果 (,),则认定和相同。综合公式()和(),改进后和的相似度计算公式为:(,),()(),()改进后的算法与 算法相比,在规避前缀错误度量的同时,增强了对共有部分的评估的权重,更符合装备名称特性,理论上可以提高聚合匹配的准确度。实验结果与分析为了验证本文设计的算法在装备名称聚合上的匹配效果,实验分别在典型数据集和较大规模数据集中应用了该算法,并与常用的字符距离相似度算法进行了比对分析。典型数据集实验分析在单样本比对实验中,本文尽量选取有代表性的典型情况进行计算分析。数据集以字典中“年式 毫米手枪”为基础进行扩展获取,在装备数据聚合过程中常见的装备名称不一致的情况有以下种:)年代、口径、型号等标识简写。扩展数据为“年式 毫米手枪”和“年式 手枪”;)计量单位标准不同。扩展数据为“年式 手枪”;)缺少部分前后缀标识。扩展数据为“年式手枪”和“毫米手枪”。严格意义上缺少前后缀标识的装备名称很有可能产生歧义,例如“毫米手枪”可能存在多个年代型号与之匹配,在数据量较大时,为了提升数据质量应修正补全这些数据,在典型数据集中因样本数量较少,暂不考虑名称歧义。以上同一装备的不同名称,统称为该装备的正例。在装备名称匹配过程中,除了正例,装备数据往往更多的是非同一装备的名称反例,为了实现装备名称的自动匹配,算法应能够区分正例和反例,为了全面分析算法,在典型数据集中添加个与正例相似的反例:“年式毫米手枪”和“年式 毫米穿甲燃烧弹”,用于测试算法的反向匹配。现将条数据分别与装备字典中的对应的标准名称进行比对,应用本文算法结果如图所示。图不同名称相似度对比结果从个维度对图的实验结果进行分析。维度是匹配分析,将个数据样本分为组,正例为一组,该组数据与正例字典名称的相似度明显高于个反例字典名称,采用唯一性匹配原则,正例可以匹配到正例字典名称;同样和各为一组,与自身对应的字典名称相似度最高,也能够完成正确匹配。维度是正反例区分情况分析,比较个样本与正例字典名称相似度计算结果,正例均高于反例,但反例的相似度与正例和较为接近,反观个样本与个反例字典名称,则明显能够进行正反例区分。综合分析结果,在典型情况的数据样本中,本文提出的算法可以实现将不一致的装备名称匹配到装备字典中对应的标准名称,也能够一定程度区分正反例,但遇到过于简单的正例和极易混淆的反例(如和),区分界限不明显。为了横向对比本文算法与各主流算法,现采用第期杨杉:基于相似度的装备数据聚合方法不同算法对典型情况数据集进行计算,实验结果如表所示。表种相似度算法对比结果装备名称对比名称欧氏距离余弦距离最小编辑距离 相似度 相似度本文算法 年式 毫米手枪 年式 毫米手枪 年式 手枪 年式 手枪 年式手枪 毫米手枪 年式毫米手枪 年式 毫米穿甲燃烧弹 对表进行分析,因为欧氏距离和余弦距离主要考虑字符出现的频率,所以这两个算法对缺少标识的情况较为敏感,正例匹配的相似度范围大,无装备字典聚合时相似度阈值设定较为困难,而且二者不考虑字符的位序,简化的正例和相近的反例相似度接近,容易错误匹配;最小编辑距离算法对字符串的长度和位序都较为敏感,正向匹配较为困难,甚至出现反例的相似度高于正例的相似度,也不符合装备名称聚合要求;相似度相比前个算法较稳定,但对连续相同字符不敏感导致正例相似度区间偏大,过于看重相同