温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
TextRank
空管特情
案例
特征
提取
技术
引用格式:彭珂王华伟倪晓梅等.基于 的空管特情案例特征提取技术.航空计算技术():.():.基于 的空管特情案例特征提取技术彭 珂王华伟倪晓梅刘伟伟(.南京航空航天大学江苏 南京.南京工业职业技术大学江苏 南京)摘 要:针对目前空管特情处置过程中案例记录利用不足的问题提出了空管特情案例利用框架并重点研究了其中的案例特征提取方法 基于 算法提出了融合空管特情领域知识与数据分析的特情案例特征提取算法()所提方法利用空管特情领域知识构建领域词典以提升分词效果依据风险知识及文本数据分析结果同时结合层次分析法赋权原理对文本中的特征词进行赋权以优化各词的初始重要度以及词语重要度权重的计算方法 利用某地区空管局提供的 年 年特情案例验证算法的有效性 结果表明:模型较传统自然语言处理中的关键词提取算法准确率提高了约 体现了所提方法在特情案例特征提取方面的有效性和优越性关键词:空管特情案例案例利用 算法特征提取领域知识中图分类号:文献标识码:文章编号:()(.):.().:引言飞行特情主要指飞机在处于正常飞行状态时遭遇的特殊情况包括飞机机体和自身系统的安全问题(如舵面卡阻、起火、通信中断或异常等)、极端天气现收稿日期:基金项目:国家自然科学基金项目资助()作者简介:彭 珂()女湖南长沙人硕士研究生第 卷 第 期航 空 计 算 技 术.年 月 .象(如扰动风、积冰、突风等)和机组对飞机的误操作等 特情属于应急事件其处置应尽可能准确和迅速因此迫切需要提升对特情的应对能力切断事故链条降低风险转化为事故的可能性在民航运输的过程中特情的发生属于小概率事件案例记录数量有限难以训练有监督的深度学习网络 无监督的关键词提取方法可用于这类小样本上包括基于简单统计的方法 基于主题的方法 和基于图的方法 其中算法是基于统计的图模型中最为典型的代表该方法在文本语义关联方面较 和 更好 近年来基于 的改进算法逐渐兴起 顾亦然等引入词频分享权重利用词频特性为节点之间的连边加权结合人类语言习惯特性定义位置权重系数将文本的自然语言特性考虑进关键词提取算法中 等加入了数值图参数如频率、接近中心性、中间性中心性、特征值中心性、节点中心性来构建语义网络图在此基础上利用 公式计算各节点重要度以提取关键词 等引入容差粗糙集()来挖掘语料库中的词汇、语义、语法和其他信息以此来提升 算法的性能 等利用 模型和 语义聚类结果构建 算法跳转概率矩阵提高关键词提取效果 等将先验公共知识引入算法构建先验知识网络以此来改进节点权重计算方法提取专利文本关键词 等通过计算余弦相似度来衡量文本之间的语义关联并将此引入传统 算法中实现更精准的关键词提取 等将 与文本高阶结构特征融合用于单文本关键词提取已有的 改进算法主要是将词频、语义等信息用于词重要度加权提取新闻、舆论等普适性较强的文本的关键词而特情案例记录属于特定领域文本其中通常包含大量民航专业词汇因此上述的改进算法难以在特情案例记录上有较好的表现 本文对 算法进行了改进使其适用于空管特情案例文本的关键词挖掘 融合特情领域知识与过往特情案例报告结合层次分析法赋权思想对词重要度加权并优化词得分计算公式实现特情案例记录关键特征的注释使案例记录转化为一组特征词便于后续使用 空管特情案例利用框架空管特情的种类约有 余种主要分为空中交通服务类、运行环境类和航空器类 其中航空器类特情所涉及的具体情况复杂且发生频率较高成为了特情处置研究的重点 在航空器类特情中危险接近、小于规定间隔特情更是频发 因此本文选取危险接近特情案例记录进行分析基于此搭建空管特情案例利用框架.危险接近空管特情案例记录分析首先基于具体样例对空管特情案例记录中包含的特情处置信息进行分析 本文从民航某空管分局管制运行部空管系统管制不安全事件汇编中选取一则危险接近案例记录作为样例展开分析案例记录的具体内容如图 所示图 基于危险接近的案例记录分析结果本文使用标注软件对其涵盖的主要信息进行了标注 文本的右上角为文本内容对应的标签名称如“见习管制员”对应的标签为“人员”.空管特情案例利用框架本文拟定了空管特情案例利用框架 对于过往特情利用关键词提取算法从中提取一组关键词对其进行注释关键词主要涉及特情处置措施、特情原因并将原始记录和注释信息一并存储在案例库中当出现新特情时将新特情的特征与案例库中的关键词进行匹配查找相似度较高的案例在执行检查单流程的基础上结合过往案例处置措施应对新特情形成完整的特情处置决策 空管特情案例特征提取算法基于提出的案例利用框架本文将重点研究如何准确地提取空管特情案例中的关键特征 本文基于 算法提出了融合空管特情领域知识和数据分析的空管特情案例特征提取算法 .融合领域知识的文本预处理首先需要对文本进行预处理以此来初步提高特征提取的效果 文本预处理主要分为分词和去除停用词 空管特情案例中包含大量民航专业词汇直接使用分词工具易错误地将民航专业词汇分开从而影响特征提取的效果 本文依据民用航空空中交通管理规则 构建了空管专业词汇词典结合 中文分词工具对空管特情案例库中的文本进行了分词处理同时使用哈工大停用词表将报告中的数字、标点符号等干扰信息去除.空管特情案例特征提取 算法在进行关键词提取时仅需利用文本本身的信息提取关键词简单高效且在单文本上关键 年 月彭 珂 等:基于 的空管特情案例特征提取技术 词提取效果较好 算法的基本思想来源于 的 算法设()为 的入链集合同理()为 的出链集合()则是出链的数量()()为 贡献给 的分数 将的所有入链贡献给他的分数全部加起来就是词语的得分 为了避免一些孤立词的得分为 引入了阻尼系数 默认取值为.为是无向有权图因此在计分时还要考虑两个句子间的相似性 的完整表达为式():()()()()()()然而在此算法中各词的初始重要度被设置为相同的值易忽略文本的领域背景知识提取出大量与领域无关的高频词汇导致真实的关键信息无法被有效提取 因此本文在 算法的基础上引入空管特情知识设计了空管特情案例特征提取算法优化关键词提取效果本文将民航空管安全管理体系建设手册中给定的空管风险要素和风险类别作为领域知识引入 算法并利用层次分析法的赋权原理获取各风险类别特征词对应的权重()将原本统一的初始重要度及重要度迭代公式进行加权更新开发出适用于空管特情案例特征提取的算法考虑到层次分析法()可对多层次结构中的最低层要素进行赋权本文采用 计算权重()本文中目标层为空管特情案例集准则层为风险要素最低层为风险类别所得权重()为各风险类别的存在可能导致特情发生的概率 将该权重用于特征词初始重要度的更新并依此对重要度迭代公式进行加权得到基于空管信息和文本数据分析的各词重要度改进计算公式:()()()()()()()式中()为各风险类别相对于特情发生的相对重要权值()为 的入链集合同理()为 的出链集合()则是出链的数量 式()在各词重要度计算时融合了空管领域知识和数据分析信息提高了特情原因、特情处置措施等案例关键特征的初始得分 最后通过不断迭代至收敛来计算各词的最终重要度依据最终重要度进行排序输出排名前 的词语即可作为空管特情案例的一组注释信息 实验结果及分析本文选取了某地区空管局 年 年空管特情案例集中共 篇特情报告作为实验数据集其中 年 年共 篇特情报告用于数据分析作为获取特征词及计算特征词权重的依据 年 年共 篇特情报告用于进行算法有效性和准确性验证.特征词权重计算由于空管特情案例集中文本数量较少且专家标注的关键信息存在同义不同词现象直接提取的关键词准确率有限 因此本文引入空管风险因素及风险类别作为特征词赋权的依据并基于对早期特情报告进行数据分析得到的结果结合 权重计算原理为后续特情报告中可能出现的特征词进行赋权.特情报告数据分析经统计分析得到特征词赋权结果如表 表 特征词赋权结果要素序号类别占比/单权重总权重特征词管理().航线结构不合理规章制度不适用管理决策未有效执行.交叉、汇聚调配指挥预案不充分、应急流程不足忙于协调、监控不力、未监听到等人为因素().工作失误.口误、误听、指令有误、误发、未通报相对活动、误认为、错误等违反工作程序.违反规定飞行动态监控不力.未能纠正、没有及时发现、遗忘/遗漏飞行动态、未能及时监听等信息通报不畅.移交、改频疲劳上岗.无人接听、睡岗、无人应答等工作负荷过大.忙于指挥其他飞机 航 空 计 算 技 术 第 卷第 期续表 要素序号类别占比/单权重总权重特征词设备().通信设备工作不正常设备软件工作不正常.陆空通信失效、失去通信联系显示消失、系统失效等环境().机组原因.复诵错误、误调、未询问核实、错误理解、动作慢、偏航等军航原因.军航、空军、人工增雨等恶劣天气.雷雨、颠簸、天气原因、绕飞等 观察表 可知人为因素导致的特情占比最高环境因素次之 在人为因素的具体风险类别中工作失误为最常见的风险类别占比.在环境因素涉及的风险类别中机组原因占比最高占比为.特征词权重计算依据 权重计算原理需要构建判断矩阵并通过层次排序及一致性检验来获取最低层相对于最高层的权重 本文依据以上统计分析结果构建了风险类别(层)对于风险要素(层)以及风险要素(层)对于空管特情(层)的判断矩阵 以准则层对目标层的判断矩阵为例对判断矩阵的含义进行说明具体的判断矩阵如表 所示 表示空管特情的发生 表示风险要素分别为管理、人为因素、设备和环境 矩阵中各数的含义为行所在因素相对于列所在因素的相对重要度 根据数据分析的结果可知人为因素占比相对于设备高出 差距较其他因素更大因此其相对重要度数值最大取值为 其他判断矩阵的构成及相对重要度的赋值与之类似表 风险要素判断矩阵/接着依据构建的判断矩阵进行层次排序 首先计算 层相对于 层和 层相对于 层的权值在此基础上计算 层相对于 层的权值并将特征词与风险类别一一对应得到最终的特征词权重结果 本文的层次排序均通过了一致性检验说明了赋权过程的科学性 具体的计算结果如表 所示 将表中的总权重作为特征词的初始重要度并引入式()中用于计算各词重要度优化特情案例报告关键词提取的效果.实验分析对比设置两类对比实验:第一为确定特情报告需提取特征的最优数量设置了关键词数量对比实验第二为说明本文的优化方法能有效提高特征提取的效果设置了关键词提取算法对比实验 在此之前邀请 位特情处置专业人员对特情案例集中待提取关键信息的报告进行了关键信息的人工注释将标注结果作为后续评价指标计算的参考依据.评价指标本文选取准确率、召回率 和综合 值作为算法有效性的评价指标如式()式()所示:()()()式中 表示特情报告集中案例的数量 表示人工注释的关键信息集 表示运用算法自动提取的关键信息集 式()为各报告上提取出的与人工注释匹配的关键信息数量占所提取的关键信息数量的比例的平均值式()为各报告上提取出的与人工注释匹配的关键信息数量占人工注释关键信息数量的比例的平均值 为准确率 和召回率 的综合指标.确定最优案例特征提取数量特征提取数量对算法实施效果具有一定的影响提取数量过少将错失部分关键信息提取数量过多将提取出大量非关键信息因此本文首先设置实验确定最优关键信息提取数量通过观察需要注释关键信息的 篇特情报告发现空管特情案例集中文本的长度范围为 字人工注释的关键信息数量在 个范围内 因此本文将特征提取数量分别设置为 个提取关键词并计算 值 具体的实验结果如图 所示 观察图 可得设置不同的关键词提取个数其特征提取结果具有较大差异 随着提取的特征数量的增加准确率 值随之下降但降幅较小而召回率 值和综合指标 值均大幅增加 综合以上实验结果重点考虑综合指标 的变化趋势本文得出以下结论:在特情案例报告上最优的关键词提取数量为 个该结果与人工注释的关键信息数量接近且提取准确 年 月彭 珂 等:基于 的空管特情案例特征提取技术 率较高初步说明了本文算法的有效性图 按关键词提取个数实验结果.关键信息提取算法对比实验为进一步验证 算法在特情案例文本上的优越性将 算法与传统的 算法和 算法以及 算法、改进 算法进行对比 设置特征提取数量 不同算法之间数值结果如表 所示 从表 可以看出相较于传统的关键词提取算法本文提出的关键词提取算法在准确率、召回率和 值上均有更好的表现各项指标均提升了 左右 另外本文的 算法在空管特情案例报告上的关键词提取效果优于其他的改进 算法表 关键词提取算法对比实验结果关键词提取算法短文本/长文本/.改进.结束语本文从空管特情案例利用的角度出发对案例利用环节中如何有效提取案例记录的关键特征这一问题进行了深入的研究 所提的案例特征提取算法 保留了 在词语关联性上的优势改进了 在专业领域关键词提取上的缺陷 通过一系列的对比实验充分验证了 算法在案例记录特征提取方面的有效性 在未来的特情处置工作中通过输入新发生特情的关键信息便能利用基于 算法提取出的关键词实现相似案例的快速匹配输出结合案例的特情处置决策拓展并优化仅依赖于检查单程序的空管特情处置流程参考文献:徐一超.民机特情包线约束下自适应控制研究.南京:南京航空航天大学.赵正云.案例文本驱动的铁路应急管理辅助决策系统的研究与开发.兰州:兰州交通大学.胡少虎张颖怡章成志.关键词提取研究综述.数据分析与知识发现():.:.:.:.顾亦然许梦馨.基于 的新闻关键词提取算法.电子科技大学学报():.():.():.():.():.:().:.中国民用航空局.民用航空空中交通管理规则:.北京:中华人民共和国交通运输部.中国民用航空局.民航空管安全管理体系建设指导手册(第二版):.北京:中国民用航空局空管行业管理办公室.徐立.基于加权 的文本关键词提取方法.计算机科学():.赵占芳刘鹏鹏李雪山.基于改进 的铁路文献关键词提取算法.北京交通大学学报():.航 空 计 算 技 术 第 卷第 期