温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
BMBC
模型
高速铁路
道岔
故障
信息
实体
识别
林海
第 20 卷 第 4 期2023 年 4 月铁道科学与工程学报Journal of Railway Science and EngineeringVolume 20 Number 4April 2023基于BMBC模型的高速铁路道岔故障信息实体识别林海香1,白万胜1,陆人杰2,卢冉1,赵正祥1,李新琴3(1.兰州交通大学 自动化与电气工程学院,甘肃 兰州 730070;2.卡斯柯信号有限公司,上海 200071;3.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)摘要:随着铁路信号设备故障文本的不断积累,亟待构建集故障信息、专业知识、技术规则及其内在关联于一体的铁路信号设备故障知识图谱,为铁路运营及设备维修提供全面高效的辅助策略。故障信息实体识别是构建铁路信号设备故障知识图谱的核心。以高速道岔故障文本为基础,并针对此文本挖掘过程中使用传统方法导致知识获取不够全面以及文本语义稀疏等问题,提出一种用于高速道岔故障信息实体识别任务的BMBC多层级模型。首先,通过分析高速道岔故障文本的结构特征,从中提取出故障现象、故障定位和故障致因等7类实体;其次,利用BERT预训练模型的迁移特性构建双向词表征并嵌入位置信息,引入多头注意力机制(MHA)使关键特征信息得到重点关注,随后依靠双向长短期记忆网络(BiLSTM)进行特征信息融合,从而充分获取全局语义信息以及更好表达序列间的长距离依赖关系;最后,依托条件随机场(CRF)赋予标签约束条件,从而获得最佳识别结果。以各铁路局近 5 年的高速铁路道岔故障文本为基础进行实验,实验结果表明,BMBC模型能够精确识别各类故障信息实体,有效缓解实体边界不清晰问题,模型识别精确率、召回率和F1值分别可达91.43%,93.15%和92.31%。实验完成后进行案例识别测试,证明所构建的BMBC多层级道岔故障信息实体识别模型具有良好的识别性能。关键词:道岔;故障文本;迁移学习;命名实体识别;BMBC多层级模型中图分类号:U284 文献标志码:A 开放科学(资源服务)标识码(OSID)文章编号:1672-7029(2023)04-1149-11Named entity recognition of fault information of high-speed railway turnout from BMBC modelLIN Haixiang1,BAI Wansheng1,LU Renjie2,LU Ran1,ZHAO Zhengxiang1,LI Xinqin3(1.School of Automation and Electrical Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China;2.CASCO Signal Ltd.,Shanghai 200071,China;3.Institute of Computing Technology,China Academy of Railway Sciences Corporation Limited,Beijing 100081,China)Abstract:With the continuous accumulation of fault texts of railway signal equipment,it is urgent to build a fault knowledge graph of railway signal equipment integrating fault information,professional knowledge,technical 收稿日期:2022-04-01基金项目:中国铁道科学研究院集团有限公司科研项目(2021YJ184)通信作者:林海香(1977),女,甘肃天水人,副教授,博士,从事交通信息数据挖掘研究;E-mail:DOI:10.19713/ki.43-1423/u.T20220637铁 道 科 学 与 工 程 学 报2023 年 4月rules,and their intrinsic correlations.It can provide a comprehensive and efficient auxiliary strategy for railway operation and equipment maintenance.The named entity recognition of fault information is the core of constructing fault knowledge graph of railway signal equipment.Based on the fault texts of high-speed turnout,a BMBC multi-level model for fault information entity recognition task for high-speed turnout was proposed to address the problems of incomplete knowledge acquisition and sparse semantics of fault texts caused by using traditional methods in the texts mining process.First,seven types of entities including fault phenomenon,fault location,and fault reason were extracted from it by analyzing the structural features of fault text of high-speed turnout.Second,BERT pre-training model based on transfer learning was used to build bidirectional word representations and embed location information.The multi-headed attention mechanism(MHA)was introduced to focus on information of key feature,and then fuse feature information with bi-directional long and short-term memory network(BiLSTM).It fully obtained the feature information of training data and better expressed long-distance dependencies between sequences.Finally,the conditional random field(CRF)was utilized to assign labeling constraints and obtain the best results of entity recognition.Experiments were carried out based on the fault text of high-speed railway turnout of various railway bureaus in the past 5 years.The results indicate that the BMBC model can accurately identify various types of fault information entities and effectively alleviate the problem of unclear entity boundaries.The precision,recall and F1 value of the model can reach 91.43%,93.15%,and 92.31%,respectively.After the experiments were completed,the case identification test was carried out and proved that the constructed BMBC multi-level turnout fault information entity identification model has good identification performance.Key words:turnout;fault text;transfer learning;named entity recognition;multilevel model of BMBC 高速铁路道岔作为高速列车平稳安全运行的关键设备1,相较于普通铁路道岔具有容错率低、维修难度大、成本高等特点。经过多年来的运营维修,高速道岔设备积累了大量的故障数据2,这些道岔故障数据采用非结构化的文本记录形式,作为之后故障查找、诊断以及维修的先验知识储备。但非结构化的高速道岔文本数据存在计算机处理不便、人工分析耗时长、故障信息挖掘不全面等缺陷。道岔故障关键信息的精准获取是实现故障快速维修的基础,而现行的道岔故障领域研究多为故障诊断及粗略故障定位35,当设备发生故障时,维修人员需要根据具体情况以及相关手册去判断故障原因,维修较为低效。命名实体识别6(Named Entity Recognition,NER)是信息抽取、知识图谱等领域的核心环节,旨在从复杂的结构化、非结构化和半结构化数据中抽取特定类型的实体,如人名、地名、组织机构名等并对这些具有特定意义的实体进行归类。命名实体识别起初用于研究如何从自然文本中对公司名称进行定位提取7,目前,主要用于专业领域知识数据实体自动归类。因此为实现道岔故障知识数据的高效利用,提高故障维修效率,道岔故障信息实体识别便成为道岔故障领域知识图谱构建的关键环节8。依赖命名实体识别技术,对道岔故障现象、故障元件、维修方法等关键信息自动识别分类,实现故障元件级定位辅助,快速提供维修方案,在很大程度上提高了设备故障维修效率。早期的NER任务主要采用基于规则和词典的方法来完成910,此类方法对于复杂实体的识别效果欠佳,且无法做到实体消歧。随着深度学习的不断发展,这类具有自主学习能力的方法已广泛应用于 NER 领域1113。但上述文献只采用单个神经网络模型无法达到较为理想的识别效果,所以须通过文本语料的自身特点构建多网络融合模型,在发挥各层网络最大优势的同时,又可避免因单网络自身缺点导致整体识别准确度较差的缺陷1416,然而这些网络对已标注的文本数据有很强的依赖性,不适合标注数据欠缺的情况。因此,DEVLIN等17提出基1150第 4 期林海香,等:基于BMBC模型的高速铁路道岔故障信息实体识别于 Transformer 的预训练语言模型 BERT(Bidirectional Encoder Representations from Transformers),具备在较少标注数据的情形下从无标注文本数据中进行知识学习并迁移到下游任务的能力,故对于标注数据稀缺的道岔故障信息类文本处理尤其适用,同时其多头注意力机制的特性可使关键词向量关系更为紧密。综上,为了解决当前实体抽取模型无法充分适应高速道岔故障领域的实体识别任务和实体边界确定不理想问题,本文提出一种BERT-MHA-BiLSTM-CRF多层级网络模型,简称BMBC模型。该模型在基线模型BiLSTM(Bi-directional Long Short-Term Memory,BiLSTM)与CR