温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
知识
图谱
技术
汽车
研发
知识工程
平台
构建
探索
26汽车工业研究季刊2023年第2 期.管理MLanageDOl:10.3969/j.issn.1009-847X.2023.02.007基于知识图谱技术的汽车研发知识工程平台构建探索陈川张书瑞 赵行阳汤慧俊刘旭摘要:汽车行业是一个知识密集型以及技术密集型的行业,汽车行业的知识共享可以有效提升研发效率,进而提升汽车产品竞争力。本文基于知识图谱相关技术,对汽车研发领域专业知识进行建模;建设了该领域的数据集,并在该数据集上微调了命名实体识别、文本蕴含等模型;构建了一整套知识存储、加工、推送及精确检索的知识工程平台,从而实现利用知识共享提升汽车研发质量并加快研发效率的目的。关键词:知识图谱 命名实体识别 知识工程 汽车研发汽车研发有着系统的开发流程,支持这些流程的工作指导手册、指南、工具、检查清单形成一套完整的知识库框架。但是这些知识往往重复出现在不同的文档之中,缺少逻辑关联,使得工程师查找困难,使用效率低,更新成本高。知识工程是知识管理、信息技术和工程应用的交叉学科,其研究的核心是如何高效以及智能化地应用知识。本文尝试利用知识图谱技术将汽车研发知识体系中的流程、标准、规范、检查清单等高质量知识有效连接起来,建立基于图数据模型上的智能知识工程平台,通过知识精确检索和知识推理,嵌人到工程师日常研发工作中去。背景介绍1.1知识图谱简介知识图谱是一种基于大数据的知识工程应用,起源于2 0 12 年google对其搜索引擎中图技术的称呼。知识图谱将知识转化为由实体(entity)及属性(property)以及实体之间的关系(relationship)组成的语义网络。如“通风盖板中固定洗涤软管的两卡扣间距15 0 mm”这一设计指导类知识,转化为知识图谱可以表达如下页图1所示。这种富含语义信息的知识图谱可以用于表达知识中的整体性和关联性,也可以作为背景知识结合深度学习提升认知智能。1.2汽车行业的应用当前知识图谱应用于汽车研发知识工程主要有两个方向,一是将专业领域内的知识构建成图谱,以知识精确检索、知识推理等方式提供服务,主要解决专业领域内知识共享难和效率低等问题;如黄巍等利用知识图谱技术构建了汽车维修场景知识图谱2;娄璇构建了自动变速器知识图谱,包含零部件及其设计参数和计算公式之间的关系,基于知识推理实现设计变更过程中的自动验证3。另外一种方向是基于当前汽车行业通用知识构建图谱,利用最新的行业研究成果,通过构建技术专家模型,发掘创新技术热点支撑前瞻技术规划;也有众多学者利用Citaspace以及Vosview等科学知识图谱工具,对当前汽车行业研究热点进行趋势分析 5-6 。1.3领域知识图谱构建技术在领域知识图谱构建中,缺少领域专家背景则难以进行知识建模。明略科技提出了一种领域知识图谱快速建模框架,其通过多人协作将领域技术专家和图技术人员解耦,提高了领域知识图谱的构建效率7。钱玲飞等提出了一种数据增强的领域知识图谱构建方法,在没有领域专家介人的情况下,建立了一种“预训练模型+双向LSTM+CRF”的实体和开放式关系抽取模汽车工业研究季刊2023年第2 期272管理MLanage零件content通风盖板设计要求oart间距surelate零件洗涤管卡扣图1知识图谱表达领域知识示例型,对专利三元组识别准确率达到94.71%8。但是在汽车研发专业领域,由于缺少大规模的预训练语义模型,因此依靠专家进行知识建模的工作必不可少研究现状2.1汽车研发知识工程现状国内汽车行业在知识工程方向有着深人的实践。广汽研究院从时间、系统、专业领域等不同维度梳理了研发工具包,其中包含该工作的输人、输出、工具等内容,并将其与研发流程结合起来,部署到一体化知识工程平台,以支持工程师的日常项目工作9。无独有偶,上汽通用制造工程部同样从业务流程出发,将知识、工具、软件等细化到该流程的业务节点,并利用知识工程平台进行封装,从而提升工程师的工作效率和工作质量。这些知识工程技术尝试背后都需要大量行业专家的时间投入,并且这些固化到IT系统内的知识的更新迭代维护困难。32.2关键技术介绍知识工程平台的核心是知识图谱构建,即对汽车研发领域知识建模,根据模型设计对数据进行清洗,再利用训练好的NLP模型或规则从清洗后的数据中抽取实体/关系/属性,自动构建成图谱存储。其中涉及的一些核心关键技术及其选型如下。2.2.1知识建模领域知识图谱数据本质上分为模式层和数据层,所谓模式层是本体库及其约束的集合,而数据层则是依据该模式构建下的数据。本体是领域共享知识的描述方式,其构建主要有两种模式,一种是自上而下的模式,即先构建好完整的知识Schema模型,再从数据中抽取相关的实体,通常用于专业领域的知识建模;另一种模式是自下而上的模式,即开放式的抽取数据,再从中选择置信度较高的实体构成模型。由于汽车研发领域具有大量的专有术语和严格的体系结构,本文采用自上而下的知识表示建模方式2.2.2自然语言处理技术汽车研发领域的知识大多为非结构化数据,其中含有大量的余信息。因此,有必要对其进行文本解析,并抽取其中蕴含的知识。NLP是一门结合语言学、计算机科学和数学的一门交叉学科,可被用于文本解析叫,其涉及较多的子技术。其中命名实体识别技术可以对文本中描绘实体的词汇如零件名、零件参数等进行解析和抽取;文本蕴含技术可以优化对知识图谱中的实体的搜索速率,该技术可以评估用户输入的实体与知识图谱中的实体间的相似程度,从而输出用户最有可能想搜索的实体;知识推理技术可以对知识图谱中三元组的缺失部分进行预测 12 。研究方法本文首先构建了领域基础知识图谱作为系统的知识库,再将语义识别模型放至汽车研发领域数据集进行训练从而提升精度,最后通过构建知识工程平台调度部署的算法模型对外提供知识检索及推送服务。下文对汽车研发知识工程平台的架构设计、图谱模建模、算法模型搭建以及系统核心设计进行介绍。3.1知识工程平台架构设计本文基于图谱技术设计了一套知识工程平台架构,将知识的构建到应用与其他IT应用解耦,如下页图2 所示。知识工程平台读取数据湖内的各种异构数据,经过一系列的知识加工,形成对外的知识应用服务给研发域各应用系统。最终形成各应用系统产生数据,知识工程平台加工数据显性化知识,通过知识应用服务反哺各应用系统,以提高研发效率和质量的良性循环。研发工程平台分为三层,知识基座是其中的关键,包含两部分内容,28汽车工业研究季刊2023年第2 期管理MLanage研发应用APP项目管理系统问题管理系统质量管理系统知识应用知识工程平台知识应用精确检索知识推荐风险预警数据入湖知识构建知识建模知识抽取知识融合汽车概念图谱NLP预训练模型知识基座产品图谱项目图谱工程师图谱TOKPOSNER.数据接入数据湖结构化数据非结构化文档图像数据图2 知识工程平台总体框架图一是经过知识建模后构建的汽车概念图谱及其核心的图谱,二是底层的NLP预训练模型及针对场景的下游任务模型。在其基础上是知识构建层,包括知识解析、抽取、融合的知识加工流程,形成面向不同场景的知识图谱库。最后是知识应用层,上述的知识图谱库和算法,最终以知识API的形式对外提供服务,比如精确精索及知识推荐等。3.2基础知识图谱构建3.2.1汽车概念图谱由于汽车领域专业性强,领域知识体系完备,在概念图谱建模过程中主要依靠专家来进行建设。本文从零件、属性、功能、项目等几个方面对涉及的较高位层面概念进行梳理建模,如图3所示3.2.2领域知识图谱建模(1)零件知识图谱知识聚合和精准推送的前提是对subClassOf属性状态isA零件结构isAsubClassOf属性零件ContainsContains车型BOMContains需求subClassOfContains功能图3汽车概念图谱模型零件知识点的打散和模型化,本文对传统硬件知识领域建模,同样对车载汽车工业研究季刊2023年第2 期29MLanage管理软件开发以及车辆属性相关的知识也需要进行建模,限于篇幅本文只展示零件领域知识建模,如图4(a)所示。尽管知识点的建模尚未达到原子化知识的级别,但是已经基本能达到段落级别。(2)工程师图谱为了实现精准的知识推送,还需要对工程师实体建模,本文从岗位、能级、角色、项目几个方面对工程师进行了建模,如图4(b)所示。3.3算法实现本系统涉及到的NLP算法有TOK、PO S、NER 和文本蕴含,它们是通过HanLP与HuggingFace两个第三方包构建。这四类算法底层的预训练模型都是Transformer模型的变体。其中,TOK和文本蕴含是基于Bert及其变体预训练模型,POS和NER是基于Electra预训练模型。本系统主要使用NER模型完成对实体、关系和属性的抽取,使用文本蕴含算法辅助完成知识搜索。3.3.1数据集构建在公共数据集上表现较好的模型在私有数据集上可能无法达到相同的准确率,专业领域内的数据集构建是提升领域自然语言模型的关键。在汽车研发领域,高质量的知识来自于工作流程、工作指导手册、车企内外法规等。本文对领域内的技术文档进行预处理,根据上文知识图谱建模中的实体进行了数据标注,构成下游任务的数据集。3.3.2词典构建汽车研发领域的技术文档中包含大量专有词汇,为了使模型能更精准地识别这类词汇,本系统构建了专有词汇词典,包含汽车研发领域的31426条专有词汇,从而显著提升了TOK模型的分词能力。专有词汇词典主要来源于以下几个方面:公司内长期积累的中英文专有词汇和简称;外部行业词典;利用分词模型进行预分词,在人工验证和数据集构建过程中再提取专业词汇。3.3.3算法构建(1)知识构建相关算法本系统将HanLP提供的预训练语义模型分别作为TOK、PO S和NER任务的预训练模型在各自对应的数据集上进行微调。微调后三项任务的准确率都达到了9 0%以上,其中TOK任务准确率最高,达到9 5.9%。由于为NER任务构建数据集难度较大,本系统仅将少量技术文档转换为NER数据集,因此,NER模型准确率为9 1.3%。系统后台对NER模型的结果进行进一步加工和筛选后,命名实体识别的结果也满足了系统的技术要求。(2)知识搜索算法本文在Bert模型的一个变体Ro-berta模型基础上进行开发,它可以接收两个中文字符串,经过处理后输出两个7 6 8 维的向量。通过使用余弦相似度的计算方法得到两个字符串的相似度的具体数值信息。本算法将Schema中的标签按照优先级进行排序,然后分别计算用户输人的字符串与这些标签间的相似度,系统将相似度排名前K的标签配合用户输人的字符串在图数据库中对实体进行查询。该算法结构如下页图5所示。其中Text是用户搜索的文本;Label是Schema中的标签;Entity是算法从图数据库中搜索到的实体。3.4平台系统实现系统整体采用了开源架构组件来构成,包括Nginx、T o r n a d o、Ne o 4j、Pytorch等。系统采用了B/S架构,服务端请求采用WebService方式来一体式管理。系统技术架构如下页图6 所示。问题需求项目-contains零件containssubClassOfsubClassOfcontainscontainscontains布置组织contains任务related零件零件知识结构containscontains工程师containsisA属性isAcontainsu属性isA能级contains contains活动角色-contains试验subClassOf法规review流程subClassOf(a)零件知识图谱模型(b)工程师图谱模型图4领域知识图谱建模30汽车工业研究季刊2023年第2 期管理MLanageEntitySelect TopkSearching AlgorithmLabel ACosine SimilarityTextLabel KMean PoolingRoberta ModelTextLabel 1TextLabel nWord Embedding图5知识搜索算法模型结构写数据用户入口主从同步图数据库neo4j读数据数据Webserver索引负载均衡nginxFlask图数据库neo4j关联10数据更新请求性能优化01tornado文件存储算法引擎图6 自研知识工程平台技术架构图汽车工业研究季刊2023年第2 期31MLanage管理表1TOK模型在每一轮训练中的各项评估指标EpochLossPrecisionRecallF1-score1119.422690.37%91.05%90.71%250.309093.28%93.60%93.44%337.458694.56%94.76%94.66%429.628895.35%95.49%95.42%524.284095.90%96.00%95.95%整个项目使用了前后端分离的架构,其中前端使用React框架+AntV的图形染引擎G6。后台服务使用Flask来调度算法引擎和用户请求统一反馈给用户前端。数据层为了提高图数据库的效率,基于Neo4j社区版搭建了一个读写分离的主从架构,使用DRBD实现两台服务器之间的数据同步。项目实现及效果4.1NLP模型优化效果4.1.1模型评估指标本系统对NLP模型的评估指标主要有:精确率(PR E)、召回率(REC)和F1分数(F1-score)。其中,F1-score可以综合反映精确率和召回率的评估,其计算公式为:2*PRE*RECF1-score#(1)PRE+REC4.1.2模型微调结果(1)TOK模型本文TOK模型的训练集上共有3685个样本,测试集中共有349 个样本,每个样本中有十条数据。模型在数据集上进行5轮训练。由于该模型在开源数据集上已经经过训练,因此该模型在第一轮的前11个样本上进行训练时,已经拥有了一定的准确率,其中F1分数可以达到2 7.7%。当第一轮训练到第2 50 4个样本时,所有评估指标都达到了9 0%。此后,在第一轮训练中,模型的训练效果趋于稳定,各轮训练指标如表1所示。在五轮训练工程中,Precision、Recall和F1-score这三项评估指标变化相近,并且都是随着训练的进行数值不断增大,最终都增长到了96%左右,达到预期效果。模型Loss值随训练轮数的增加而减小。F1-score、R e c a l l、Pr e c i s i o n 和Loss 变化的折线图如图7 所示。96fl_score120reacllprecision95100948093SSOT60924091201.01.52.02.53.03.54.04.55.01.01.52.02.53.03.54.04.55.0EpochEpoch图7 TOK模型各项指标随Epoch的变化32汽车工业研究季刊2023年第2 期管理Manage表2 文本蕴含模型预测示例实体标签相似度法规0.337582属性0.29905146汽车质量(重量)参数测定方法硬件0.21143717组织0.11461614功能0.01472232硬件0.21249303功能0.15859741离合器踏板组织0.1406694法规0.06148496属性0.02898566POS模型与NER模型的训练过程和结果与TOK模型的相似。由于NER模型的训练集规模较小,因此在训练NER模型时,训练轮数增至8轮。当NER模型训练至第6 轮时,模型各项评估指标已趋于平稳。(2)文本蕴含模型本系统将知识图谱中全部的实体及它们对应的标签作为数据集对Roberta模型进行微调。知识图谱中共有49 6 2 个实体,它们共有18 个标签,每个实体和它对应的标签组成数据集中的一个样本。为了使该文本蕴含模型可以判断实体和它对应的标签是否具有可推导关系,数据集中每个样本的标签都被设置为en-tailment。将该模型与其他组件组合在一起后,可以共同完成实体与标签相似度的预测。部分实体和部分标签通过此文本蕴含模型后预测的相似度如表2 所示。4.2知识推送及检索研发工程师在日常使用中输人文本,系统将返回精确的知识检索结果,并可根据知识Schema完成知识的检索聚合,如下页图8(a)所示。同时工程师可以在知识工程平台上用图形的方式进行知识节点探索,如下页图8(b)所示。图8(a)展示的为知识聚合效果,同样各个分散的知识点也可以按照工程师工作任务进行推送。对于外部系统可以通过API接人,系统根据输人请求返回精确的知识点,实现知识伴随效果总结与展望知识工程的应用和落地是企业研发数字化转型的重要举措。本文将知识图谱和自然语言处理交叉领域技术引人到汽车研发中,讨论了知识表示与概念图谱的构建,并完成了算法模型训练,最终实现了知识伴随设计。知识图谱应用到汽车领域已成为知识工程落地的重要场汽车工业研究季刊2023年第2 期33Mlanage管理GEELYGEELY美文店通风盖板通风蔬板STOEZISO1O-CONEKBEICWWNCASCRSERL问题速风盖板左请更健版等风辣装E(a)知识检索聚合场景示例(b)知识探索场景示例图8 知识工程平台系统实现效果景。未来,如何利用自然语言处理技术实现细粒度的实体识别和属性、关系抽取,以及知识融合和知识推理将成为重要的研究方向。参考文献:1邱均平,韩雷.近十年来我国知识工程研究进展与趋势 J.情报科学,2 0 16,34(6):3-9.2黄巍,徐海强.知识图谱在汽车维修领域的应用 J.信息技术与标准化,2 0 2 1(5):31-34.3娄璇.基于知识图谱的自动变速器变更设计 D.东华大学,2 0 2 2.4盛晶晶,辛向艳,王蕾.基于技术预见模式的汽车前瞻技术路线规划方法研究 J.上海汽车,2 0 2 0(11):2 8-33.5张柳柳,陶凤鸣,杨佳.基于CiteSpace知识图谱的新能源汽车研究热点与发展趋势分析 J.汽车工程学报,2 0 2 2,12(2):114-126.6张奕骏,张晖,肖逸影,等.基于科学知识图谱的汽车智能化发展研究 C/世界交通运输工程技术论坛(WTC2021)论文集(上),2 0 2 1:17 10-17 15.7于皓,张杰,吴明辉,等.领域知识图谱快速构建和应用框架 J.智能系统学报,2021,16(5):871-884.8钱玲飞,崔晓蕾.基于数据增强的领域知识图谱构建方法研究 J现代情报,2022,42(3):31-39.9李金峰.知识工程在研发企业的建设和应用研究 J.中国管理信息化,2 0 2 1,2 4(2):145-146.10杨虹.汽车制造业知识工程建设关本刊概不委托任何其他方接收投稿本刊不收取任何发表费用键方法 .汽车实用技术,2 0 2 1,46(2):19 1-194.11余同瑞,金冉,韩晓臻,等.自然语言处理预训练模型的研究综述 J.计算机工程与应用,2 0 2 0,56(2 3):12-2 2.12封皓君,段立,张碧莹.面向知识图谱的知识推理综述 J.计算机系统应用,2021,30(10):21-30.作者工作单位:吉利汽车研究院欢迎投稿汽车工业研究投稿邮箱:qcgyyj_编辑部电话:0 431-8 59 0 7 7 0 9汽