温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
SAO
技术
主题
创新
演化
路径
识别
及其
可视化
研究
刘春江
情报学报 2023 年 2 月 第 42 卷 第 2 期Journal of the China Society for Scientific and Technical Information,Feb.2023,42(2):164-175基于SAO的技术主题创新演化路径识别及其可视化研究刘春江1,刘自强2,方曙1(1.中国科学院成都文献情报中心,成都 610041;2.南京师范大学新闻与传播学院,南京 210097)摘要 利用专利文献数据识别技术领域的技术主题演化发展路径并分析其发展趋势,对于科技界、企业界进行专利技术创新具有重要的意义。首先,使用Open IE 5.1进行SAO(subject-action-object)三元组抽取,基于LDA(latent Dirichlet allocation)模型进行主题识别,根据TRIZ技术创新思想,基于action语义词典将技术主题划分到四个维度;然后,通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,并利用可视化技术构建技术主题创新演化路径可视化图谱,利用该图谱辅助分析技术主题演化脉络及其发展趋势。最后,通过石墨烯超级电容器(集流体)领域的实证,对该领域的技术问题(problem to problem,P-P)主题、技术功能(solution to solution,S-S)主题、解决方案(problem to solution,P-S)主题和技术效果(solution to problem,S-P)主题的创新演化路径进行解读分析,验证了本研究提出方法的可行性和有效性。关键词 三元组;技术主题;演化路径;可视化Evolution Path Identification and Visualization of Technological Innovation Based on SAOLiu Chunjiang1,Liu Ziqiang2 and Fang Shu1(1.Chengdu Library and Information Center,Chinese Academy of Sciences,Chengdu 610041;2.School of Journalism and Communication,Nanjing Normal University,Nanjing 210097)Abstract:Using patent literature data to assess the development of a technical topic and analyze the development trend can help users to appropriately choose research and development directions and implementation paths;this is significant in both academia and industry when attempting technological innovation.In this study,Open IE 5.1 is used to extract the three tuples of Subject-Action-Object(SAO),the topics based on the Latent Dirichlet Allocation(LDA)model are identified,the technical topics are divided into four dimensions based on the semantic dictionary of action according to the TRIZ technology innovation idea,and the semantic association between the technical topics is evaluated by calculating the similarity between the three tuples of SAO.Subsequently,a visualization map of the evolution path of technology theme innovation is constructed and the evolution context and development trend of technological topics are analyzed.Based on an empirical study conducted in the field of supercapacitors,the innovation evolution path of the technology problem(problem to problem,P-P),technical function(solution to solution,S-S),solution(problem to solution,P-S),and technical effect(solution to problem,S-P)is interpreted and analyzed,thus verifying the feasibility and effectiveness of this method.Key words:SAO;technological topic;evolution path;visualization收稿日期:2022-01-10;修回日期:2022-07-13基金项目:国家社会科学基金项目“专利技术创新风险识别与技术创新路径预测方法研究”(19BTQ088)。作者简介:刘春江,男,1984年生,博士,副研究馆员,主要研究领域为专利技术挖掘;刘自强,男,1990年生,博士,讲师,主要研究领域为数据挖掘与可视化,E-mail:;方曙,男,1957年生,研究员,博士生导师,主要研究领域为科技情报分析方法与应用。DOI:10.3772/j.issn.1000-0135.2023.02.004第 2 期刘春江等:基于 SAO 的技术主题创新演化路径识别及其可视化研究0引 言数据科学时代背景下,随着科学技术的进步、信息技术的快速发展以及科学知识交流越发频繁,科技规划、基金项目、专利和学术论文等科技文献数据爆发式增长,基于科技文献数据支撑的科技创新战略逐渐兴起。其中,支撑科研决策、资源布局和知识创新的战略性、前瞻性的科技情报工作是我国科技创新战略的重要组成部分。“十三五”国家科技创新规划1中明确指出,“面向全球、立足全局,深刻认识并准确把握经济发展新常态的新要求和国内外科技创新的新趋势,系统谋划创新发展新路径,以科技创新为引领开拓发展新境界,加速迈进创新型国家行列,加快建设世界科技强国”。世界知识产权组织指出,90%以上的科技信息是通过专利信息反映出来的,专利文献已经成为分析技术发展态势的重要、可靠数据源2。识别技术领域的技术主题创新演化路径并分析其发展趋势,可以梳理其发展脉络,反映其技术活动的现状,为技术人员研究、回溯技术起源和发展提供可靠的帮助3,有助于用户根据自身情况选择研发方向,实现技术创新路径,对科技界、企业界进行专利技术创新具有重要意义4。因此,如何利用专利文献数据高效、准确地识别技术创新路径并预测其发展趋势成为当前科学技术情报分析研究中的重要课题之一。国内外研究者针对这一问题展开了深入研究,取得了许多优秀的研究成果,但仍存在不足之处,主要表现为:技术主题可解读性有待提高;创新演化路径以人工构建为主,效率较低,主观性较强。随着情报分析需求的提高,技术主题创新演化路径分析方法有待进一步发展。因此,本研究提出一种基于三元组的技术主题创新演化路径识别方法框架,以期改进现有研究中的不足,使之能够满足当前科技创新的情报需求,并为用户根据自身情况选择研发方向、实现技术创新路径以进行科技创新工作提供一定的科技情报支持。1相关研究1.1SAO三元组SAO(subject-action-object)三元组依次由名词短语、动词短语和名词短语(头、关系、尾)组成。此外,SVO(subject-verb-object)、SPO(subject-predicate-object)也是三元组的具体表现形式。现有的三元组抽取工具主要包括商业软件 Knowledgist和Goldfire,华盛顿大学开发的 Reverb、Ollie 和 Open IE,以及专门针对医学文献的 UMLS(unified medical language system)和SemRep5-7。目前基于 SAO 的专利分析应用越来越多,其大量地被用来进行医学文献分析、侵权专利识别、技术规划系统构建、技术功效图构建等研究。比如,Ahlers 等8针对医学文献的 UMLS 和 SemRep 进行三元组抽取,形成了 KDiBL(knowledge discovery in biomedical literature)实践,可以从医学文献中识别和提取出新的、有用的、潜在的和可理解的研究模式。Park 等9选择医药领域的 15 条处于专利诉讼中的专利和 81 条随机选择的领域专利,利用 Knowledgist进行三元组抽取,通过 WordNet来自动度量三元组之间的语义相似度,绘制出专利之间的技术关系,用于识别侵权专利。Choi等10也是利用 Knowledgist 进行三元组抽取,结合技术树(tech tree)来表示产品组件和技术功能之间关系,将三元组的内容体现到技术树上面。段庆锋等11提出了基于 SAO结构的专利技术功效图的构建方法,基于 SAO结构的共现关系构建技术功效矩阵,探讨了基于 SAO结构的技术主题、功效主题分析方法,最后采用以石墨烯传感器领域为例的实证研究验证了该方法的有效 性。马 晨 浩12针 对 甲 状 腺 咨 询 问 句 语 料 采 用LSTM(long short-term memory)+CRF(conditional random field)算法生成识别模型,利用该模型从问句中获得甲状腺实体,利用 LTP(language technology platform)-parser 工具对问句进行依存句法分析,得到句子中各结构的主客关系,形成问句的三元组形式,设计并实现了基于甲状腺知识图谱的自动问答系统。张玉洁等13设计了一种融合语义联想和BERT(bidirectional encoder representations from transformers)的 SAO 分类方法,通过对图书情报领域 SAO短文本的实证验证了该方法的优越性与SVM(support vector machine)、LSTM 和 单 纯 的BERT相比,F1值分别提高了0.10、0.15和0.14。周海炜等14构建了基于专利 SAO结构和多指标评价的新兴技术识别模型,首先将 SAO 和 TF-IDF(term frequency-inverse document frequency)算法相结合,划分出各项子技术领域,然后根据新兴技术特征建立多指标评价体系,结合专利数量年度变化,判别出新兴技术并结合人工判读进行解读。由上述分析可知,近年来 SAO 三元组相关研究逐渐深化并广泛应用于复杂的数据处理、情报分析165第 42 卷情 报 学 报工作中,特别是在情报学领域引入 SAO三元组抽取有助于提高情报分析方法的实用性,即可以有效提高情报结果的可解读性以及增加情报分析的效率和角度。但是目前基于 SAO三元组的专利情报分析仍存在以下不足:虽然 SAO三元组相较于单纯的关键词、主题词等文本分析能够加强细粒度语义分析效果,但具体专利分析任务强调整体性,单一、细化的 SAO三元组难以满足对具体任务领域进行多维度、多层