分享
基于Leiden算法的我国...用研究热点演化与可视化分析_阳昕.pdf
下载文档

ID:2367370

大小:2.56MB

页数:8页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 Leiden 算法 我国 研究 热点 演化 可视化 分析 阳昕
64基于 Leiden 算法的我国图书情报领域人工智能应用研究热点演化与可视化分析阳 昕(复旦大学图书馆 上海 200433)摘 要 目的/意义 考察 Leiden 算法在文献聚类中的应用,并梳理我国图书情报领域人工智能应用研究的相关论文,分析该领域的热点演化情况,以期为后续相关研究方向提供参考。方法/过程 采用词频分析法、关键词共现网络与 Leiden 社区发现算法等方法进行数据分析,利用 Tableau 和 Gephi 对结果进行可视化,以识别我国图书情报领域人工智能应用研究热点演化;并与多维尺度分析的聚类结果对比,分析 Leiden 算法的可行性。结果/结论 结果表明,Leiden 算法社区探测划分准确性较高,国内图书情报领域人工智能研究热点集中在智慧图书馆、大数据、智慧服务、机器学习、深度学习、知识图谱等领域。关键词 图书情报 人工智能 词频分析 Leiden 算法 聚类分析分类号 G353引用本文格式 阳昕.基于 Leiden 算法的我国图书情报领域人工智能应用研究热点演化与可视化分析 J.图书情报研究,2023,16(2):64-71.Hotspot Evolution and Visual Analysis of Artificial Intelligence Application Research in Library and Information Science of China Based on the Leiden AlgorithmYang XinFudan University Library,Shanghai 200433,ChinaAbstract Purpose/significance The article analyzes the current research progress of artificial intelligence technologies in the field of Chinese library and information science,which can provide a reference for future research.Method/process The word-frequency analysis,keywords co-occurrence network,and the Leiden algorithm are conducted to recognize the research hotspots of artificial intelligence technologies in the field of Chinese library and information science.Tableau and Gephi are used for visualization analysis.Result/conclusion Compared with the clustering of multidimensional scaling analysis,the results show the feasibility and effectiveness of the Leiden algorithm.The main research hotspots are focused on the smart library,big data,smart service,machine learning,deep learning,and knowledge mapping.Key words library and information science;artificial intelligence;word frequency analysis;the Leiden algorithm;cluster analysis2023 年第 2 期情报分析651 引言人工智能(Artificial Intelligence)的概念自1956 年首次提出后,经过六十多年的发展,已成为一门覆盖多个领域的前沿交叉学科。尤其随着机器学习、大数据、云计算等技术的进步,人工智能技术在众多应用方向取得了突破性进展1。在图书情报领域同样也兴起了智慧图书馆、智慧服务、语义网络、数字人文等人工智能技术相关的研究。图书馆前沿技术论坛(IT4L)在 2019 年举办了以“AI 在图情:人工智能赋能图情服务”为主题的会议,聚焦人工智能与第三代图书馆,特别是新技术、新方法的理论和应用现状2。2020 ACRL 学术图书馆趋势报告中也指出,由于人工智能的发展,图书馆正处于剧变的尖端3。智能时代的图书馆发展转型,也是 2020 年度中国图情档学界十大学术热点之一4。梳理国内图书情报领域人工智能技术的科研成果,了解研究现状与热点领域,有助于把握当前的发展趋势,为后续研究确定方向。研究热点分析的常用方法包括词频分析法、共词分析法等。词频分析是通过关键词或主题词在历年的分布情况来确定研究领域热点演化情况5-6。高劲松等7利用高频关键词的词频和位次随时间的变化,获得研究领域的热点发展动向。王康等8对关键词进行时间加权修正后,再根据词频变化确定绝对高频词、突现词或新兴词。孙艳红9采用 ROST Content Ming 软件对2010-2019 年间国家基金项目的名称进行分词处理,统计十年间的高频主题词,了解学科领域研究现状、热点与发展趋势。共词分析则是根据关键词在同一篇文献中共同出现的次数,构建共现矩阵/网络,共现频次较高的高频词能够反映热点主题10-11。刘自强等12构建了时间分层的共词网络图谱,分析“数据挖掘”领域的关键词共现图谱时序演化以了解研究热点的改变。张潇雨13绘制高频关键词共现图谱,筛选高中心度的关键词以确定近五年公共图书馆领域研究热点。知识图谱软件可通过对学科领域科研文献的关键词词频、关键词共现网络、突变检测、主题聚类等方面的分析,获取研究领域发展趋势与热点。常用的知识图谱软件包括 CiteSpace、VOSviewer、SCI2、SciMat、Gephi 和 SPSS 等。任恒14运用 CiteSpace 分析“社会智库”主题相关文献的高频关键词聚类图谱和关键词突现图谱,探究热点主题和前沿领域。张琬笛等15使用 VOSviewer 对高频关键词进行主题聚类,结合 Logistic 生长曲线模型和时间序列,识别研究主题演化趋势。李跃艳等16采用开源软件 Gephi绘制不同时间段的高频关键词共现网络,利用模块化算法探测社区结构,识别主题知识演变路径变化。肖连杰等17利用统计软件 SPSS 对关键词共现矩阵进行聚类分析,预测情报分析研究方法的发展方向。本文利用 CNKI 收录的我国图书情报领域人工智能应用研究的论文数据,采用一种新型社区发现算法Leiden 算法,对高频关键词共现网络进行社区划分。与关键词中心性分析和时序分布结果相结合,揭示国内图情领域人工智能技术应用研究热点变化和发展趋势。2 数据来源与研究方法2.1 数据来源研究数据来自中国知网(CNKI)期刊数据库,来源期刊类别选择“SCI 来源期刊、EI 来源期刊、核心期刊和 CSSCI”。本文最初在文献检索时,选择“人工智能”及下位类检索词,如 人工智能+机器学习+深度学习+神经网络+自然语言处理+计算机视觉+支持向量机 等,学科领域设置为“图书情报与数字图书馆”,但是发现检索结果中噪声略大,出现了如 高校图书馆信息素养教育改革的新趋势 iSchool 院校的大数据相关课程设置及其特点分析 2014-2018 年国外 iSchools院校科研立项情况调查与分析 2019 年国际新闻传播学研究的十个核心议题 面向电网调度故障处理的知识图谱框架与关键技术初探等相关度较低的文献。所以选择在主题字段检索(“人工智能”或“AI”),并将学科领域设置为“图书情报与数字图书馆”,时间范围不限,检索时间为 2020 年 9 月 16 日,共获得 532 条数据。根据初步检索到的文献的题名、摘要和关键词等内容进行人工判读,剔除与研究主题不符的会议、序言、编后、通知、书评等无效或重复文献,最终获得有效期刊文献 491 篇,文献分布情况如阳 昕:基于 Leiden 算法的我国图书情报领域人工智能应用研究热点演化与可视化分析66图 1 所示。发文数量/篇年份120100806040200199219931994199519961997199819992000200120022003200420052006200720082009201020112012201320142015201620172018201920204386610101145411149110111413133359988845 56图 1 文献发表时序分布2.2 研究方法2.2.1 Leiden 社区发现算法社区发现算法(Community Detection)是分析大型复杂网络结构的常用方法,通过对大量数据的关联节点进行聚类,可客观揭示网络内部结构、关系和特征18。Louvain 算法被认为是最快、最有效的社区发现算法之一19,广泛应用于复杂网络分析领域。但是 Louvain 算法可能产生连接不良的社区,甚至导致社区联结断开20。而且在小规模网络中会发生无法检测到低于一定规模的小型社区的情况21,丢失最优解。为解决这些问题,Traag 等20在 2018 年开发了一种新型的社区发现算法Leiden 算法。该算法结合了智能局部移动(Smart Local Move)、快速局部移动(Fast Local Move)和随机近邻移动(Random Neighbor Move)的思想22。相比于 Louvain 算法,Leiden 算法的运行速度更快,社区间不仅具有良好的联结,还可获得稳定的高质量分区。Leiden 算法流程如下20:(1)节点的局部移动,Leiden 算法以单个分区起始,从一个社区将各个节点移动到另一个分区,以确定细分社区;(2)基于(1)产生的细分社区精炼形成子社区,然后将子社区再聚合后成为网络中位于同一个社区的独立的节点;(3)基于细分社区的网络聚合,通过使用未细化的分区为聚合网络创建初始分区;(4)重复以上步骤,直到社区划分无法再进一步改进为止。详细算法代码参见:https:/leidenalg.readthedocs.readthedocs.io/en/stable/index.html。研究中采用模块度(Modularity)指标衡量Leiden 社区发现算法的性能。其计算公式如下23:(1)(2)其中 i 和 j 代表网络中任意两个节点;Aij是节点 i 和 j 之间边的权重;ki=jAij是联结与节点i 的边的权重;ci和 cj分别是节点 i 和 j 所属的社区;函 数,若 节 点 i 和 j 在 一 个 社 区,则(ci,cj)=1,否则为 0;m=ijAij,为网络中边的数量。当网络的模块化(Q)指标在 0.30.7 之间时,社区划分结构是显著可信的24。2.2.2 可行性分析利用多维尺度分析对高频关键词进行聚类分析,通过结果对比判断 Leiden 算法聚类的可行性。多维尺度分析是一种在低维空间研究样本或者变量间相关性的多元数据分析方法25。通过关键词之间距离远近反映两者的关联性,从而对样本数据进行分类。本文利用统计软件 SPSS 进行多维尺度分析。3 结果分析3.1 高频关键词选取在学术文献中,关键词可呈现论文研究的主题内容26。一般而言,关键词词频之和占总词频的40%以上可表征该领域的研究重点和热点27。对 491 篇样本文献进行关键词提取,获得 1 169个关键词。再进行同义词、近义词归并,最终得到有效关键词 1 112 个。统计关键词词频,截取词频 4 次的高频关键词共计 78 个,如表 1 所示。高频关键词词频之和为 872 次,占总词频 2 086 次的 41.8%(40%),一定程度上可以反映图书

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开