2023年1月Jan2023DigitalTechnology&Application第41卷第1期Vol.41No.1数字技术与应用26中图分类号:G353.1文献标识码:A文章编号:1007-9416(2023)01-0026-05DOI:10.19695/j.cnki.cn12-1369.2023.01.082010-2021年国内文本挖掘的文献计量分析*川北医学院管理学院谭明亮蒋静本文以中国知网数据库收录的文本挖掘相关的研究文献作为研究对象,借助于知识可视化图谱分析工具CiteSpace对研究文献进行多个维度的分析并以科学知识图谱的形式呈现,主要包括关键词分析、作者分析、研究机构分析和研究趋势分析。本文通过文献计量分析发现,2010—2021年的12年间,文本挖掘领域研究主题广泛,研究层次多样,研究人员数量众多,在不同时期有不同的研究重点。近年来,随着移动通信和互联网技术的快速发展和广泛普及,文本数据的规模呈现出急剧增长的趋势,主要包括研究报告、学术论文、电子邮件、网页、公司内部公告等。非结构化文本是非常重要的数据资源,为了更好地处理和使用这些数量庞大、结构多样的文本数据,文本挖掘技术随之而诞生。文本挖掘作为自然语言处理、机器学习和数据挖掘等多项技术的交叉研究领域,其研究热度也逐年提升。本文从中国知网数据库上获取文本挖掘领域的相关研究文献,基于文献计量法和CiteSpace软件,主要从研究人员、研究机构、研究内容和研究趋势等多个维度,对收集到的文献数据进行全面综合的分析,以期为文本挖掘领域的研究人员提供一定的参考和借鉴。1数据选取本文的研究数据来自于中国知网(CNKI)中文数据库,数据采集的检索条件设置如下:主题词设置为“文本挖掘”,研究文献的发表年份设置为2010—2021年。经过检索,共得到4853篇研究文献,其中包括了2326篇学术期刊论文、2222篇学位论文和101篇会议论文,剔除其中与本文研究相关度低的204篇文献(包括年鉴、报纸等),得到有效文献共计4649篇。本文将文献数据以Refworks的格式下载到本地文件夹dataforCiteSpace下的input文件夹之中,文献输出信息以txt文本文件形式存储,txt文件以download_加数字命名,例如“download_1”,以download_加数字的格式命名文件是为了后续能够更便捷地将CNKI文献导入CiteSpace数据库中。2分析方法与分析工具2.1分析方法文献计量法是一种定量分析方法,是以科技文献的各种外部特征作为研究对象,采用数学与统计学的方法来描述、评价和预测科学技术现状与发展趋势的一种方法,文献计量法的主要特点输出必是量化的信息内容[1]。文献计量法在科技...