温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
学科
领域
生命周期
视域
国内
中医
古籍
数字化
研究进展
沈旺
第 卷 第 期 年 月学科领域生命周期视域下国内中医古籍数字化研究进展沈旺 刘嘉宇 李贺 李世钰 张承坤吉林大学商学与管理学院 长春 长春中医药大学基础医学院 长春 摘 要:目的 意义通过对国内中医古籍数字化领域生命周期进行划分,系统性述评该领域的发展阶段及其特征,为面向数字人文的中医古籍数字化研究提供决策参考。方法 过程从 个期刊数据库采集该领域期刊文献题录,通过最小二乘法和年度文献增长量确定中医古籍数字化研究的生命周期,对各阶段的相关文献进行主题聚类分析和主题演化分析以识别出各领域的研究热点和演化趋势。结果 结论将国内中医古籍数字化研究划分为 个阶段,识别出各阶段的研究主题及主题在不同阶段中的演化路径,在总结前人研究基础上,从数字化资源、技术体系构建和应用服务方向 方面提出未来中医古籍数字化的发展趋势。关键词:生命周期 中医古籍 可视化分析 数字人文 文献综述分类号:本文系国家社会科学基金项目“数据驱动的档案文献资源知识构建与知识服务研究”(项目编号:)研究成果之一。作者简介:沈旺,教授,博士,博士生导师;刘嘉宇,博士研究生,通信作者,-:;李贺,教授,博士,博士生导师;李世钰,博士研究生;张承坤,博士研究生。收稿日期:修回日期:本文起止页码:本文责任编辑:杜杏叶 引言 “中医药学包含着中华民族几千年的健康养生理念及其实践经验,是中华文明的一个瑰宝,凝聚着中国人民和中华民族的博大智慧”。在大数据、人工智能等技术蓬勃发展的今天,健康医疗大数据纳入了国家大数据战略布局,我们倡导中西医并重,希望中医药为人类提供另一种健康思维模式和医学解决方案。但传统中医具有主观性,往往依赖于不同中医师的经验和人工评估以得出不同的诊断结果,且中医师必须经历多年的名著古籍学习以获取足够的知识和经验,国内外对中医的科学性仍有较大争议。因此,运用先进的信息技术从中医古籍中挖掘知识并总结规律,将中医从传统的依靠主观经验推广到现代循证医学是中医从业者的迫切需求,也是中医古籍数字化的最终目标。本文认为中医古籍数字化概念包含两个方面,一方面是指借助新兴的信息处理技术,对中医古籍进行加工整理,将难以保存的纸质资源数字化,形成可以利用的各种数字化中医古籍资源库;另一方面是针对各类数字化的中医古籍知识库,综合运用自然语言处理技术和语义网技术对中医古籍中的数据进行挖掘和深层次开发利用,形成各类辅助医疗人员临床、科研的医学产品,从而达到对中医文化的保护、传承、利用和弘扬的目的。通过挖掘中医古籍中蕴含的药物价值和用药规律,可强化对中医古籍的保护和传承,促进传统中医药文化的创新和接续发展。在历史长河中形成的中医古籍数量庞大、载体多样、内容质量参差不齐,中医实践的发展离不开对这些资料的加工整理、去粗取精,而传统文献学方法中排版、整理、扫描、校勘环节,难以实现中医古籍内容的深层次分析应用。正如曹霞等指出,中医古籍数字化进程中存在着开发层次低、兼容性差、规范化和标准化不足等问题。伴随着深度学习、人工智能等新兴技术的发展,运用数据挖掘方法从数字化的中医古籍中更好地实现数据融合和知识发现,成为中医古籍数字化进程中的重要着眼点。因此,本文的研究目标是对已有的国内中医古籍数字化工作进行文献调研,在总结已有的研究成果基础上,找出目前该领域研究的特点和不足之处,阐明未来中医古籍数字化的研究对象、实现技术和应用前景。为实现上述研究目标,本文拟采用学科领域生命周期理论对中医古籍数字化领域的生命周期进行划分,并重点探讨以下 方面内容:从期刊数据库中选择相关文献,通过最小二乘法对中医古籍数字化领域沈旺,刘嘉宇,李贺,等 学科领域生命周期视域下国内中医古籍数字化研究进展 图书情报工作,():研究成果进行发文量拟合,实现该领域研究成果的描述性统计分析,并根据年度文献增长量实现中医古籍数字化领域生命周期的界定;在生命周期划分基础上,对生命周期各阶段中相关文献进行关键词聚类,找出各阶段的热点主题及其在生命周期不同阶段的演化,揭示出该领域研究热点和发展趋势;总结中医古籍数字化领域已有研究成果的总体特征和存在问题,展望未来该领域的研究对象、技术体系和应用服务方向。中医古籍数字化领域生命周期划分 学科领域生命周期理论 生命周期这一概念起源于生物学,并被广泛地应用在政治、经济、环境、技术、社会等诸多领域。有研究表明学科领域同样也具有生命周期,随时间经历着萌芽、发展、成熟、衰败等过程,基于文献统计的学科领域生命周期的划分主要依赖文献的增长量变化,并采用学科领域文献累计发文量随时间分布拟合曲线的曲率作为参考。例如,学者王曰芬运用学科领域生命周期理论将新能源领域划分生命周期时,不同阶段的划分依据是新能源领域文献增长量的变化。还有学者在对国内应急管理领域进行文献述评时,同样采用学科领域生命周期理论将国内应急管理划分为萌芽期、发展期和腾飞期 个阶段,其生命周期划分的依据为计算应急管理领域文献增长的变化量并结合应急管理领域文献累计发文量时间分布图中拟合曲线的曲率。由此可见,目前相关学者在采用学科领域生命周期进行阶段划分时,主要依据为分析某个学科领域内文献增长量的变化。因此,本文在对中医古籍数字化进行文献述评时,借鉴了前人的划分依据,即采用中医古籍的文献增长量变化对该领域进行生命周期的划分。数据来源及预处理 中医古籍数字化作为一种学科交叉视角下的研究领域,涉及到中医学、中医文献学、情报学、计算机科学等多个领域,研究人员必然会从不同的视角进行分析阐释,其成果应考虑不同的期刊及文献数据库。因此,笔者分别从中国知网、维普期刊中文期刊服务平台、万方医学网、中国生物医学文献服务系统期刊数据库中进行高级检索,以充分获取该领域的相关研究成果。在上文对中医古籍数字化概念进行界定的前提下,检索式的确定参考了李明杰等人对古籍数字化述评及李永卉等人对中医古籍数字化综述的检索策略,并咨询了中医文献史研究的相关专家,以保证所获数据是“中医古籍数字化”相关问题的文献。如在对中国知网进行检索时,检索思路为:(中医古籍 中医善本 医古文 中医典籍 中医文献 方剂)(数字化 电子化 数据库 计算机),勾选同义词扩展,时间跨度不限,检索时间为 年 月 日,仅将学术期刊文献纳入研究范围。其他期刊数据库采用相同的检索思路并根据各自的数据库检索字段进行相应调整,以保证获取文献的准确性和完整性。在对 个数据库完成检索后,将题名、作者、关键词、发表时间和摘要导入至 实现去重,并通过人工浏览方式删除了征稿启示、约稿和期刊简介等与研究内容无关的信息,最终共得到 条有效文献题录作为研究数据。中医古籍数字化研究生命周期界定 首先,将经过数据预处理的相关文献逐年累计相加。其次,采用最小二乘法对数据进行曲线拟合,以年份为自变量,累计发文量为因变量,得到了中医古籍数字化研究成果的文献累计发文量随时间的分布图,如图 所示:图 中医古籍数字化领域文献累计发文量时间分布 拟合曲线检验后得到增长曲线关系的表达式为:公式()其中,表示累计发文量,表示年份。通过该公式,可以看出中医古籍数字化领域的累计发文量随年代表现出指数增长的趋势。为界定中医古籍数字化领域的生命周期,在学科领域生命周期理论分段依据指导下,本研究对年度文献增长量随时间变化进行了计算,在其基础上绘制了中医古籍数字化领域的生命周期图,结果如图 所示:第 卷 第 期 年 月图 国内中医古籍数字化领域年度文献增长量及生命周期 根据图 并结合中医古籍数字化领域文献增长的变化量及图 拟合曲线的曲率,本文将国内中医古籍数字化领域的发展分为以下 个阶段:()萌芽期:年。该阶段内文献发表量累计仅 篇,文献年度平均增长仅 篇,增长缓慢,说明该领域在这个时间段内发展缓慢,处于发展刚刚起步阶段,将其定义为萌芽期。()发展期:年。该阶段年度文献增长量仍较低,但文献年度增长量相比萌芽期出现增长趋势,其文献发表总量为萌芽期的 倍,故将该阶段定义为发展期。()快速发展期:年。该阶段中医古籍数字化领域每年的期刊文献发表量分布在 篇,年度文献增长量表现出不稳定的振荡趋势,但文献发表量总体趋势是增加的,充分说明了该领域处于快速发展时期。生命周期阶段下中医古籍数字化研究对比分析 通过对中医古籍数字化研究领域的生命周期划分,笔者从以下两个方面分析了该领域的研究情况。从中医古籍数字化领域自身发文上看,国内期刊数据库收录最早的关于中医古籍数字化的文献是杨培坤于 年发表在湖北中医杂志上的运用电脑对 伤寒论 辨证论治思想体系的验证,该文以集合论为理论依据,根据伤寒论 对病变信息进行了探讨,提出一种辩证论治的信息处理模型,并在计算机上对该模型进行了编程与反复论证。其次,年对中医古籍数字化方面研究成果收录的期刊多达 种。中华中医药杂志(篇),中国中医药信息杂志(篇),中国实验方剂学杂志(篇),辽宁中医杂志(篇)和时珍国医国药(篇)占据了其中的前 位,这表明中医古籍数字化研究者的学科背景依然在中医领域,其占据了该领域的主导地位,将中医古籍的数字化作为中医研究的边缘学科进行思考探索。但国内图情学者也及时将目光瞄准了该领域,将其视为“中医文献现代发展的主流趋势”,与医学信息管理相关的中国中医药信息杂志占据该领域发文量的第二位验证了该观点。从中医古籍数字化领域与其它学科领域对比上看,学者李冬琼搜集了中国知网中“新能源”领域 年间发表的科技期刊论文,通过计算该领域的生命周期,将“新能源”领域划分为萌芽期、腾飞期和成熟期 个阶段。学者王曰芬则在探讨新能源领域科学合作网络演化及高影响力学者成长特征研究时,采集了中国知网中新能源类目下 年所有文献的题录信息并借用学科领域生命周期理论,将新能源领域划分为萌芽期、发展期、腾飞期以及转型期。学者关鹏收集了中国知网中锂离子电池领域的期刊论文数据,通过文献信息增长规律对学科生命周期发展阶段进行划分,将锂离子电池领域划分为萌芽期、成长期、快速发展期、成熟期。通过对发文量、期刊分布以及与其他研究领域生命周期阶段对比,可以看出:()国内中医古籍数字化领域研究深度不够。从生命周期和各阶段的发文量来看,该领域目前的文献累积量并未像其他领域一样步入了成熟期和转型期。即使在发展期和快速发展期,中医古籍数字化领域研究成果都表现出增长缓慢的态势,年度文献增长量较沈旺,刘嘉宇,李贺,等 学科领域生命周期视域下国内中医古籍数字化研究进展 图书情报工作,():少。这说明该领域没有得到相关学者足够的重视,未通过深入研究而产生较多的研究成果。()目前中医古籍数字化研究“数据思维”不强。从论文发表期刊来看,大多数文章均来自中医院校的中医科研人员,对中医古籍数字化的目的是为了借鉴古籍中蕴含的中医知识解决现代诊疗过程中出现的问题而进行的统计学分析、配伍分析和用药规律分析等。而具有数据及其相关专业背景知识的计算机、图书情报甚至统计专业人员发文量则相对较少。上述情况一方面受到学科建设和社会经济技术的制约,另一方面也说明该领域交叉性不强,受学科专业性和古籍文献资料获取困难等限制,依旧保留着传统古籍文献处理的手段和思维,运用现代信息处理工具和技术手段的意识薄弱。生命周期阶段下中医古籍数字化研究热点分析 中医古籍数字化主题聚类 目前学界多数研究都对高频关键词进行共词聚类分析、主题演化等以探究领域研究热点和发展趋势。因此,本文在对中医古籍数字化领域生命周期界定基础上,分别对萌芽期、发展期和快速发展期的相关研究成果进行了基于高频关键词主题聚类分析和主题演化分析,以进一步识别中医古籍数字化各阶段的研究热点和主题演化趋势。高频关键词确定 本文对高频关键词的确定按相应生命周期进行划分,以更好地表现出各个生命周期内的主题聚类效果。其中,萌芽期相关研究成果中关键词仅为 个,因此选择出现频率大于等于 次的关键词作为萌芽期的高频词;发展期选取出现频率大于等于 次的关键词作为高频词,共选出关键词 个;快速发展期选取出现频率大于等于 次的关键词,共有关键词 个。选出这些高频关键词后,按生命周期分 次导入常用的文献计量工具 中,得出关键词聚类效果图。各阶段关键词聚类结果 萌芽期、发展期和快速发展期关键词聚类结果