分享
基于研究热度的电力科技期刊专题策划方法研究_马艳.pdf
下载文档

ID:2564041

大小:1.38MB

页数:6页

格式:PDF

时间:2023-07-12

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 研究 热度 电力 科技期刊 专题 策划 方法 马艳
SHANDONG ELECTRIC POWER山东电力技术第50卷(总第307期)2023年第6期 技术研讨 0引言科技期刊是开展学术研究交流的重要平台,是传播思想文化的重要阵地,是促进理论创新和科技进步的重要力量1。随着中国电力科技的快速发展以及双碳目标和建设新型电力系统要求的提出,电力科技创新正面临着前所未有的机遇和挑战2。如何使电力科技期刊更好地与电力行业科学研究的发展相匹配,更快地培育出世界一流科技期刊,将科技期刊体系做好、做优、做精,是当前的困难与挑战,也需要不断在摸索中进步。目前电力科学研究正面临多样化和跨学科化发展,传统的电力科技期刊栏目设置逐渐无法满足论文出版需求,在常规栏目之外灵活设置专题,成为科技期刊的重要工作3-6。目前科技期刊影响力评价指标数量多,牵扯工作面广,其中核心指标有影响因子、被引频次、他引率。学术期刊评价的理论基础由文献计量学三大经基金项目:国家自然科学基金项目(61802229);国网山东省电力公司电力科学研究院科技项目“基于多维指标分析的科技期刊动态评价方法研究”(ZY-2022-07)。基于研究热度的电力科技期刊专题策划方法研究马艳,车永强,韩英昆,马雷(国网山东省电力公司电力科学研究院,山东济南250003)摘要:内容质量是关系科技期刊影响力的重要因素。将科技期刊选题指向学术研究前沿,注重选题的前瞻性和创新性,是提高期刊影响力的关键。目前科技期刊多通过对特定领域、特定目标的数据进行统计分析,或者专家推荐来确定主题,缺少通用可行的选题策划和预测模型。设计一种基于研究热度的电力科技期刊专题策划方法,利用深度森林算法对主题词热度和论文影响力数据进行多粒度特征扫描和级联集成学习,对电力科技期刊的选题词汇进行预测,为未来一段时间的电力科技期刊选题提供建议。实验表明:与深度神经网络和随机森林相比,提出的基于深度森林模型的科技期刊选题方法具有更小的预测误差,且训练时间在可接受的时间范围内;随着训练数据量的增加,算法的预测误差呈现缩小趋势,并对预测短周期时间内的选题词汇更加有效。关键词:科技期刊;专题策划;研究热度;深度森林中图分类号:G232.1;TP18文献标识码:A文章编号:1007-9904(2023)06-0063-06Topic Planning of Sci-tech Journals in Electric Engineering FieldBased on Academic PopularityMA Yan,CHE Yongqiang,HAN Yingkun,MA Lei(State Grid Shandong Electric Power Research Institute,Jinan 250003,China)Abstract:Content quality is an important factor for journal impacts.Sci-tech journals choose the forefront of academic study astheir publishing topic,and the perspectiveness and innovation of topics will be crucial for journals to increase influence.Atpresent most journals determine their topics through expert recommendation or simple statistical analysis on specific objective inspecific field,which lacks the universal and feasible topic planning and prediction model.A topic planning method of sci-techjournals in electric engineering field based on academic popularity was proposed.The deep forest model was used to analyze thepopularity data of topic words and influential data of papers.The prediction model consists of multi-grained feature scanning andcascading ensemble learning,which provides advice of choosing topics for sci-tech journals in electric engineering field.Experimental results shows that the proposed topic planning method based on deep forest has an acceptable training time and itsaverage value of prediction errors is the lowest compared with deep neural network and random forest algorithm.Keywords:sci-tech journal;topic planning;academic popularity;deep forestDOI:10.20097/ki.issn1007-9904.2023.06.01163山东电力技术第50卷(总第307期)2023年第6期典理论构成,分别是“文献离散定律”“文献老化指数与引文峰值规律”以及“引文集中定律”7。因此,期刊发表的论文是期刊影响力的基础和关键。论文的主题不同,在一定程度上对期刊影响力的贡献度不同。论文主题如果是热点、重点或难点问题,具有前瞻性和创新性,则论文刊出一段时间内,会产生较高的阅读量、下载量、引用量,因而对期刊影响力产生显著的带动作用8。专题策划是突出期刊特色和提高期刊影响力的重要手段。清华大学学报(自然科学版)、空气动力学学报、航空材料学报 等均通过专刊、专栏选题策划和建设重塑了期刊品牌,提高了期刊影响力9-11。但这是一项系统工程,包括前沿追踪、调研论证、组约稿件、营销宣传等全过程。选题方向是专题策划的第一步,也是最关键的一环。在众多研究主题中挑选前沿亮点并符合期刊办刊宗旨的主题是一个极为困难且任务繁重的工作。随着信息数字化技术的发展,大数据技术为捕捉前沿热点和学科重大进展以及期刊专题策划提供了强大的手段12-18。然而,目前多数工作利用中国知网、国家科技报告服务系统、百度学术平台等离散信息分别进行特定目标的统计分析,缺少对全局信息的统一处理和挖掘,未形成通用可行的选题策划和预测模型。基于当前可获取的信息,如文献数据、网络平台信息、社会新闻等,设计一种可行、有效的预测模型,为未来一段时间的电气工程学科科技期刊选题提供建议。1科技期刊选题策划基于研究热度的电力科技期刊专题策划旨在利用数据挖掘和大数据技术深度挖掘期刊专栏选题方向,指导期刊选题策划。科技期刊选题策划主要包括数据采集、主题词热度计算、主题词热度预测、论文主题词权重计算、论文影响力分析、预测模型训练和热点专题推荐共 7 个部分。具体流程如图 1所示。按照一定周期对文献、网络数据等进行机器自动采集或人工采集。在数据采集的基础上,利用词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)算法,提取电力期刊发表论文的主题词,分别计算各个主题词的权重值,计算每个周图1科技期刊选题策划流程期各个主题词的研究热度,考虑对应文章的下载量、引用量、阅读量和主题词的搜索量。基于上述计算得到的主题词热度,利用先进的时间序列模型,预测未来一段时间内各个主题词的热度。同时,针对拟预测期刊主题的论文和主题词数据展开分析。论文将对拟预测期刊的正文、关键字和引文分别展开分析,得到论文的主题词权重向量。然后通过阅读量、下载量和引用量参数,计算某篇论文在一段时间内对科技期刊影响力的贡献大小。在获取研究热点数据及论文影响力数据后,再通过预测模型建立两者的联系,即通过研究热点数据预测不同主题在未来一段时间的影响力大小。预测模型选择深度森林算法,并将其与深度神经网络和随机森林算法进行性能比对。考虑到不同论文类型对论文影响力的差异,引入多个深度森林模型进行独立训练,得到每种论文类型的专题预测模型。最后,基于预测模型和研究热度,给出对电力期刊专栏选题的主题词推荐。2基于研究热度的期刊选题方法基于科技期刊选题策划流程,介绍基于研究热度的电力科技期刊选题详细方法。2.1数据采集首先进行数据采集。数据采集按照一定周期展开,主要使用爬虫技术19进行自动采集,辅以人工采集方法。利用爬虫技术在文献数据库、网络数据平台抽样爬取一个时段的文献数据。基于光学字符识别(Optical Character Recognition,OCR)20技术将爬取的文章结构化。2.2计算主题词热度计算每个时段各个主题词的热度。对于t周期,主题词计算方法如下。641)设Lt是t周期的所有文献的集合,用li,t标识一篇文献,其中i为文献编号。2)基于 TF-IDF 算法21获得li,t|li,t Lt的主题词权重,记为Wi,t,j=wj|kj Q,其中Q为科技词库中词的集合,wj为对应词库中主题词汇分量kj所得权重 TF-IDF 值,j为词的编号。3)对于li,t|li,t Lt,记录其在t周期的下载量di、引用量ci和阅读量ri。通过爬虫技术获取每个主题词kj在搜索引擎的搜索量,标记为sj。4)设pt,j是kj在t周期热度。pt,j=|li,t Lt(wjdiciridic ir i)sjs j,wj Wi,t,j(1)式中:di、c i、r i、s j分别为di、ci、ri、sj的均值。因此,主题词在一段时间的热度,与其自身搜索量占平均搜索量的比值,以及其所出现文章的下载量、引用量和阅读量占平均值的比值成正比例关系。2.3预测主题词热度根据主题词热度历史数据,对未来一段时间的主题词热度进行预测。将各个周期的pt,j|kj Q整合,则形成每个主题词热度的时间序列。设Pj为kj热度的时间序列。设t为当前周期,则对于每个kj而言,可以通过时间序列的预测模型预测t+h(h=1,2,.,n)的热度;h 为采样时间间隔;n 为总预测周期数。首先,将|Q个Pj作为训练数据,其中|Q为科技词库中词的数量;然后,选择先进的时间序列模型,选择差分整合移动平均自回归(AutoregressiveIntegrated Moving Average Model,ARIMA)算法,进行模型训练;最后,将当前周期的主题词数据输入模 型,预测各主题词在未来一段时间t+h(h=1,2,n)的热度。2.4计算论文主题词权重期刊有各自明确的办刊宗旨、办刊方向和报道范围,发表的论文对期刊影响力的贡献也千差万别。计算期刊论文中主题词汇的权重值,研究期刊主题词汇的分布,为后续预测算法提供输入数据。对于一个期刊的论文,可采用如下方式分析其主题词汇权重。1)设li为期刊的一篇论文。2)基于 TF-IDF 算法获得li的正文词汇权重,记为Vi=vj|k1j Q,vj为li的正文词汇k1j的权重。3)基于 TF-IDF 算法获得li的关键词词汇权重,记为Ui=uj|k2j Q,uj为li的 关 键 词 词 汇k2j的权重。4)设Ri为li的引文文献集合。计算Ri的主题词权重。基于 TF-IDF 计算各引文文献的词汇权重,其由各引文文献的词汇权重乘以引用次数再求取算术平均得来。最后,形成引文文献的词汇权重向量,记为Yi=yj|k3j Q,yj为引文文献Ri的主题词k3j词汇权重。5)计算论

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开