基于机器学习模型的科技论文潜在“精品”识别研究_胡泽文.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 1.89 MB
约14页
2023-05-10
收藏
评论
点赞(0)
海报
举报

/14

情报学报2023年2月第42卷第2期JournaloftheChinaSocietyforScientificandTechnicalInformation,Feb.2023,42(2):189-202基于机器学习模型的科技论文潜在“精品”识别研究胡泽文，任萍，崔静静（南京信息工程大学管理工程学院，南京210044）摘要综合运用科技文献特征向量空间和机器学习模型实现海量文献中潜在“精品”的自动识别与推荐，能够提升海量科技文献的科学影响和其科技发展促进作用。设计和实现基于机器学习的科技文献潜在“精品”识别分类器和模型框架，测度出国际高影响力期刊和国内图书情报与档案管理期刊论文的原文及引文特征，运用特征工程构建科技论文特征向量空间；然后分别采用支持向量机和朴素贝叶斯等传统机器学习模型，以及深度置信网络和多层感知机等深度学习模型进行潜在“精品”的自动识别，并基于ROC曲线（receiveroperatingcharacteristiccurve）和混淆矩阵构建评价模型识别效果的指标体系。研究结果显示：①深度学习模型在潜在“精品”识别方面的效果较差，而传统机器学习模型的识别效果较优，其中随机森林和支持向量机的潜在“精品”识别效果最佳，决策树识别效果次之，朴素贝叶斯识别效果较差且稳定性不足。②影响因子越高的期刊潜在“精品”识别效果越好；无论国际自然科学领域高影响力期刊，还是国内社会科学领域图书情报与档案管理期刊，识别出的“精品”论文全部为被引频次较高的论文且综述论文的占比较低，国内期刊的“精品”论文中仅有1篇为综述论文。③“精品”论文的计量特征值与总体论文样本相比，呈现较大差异，即“精品”论文的首次响应时间较短且拥有基金资助，参考文献数量、关键词数量和被引频次较多，摘要和论文篇幅较长且偏向多作者论文。实证结果表明，机器学习模型能够准确识别科技文献中的潜在“精品”，并提升潜在“精品”识别的自动化程度，为海量文献中潜在“精品”文献的自动识别与传播利用提供理论参考与方法支撑。关键词机器学习；深度学习；精品文献；特征工程；随机森林；支持向量机；朴素贝叶斯；深度置信网络StudyonIdentificationofPotential“Treasures”inMassivePapersBasedonMachineLearningModelsHuZewen,RenPingandCuiJingjing(SchoolofManagementScienceandEngineering,NanjingUniversityofInformationScience&Technology,Nanjing210044)Abstract：Constructingafeaturevectorspaceofmassiveliteratureandusingmachinelearningmodelstoaccuratelyandautomaticallyidentifyandutili...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容