SOFTWARE2022软件第43卷第12期2022年Vol.43,No.12基金项目:2021年江苏省大学生创新创业训练计划资助项目(202113987004Y)作者简介:吴嘉兴(2001—),男,广西北海人,本科,研究方向:软件开发;王玉龙(2000—),男,四川泸州人,本科,研究方向:软件开发。通讯作者:孙美凤(1970—),女,江苏泰州人,博士研究生,副教授,研究方向:网络安全及信息处理。面向科研统计的机构发表论文数据的爬取—以知网为例吴嘉兴王玉龙孙美凤(扬州大学广陵学院,江苏扬州225000)摘要:为了提高科研统计的效率,研究从文献数据库中自动获取机构发表论文数据的问题。给出了发表论文数据的爬虫程序设计,探讨了其关键环节即爬取网页源码和提取论文数据的实现方法。编写程序从知网数据库中爬取了某机构发表论文,结果与人工检索一致。关键词:网络爬虫;科研统计;知网数据库中图分类号:TP391.1文献标识码:ADOI:10.3969/j.issn.1003-6970.2022.12.008本文著录格式:吴嘉兴,王玉龙,孙美凤.面向科研统计的机构发表论文数据的爬取—以知网为例[J].软件,2022,43(12):031-035CrawlingtheDataofPapersforScientificResearchStatistics:TakingHowNetasanExampleWUJiaxing,WANGYulong,SUNMeifeng(GuanglingCollage,YangzhouUniversity,YangzhouJiangsu225000)【Abstract】:Inordertoimprovetheefficiencyofscientificresearchstatistics,theproblemofautomaticallyobtainingthedataaboutpaperspublishedbyaninstitutionfromtheliteraturedatabaseisstudied.Thispaperpresentsthedesignofaprogramcrawlingdataofpapers,anddiscussestheimplementationmethodofitskeysteps,thatare,crawlingwebpagesourcecodeandextractingpaperdata.ThispapercompilestheprogramandactuallycrawlsthepaperdataofanorganizationfromtheHowNetdatabase,andtheresultsareconsistentwiththemanualretrieval.【Keywords】:webcrawler;scientificresearchstatistics;HowNetdatabase基金项目论文0引言论文是科学发现和科学研究很重要的成果和载体,发表论文的数量和质量一直被视为大学、科研院所研究实力的表示,因此高校、科研院所都非常重视本单位的论文发表,与之相适应,登记、审核本单位发表论文情况是科研管理的一项基本工作。通常论文登记、审核的流程是这样的:首先是论文作者个人填报,经层层汇总后形成单位发表论文汇总表;然后由专门的审核人员对正确性把关;最后基于审核确认过的数据进行各项日...