ComputerScienceandApplication计算机科学与应用,2023,13(8),1515-1526PublishedOnlineAugust2023inHans.https://www.hanspub.org/journal/csahttps://doi.org/10.12677/csa.2023.138150文章引用:杜潇鉴,吕卫东,孙钰华.基于多教师知识蒸馏的新闻文本分类方法[J].计算机科学与应用,2023,13(8):1515-1526.DOI:10.12677/csa.2023.138150基于多教师知识蒸馏的新闻文本分类方法杜潇鉴*,吕卫东#,孙钰华兰州交通大学数理学院,甘肃兰州收稿日期:2023年7月5日;录用日期:2023年8月3日;发布日期:2023年8月14日摘要从传统的文本分类到基于深度学习下的文本分类,再到BERT模型的提出,使得其以及其变种模型逐渐成为自然语言处理中的主流模型,但其需要占用和花费大量内存和计算机资源。根据师生网络结构分成同构和异构两种情况,并提出了不同的多教师蒸馏策略。在THUCNews数据集上做实验,发现即使有教师表现较差,也能使得学生模型分类效果分别提升3.26%和3.30%,且性能损失分别为0.79%和0.78%,说明接近教师模型的分类效果;同时参数量只是教师模型的2.05%和2.08%,实现了很好的模型压缩。关键词知识蒸馏,多教师,文本分类,模型压缩NewsTextClassificationMethodBasedonMulti-TeacherKnowledgeDistillationXiaojianDu*,WeidongLv#,YvhuaSunSchoolofMathematicsandPhysics,LanzhouJiaotongUniversity,LanzhouGansuReceived:Jul.5th,2023;accepted:Aug.3rd,2023;published:Aug.14th,2023AbstractFromtraditionaltextclassificationtotextclassificationbasedondeeplearning,WiththeproposalofBERTmodel,itanditsvariantsgraduallybecomethemainstreammodelinnaturallanguageprocessing,butitneedstooccupyandspendalotofmemoryandcomputerresources.Accordingtothedissimilarityofteacher-studentnetworkstructure,itisdividingthetwocasesintoisomor-phicandheterogeneousteacher-studentnetwork,andproposestwodifferentmulti-teacherdis-*第一作者。#通讯作者。杜潇鉴等DOI:10.12677/csa.2023.1381501516计算机科学与应用tillationstrategies.TheexperimentontheTHUCNewsdatasetshowsthatevenifthereareteach-erswithpoorperformance,theclassificationeffectofthestudentmodelcanbeimprovedby3.26%and3.30%respectively,andtheperformancelossis0.79%and0.78%respectively,indi-catingthattheclassificationeffectoftheteachermodelisclosetothato...