2023年第36卷第3期ElectronicSci.&Tech./Mar.15,2023https://journal.xidian.edu.cn收稿日期:2021-08-21基金项目:国家自然科学基金(61802251)NationalNaturalScienceFoundationofChina(61802251)作者简介:何传鹏(1996-),男,硕士研究生。研究方向:文本情感分析。尹玲(1987-),女,博士,讲师。研究方向:时间序列分析与预测、深度学习。基于BERT和LightGBM的文本关键词提取方法何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥(上海工程技术大学电子电气工程学院,上海201620)摘要传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightGBM(LB-LightGBM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightGBM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightGBM算法及文中提出的LB-LightGBM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当TopN取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。关键词主题模型;词向量;BERT;LightGBM;候选关键词;关键词提取;文本主题;关键词中图分类号TP391.1文献标识码A文章编号1007-7820(2023)03-007-07doi:10.16180/j.cnki.issn1007-7820.2023.03.002TextKeywordExtractionMethodBasedonBERTandLightGBMHEChuanpeng,YINLing,HUANGBo,WANGMingsheng,GUORuyan,ZHANGShuai,JUJiaji(SchoolofElectronicandElectricalEngineering,ShanghaiUniversityofEngineeringScience,Shanghai201620,China)AbstractTraditionaltextkeywordextractionmethodsignorethecontextualsemanticinformationandcannotsolvetheproblemofambiguityofaword,sotheextractioneffectisnotideal.BasedontheLDAandBERTmodels,thisstudyproposestheLDA-BERT-LightGBM(LB-LightGBM)model.TheLDAtopicmodelisselectedtoob-tainthetopicofeachreviewanditsworddistribution,candidatekeywordsarefilteredoutaccordingtothethreshold,andthefilteredwordsandtheoriginalreviewtextaresplicedandinputintotheBERTmodel.Thewordvectortrain-ing...