温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
BERT
LightGBM
文本
关键词
提取
方法
2023 年第 36 卷第 3 期Electronic Sci.Tech./Mar.15,2023h t t p s:/j o u r n a l.x i d i a n.e d u.c n收稿日期:2021-08-21基金项目:国家自然科学基金(61802251)National Natural Science Foundation of China(61802251)作者简介:何传鹏(1996 ),男,硕士研究生。研究方向:文本情感分析。尹玲(1987 ),女,博士,讲师。研究方向:时间序列分析与预测、深度学习。基于 BERT 和 LightGBM的文本关键词提取方法何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥(上海工程技术大学 电子电气工程学院,上海 201620)摘要传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA 和 BET 模型,文中提出 LDA BET LightGBM(LB LightGBM)模型。该方法选择 LDA 主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到 BET 模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过 LightGBM 算法转化为二分类问题。通过实验对比了 textrank 算法、LDA 算法、LightGBM 算法及文中提出的 LB LightGBM 模型对文本关键词提取的准确率 P、召回率 以及 F1。结果表明,当 TopN 取 3 6 时,F1 的平均值比最优方法提升 3 5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。关键词主题模型;词向量;BET;LightGBM;候选关键词;关键词提取;文本主题;关键词中图分类号TP391 1文献标识码A文章编号1007 7820(2023)03 007 07doi:10.16180/ki.issn1007 7820.2023.03.002Text Keyword Extraction Method Based on BET and LightGBMHE Chuanpeng,YIN Ling,HUANG Bo,WANG Mingsheng,GUO uyan,ZHANG Shuai,JU Jiaji(School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)AbstractTraditional text keyword extraction methods ignore the contextual semantic information and cannotsolve the problem of ambiguity of a word,so the extraction effect is not ideal Based on the LDA and BET models,this study proposes the LDA BET LightGBM(LB LightGBM)model The LDA topic model is selected to ob-tain the topic of each review and its word distribution,candidate keywords are filtered out according to the threshold,and the filtered words and the original review text are spliced and input into the BET model The word vector train-ing is performed to obtain the word vector containing the text topic,so the text keyword extraction problem is conver-ted into a two classification problem through the LightGBM algorithm The textrank algorithm,LDA algorithm,LightGBM algorithm and the proposed LB LightGBM model are compared through experiments on the accuracy rateP,recall rate and F1 of text keyword extraction in the present study The results show that when TopN takes 3 6,the average value of F1 is 35%higher than that of the optimal method,indicating that the extraction effect of thismethod is generally better than that of the comparison method selected in the experiment,and the text keywords canbe found more accuratelyKeywordstopic model;word vector;BET;LightGBM;candidate keywords;keywords extraction;text theme;key words关键词提取(Keywords Extraction)是为了方便人们在阅读工作过程中由于时间有限无法详细了解文本内容而产生的一种自然语言处理技术。该技术可从文本中选择若干个词,这些词具有易于理解,可高度概括全文,且不改变文章原意的特点。目前,该技术被广泛应用于文献检索、文本摘要、文本聚类等领域。网络技术的飞速发展促使网络用户数量快速增加,进而导致互联网新闻内容参差不齐。面对大量的文本数据,例如网络评论、社会新闻等,若能够在短时间内提取出有效的信息,既能节省工作时间,也能为生产者以及社会带来更多效益1 2。目前,已有一系列关于提高关键词提取效果的研究。文献 3 提出了基于 Xgboost 算法的关键词自动抽取方法。该方法融合 TF IDF、词性、词语长度等多种特征,用 Xgboost 算法来对关键词进行自动抽取。文献 4 提出了融合词和文档嵌入的关键词抽取算法。该算法中,通过计算单词与文档在相同维度上的向量表示,得出语义相似度,进而通过初始化单词节点的权重计算每个单词以及筛选出词的分7Electronic Science and Technology何传鹏,等:基于 BET 和 LightGBM 的文本关键词提取方法h t t p s:/j o u r n a l.x i d i a n.e d u.c n值,最终选择得分较高的前 k 个候选词作为文章关键词。文献 5 提出了基于 word2vec 与textrank的关键词提取研究。首先将经过去除停用词、jieba 分词、文本清洗等预处理后的文本 doc 输入到 word2vec 模型中进行训练,得到每个词的向量表示,并计算每个词相互之间的余弦距离 cos;然后结合内部文档确定连接边。这种方法不仅照顾到外部文档信息,还能将内部文档信息联系起来,可解决相同语义关键词同时被抽取出来的问题。近几年,由于 BET(Bidirec-tion Encoder epresentation from Transformers)预训练方法的产生,许多研究开始基于 BET 来进行关键词抽取,并取得了良好的成果。文献 6提出了融合BET 语义加权与网络图的关键词抽取方法,利用BET 预训练的词向量,使得textrank迭代运算出的词语综合得分排序更加准确,抽取效果更佳。尽管这些模型在特定数据集上对算法进行了优化,但是当数据量较多且文本类型错综复杂时,处理数据较耗费时间,且当数据规模超过一定程度后,准确率将有所下降。随着科技不断发展,人们认知的需求越来越高,为了节省更多的时间,必须寻找效率更高且算法更准确的模型来满足当今人们日益增长需要处理和分析海量数据的需求。本文提出潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)、BET、轻量梯度提升机(Light Gradient Boosting Machine,LightGBM)相结合的算法,即 LB LightGBM 算法。该算法首先利用 LDA 主题模型得到主题及其主题词分布,根据设定的阈值进行关键词初步筛选;然后将筛选出来的特征词和原评论文本拼接,一起输入到 BET 模型中进行词向量的训练,并结合 LightGBM 算法进行关键词的二次过滤;最终确定预测概率较高的词作为文本关键词。1相关工作1.1基于主题模型的关键词检测1 1 1主题模型概述关于主题关键词提取,研究人员从不同层面给出了较好的解决方法,包括:n gram 模型7、TF IDF8 10 特征提取、隐马尔可夫模型(Hidden MarkovModel,HMM)11、条件随机场(Conditional andomField,CF)12、支持向量机(Support Vector Machine,SVM)13、朴素贝叶斯模型(Naive Bayes,NB)14、潜在狄利克雷分布15 16 主题模型等。LDA 模型是一种无监督机器学习方法,有向图模型且采用词袋模型,根据概率生成单词,并由参数(,)确定。在文档中的主题稀疏性起作用,值越高说明预期文档包含大多数主题的混合。在主题中的单词稀疏性起作用,值越高说明词稀疏性的影响较小,每个主题都包含语料库大部分词。LDA 主题模型如图 1 所示,图中 M 为文章的总数,N为每个文章包含词总数,k为文章的主题数,?m为特定的向量,表示为第 m 个文章中主题分布,?k为向量,表示第 k 个主题中的概率分布,?中的每一列表示每个主题在文章出现的概率,p()是 的狄利克雷分布。1 1 2主题模型提取步骤LDA 主题模型的具体步骤是根据先验概率 p 选取一篇文章 m,从 Dirichlet Allocation 中采样生成文档的主题分布?m(主题分布和词分布使用狄利克雷分布作为它们的共轭先验分布);然后,从?中采样生成文章 m第 n 个词的主题 zm,n(对于每个词使用吉布斯采样计算式对其采样直至收敛),从 Dirichlet Allocation 中采样生成主题 zm,n对应词语分布?k;最后,从?k中采样最终生成词语 wm,n。由此过程,使用主题模型进行主题检测,再根据设定阈值可以初步筛选出候选关键词。图 1 LDA 主题模型Figure 1 LDA topic model1.2BERT 语言模型针对传统语言模型无法解决一词多义的问题17,本文采用 BET 预训练语言模型进行解决,具体模型结构如图 2 所示。图中最下方表示输入向量,它由 3种向量按元素进行相加得到,中间部分为 Transformer的编码器(Encoder)结构18,相当于特征提取器。作为本文使用的结构模型,其具有 12 层 Encoder 结构,每个 Encoder 有相似的组成部分,主要包含自注意力模块(Self Attention)和前馈网络模块(Feed ForwardNetwork)。自注意力模块不仅只关注当前词,还能够学习到更多相关联的语义信息,从而得到上下文的语义。前馈网络模块主要为非线性函数,以适应复杂语义环境。本文使用拼接最后 4 层隐含层的向量作为最后训练得到的词向量进行分类实验。8何传鹏,等:基于 BET 和 Light