温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
文本
摘要
评测
方法
语义
损失
金独亮
计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期文章编号:1006-2475(2023)03-0084-06收稿日期:2022-07-17;修回日期:2022-08-30基金项目:重庆师范大学(人才引进/博士启动)基金资助项目(17XCB008);教育部人文社会科学研究项目(18XJC880002);重庆市教育委员会科技项目(KJQN201800539)作者简介:金独亮(1999),男,江西丰城人,硕士研究生,研究方向:自然语言处理,E-mail:;范永胜(1970),男,副教授,博士,研究方向:大数据,自然语言处理,E-mail:yongsheng_;张琪(1997),女,河南开封人,硕士研究生,研究方向:自然语言处理,E-mail:。0引言文本摘要自动生成1-3是自然语言处理(NaturalLanguage Processing,NLP)领域内的主要研究方向之一。文本摘要的意义在于通过机器学习、深度学习以及人工智能等智能技术手段对规模量较大的文本类数据进行快速地提炼、浓缩,并形成相对较短的、总结性的文本内容,帮助用户快速地理解原始文本含义,节约时间成本。在该领域内主要使用ROUGE4(Recall-OrientedUnderstudyforGistingEvaluation)、BlEU5(Bilingual Evaluation Understudy)等基于N-gram重叠的自动评价指标对各个摘要模型的有效性进行自动评测。但是,这些评测方法与标准受到了部分研究学者的质疑6。例如,2019 年 Trichelair等人7和Mccoy等人8提出,摘要生成模型可能仅仅凭借学习高频样例的启发式规则或者问题与答案之间的简单词汇关联,在使用ROUGE模型评测时取得较高的分数,但实际上模型并没有学到有效的实质信息,最终导致模型在实际应用时表现不佳;Niven等人9发现 BERT在多个评测上取得很好成绩可能只文本摘要评测方法的语义损失度金独亮,范永胜,张琪(重庆师范大学计算机与信息科学学院,重庆 401331)摘要:在当前文本摘要自动生成领域,传统的ROUGE评测方法已多次被研究者发现其评测结果与人工评测结果差距过大,但该差距尚未数值化,无法丈量。基于此现状,本文采用多个不同类型、长度的公开中文摘要数据集,通过定义语义损失率计算方法来衡量ROUGE在评价时所产生的语义损失程度,同时综合考虑摘要长度以及数据集内在因素对生成摘要评价的影响,最终可视化ROUGE评测与人工评测存在误差的具体数值。实验结果表明,ROUGE评测分数与人工评测分数呈弱相关性,ROUGE方法对不同长度的数据集都存在一定程度的语义损失,同时摘要长度和数据集的原始标注误差也会对最终的评测分数产生重要影响。本文定义的语义损失率计算方法可以为更好地选择数据集和评测方法提供一定的参考依据,为改进评测方法提供一定的思路方向,同时也对最终客观测评模型的有效性提供一定的指导帮助。关键词:文本摘要;评测方法;语义损失率;数据集偏差中图分类号:TP391.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.03.015Semantic Loss Degree of Text Summarization Evaluation MethodJIN Du-liang,FAN Yong-sheng,ZHANG Qi(School of Computer and Information Sciences,Chongqing Normal University,Chongqing 401331,China)Abstract:In the current field of text summarization automatic generation,the traditional ROUGE evaluation method has been repeatedly found by researchers that the gap between its evaluation results and artificial evaluation results is too large,but the gaphas not been numerical and cannot be measured.Based on this situation,this paper uses multiple public Chinese summary datasets of different types and lengths to measure the degree of semantic loss generated by ROUGE in the evaluation by defining thecalculation method of semantic loss rate.At the same time,it comprehensively considers the influence of summary length and internal factors of datasets on the generation of summary evaluation,and the specific values of errors between ROUGE evaluationand artificial evaluation are visualized finally.The experimental results show that the ROUGE evaluation score is weakly correlated with the artificial evaluation score.ROUGE method has a certain degree of semantic loss for different length datasets,andthe length of the summary and the original annotation error of the datasets will also have an important impact on the final evaluation score.The calculation method of semantic loss rate defined in this paper can provide a certain reference for better selection ofdatasets and evaluation methods,provide a direction of thinking for improving evaluation methods,and also provide certain aguidance and help for the effectiveness of the final objective evaluation model.Key words:text summarization;evaluation method;semantic-loss rate;dataset bias2023年第3期是因为模型学习到了一些虚假相关的统计线索。之后研究者相继提出了 METERO10-12以及 ROUGE变体13-14等改进的评价方法。但上述评价方法只是基于N-gram重叠词组进行质量评测,且被认为与人工评测差距较大。后来也出现了BEER等15依赖人工标注的指标,但是其难以应对不同领域的大量评测需求。赖华等人16提出了基于多粒度特征的文本生成评价方法,但其方法只针对于越南语、泰语等小语种,局限性较大。传统ROUGE评测方法只考虑参考摘要与生成摘要之间的N元重叠词组,忽略了生成摘要的语义表达和语法结构以及参考摘要与生成摘要的语义联系,且ROUGE被多次认为与人工评测分数差距过大,缺乏一定的科学性与客观性17,因此 ROUGE提出者也在ROUGE-N的基础上提出了基于最长公共子序列(ROUGE-L)和基于skip-grams(ROUGE-S)的指标,这在一定程度上缓解了采用ROUGE评测存在的词序缺陷,但依旧是依靠指定长度重叠词进行摘要质量评测。因此本文从词义角度出发,定义语义损失率等指标,用以分析摘要评测时对异词同义词和一次多义词地忽略程度,同时考虑摘要长度和数据集偏差,深度挖掘ROUGE评测方法与人工评测方法分数存在差距的内在原因,为更客观合理地评价生成的摘要质量提供一定帮助,同时也为最终评测模型有效性提供一定的参考依据。1方法介绍1.1ROUGEROUGE是2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动生成的文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得到相应的分值,以衡量自动生成的摘要或翻译的质量。ROUGE方法计算公式为:ROUGE-N=SReferenceSummariesgramnSCountmatch(gramn)SReferenceSummariesgramnSCount(gramn)(1)其中,N 表示参考摘要和生成摘要重叠 N 元词数,ReferenceSummaries表示参考摘要,Count(gramn)表示参考摘要基本单元数,Countmatch(gramn)表示生成摘要和参考摘要之间的重叠单元数。1.2WMD词移距离(Word Mover s Distance,WMD)算法是 Kusner 等人18将词向量嵌入技术与 EMD(EarthMove s Distance)距离19相结合所提出的计算文本相似度的算法。该算法把文本中的单词表示为向量形式,通过计算一篇文档中所有词转移到另一篇文档的最短距离,从而得到2篇文档之间的语义相似度,词移距离与语义相似度呈反比。WMD 算法利用Word2vec20中的语义信息,通过挖掘不同词之间的语义相关性,能够较好计算出词语之间的语义共现精确度,从而获取文档之间的语义相似度。WMD算法计算公式为:WMD(D,D)=minT 0i,j=1nTijc(i,j)(2)|j=1nTij=di()i 1,n i=1nTij=dj()j 1,n(3)式(2)中,WMD(D,D)表示文档D与文档D之间词移的最小距离,距离越长,两者相似度越低;Tij表示文档D中的第i个单词与文档D中第j个单词的距离设定权重参数;c(i,j)表示向量化后文档D中第i个词与文档D第j个词的欧氏距离,通常用此距离表示2词的转移代价。式(3)为WMD算法约束条件,di为文档D中的第i个单词的权重参数,其要求文档D中的第i个单词对应到D文档中所有词的权重值和等于di;同时,文档D中的第j个单词对应到D文档中所有词的权重值和等于dj。文档中的单词权重di计算由TF-IDF21算法训练得出。1.3语义损失率针对ROUGE评价方法只基于N-gram重叠词计算摘要分数的缺陷,本文定义语义损失率(SematicLoss,SL)来表示ROUGE评测中对异词同义的损失程度。使用Wiki百科预训练词向量模型,对中文单词进行词向量化。定义单条参考摘要为sum_r,其由m个单词组成,找到所有单词对应的词向量表示后将句子表示为(vector1,vector2,vectorm);定义单条生成摘要为sum_g,其由n个单词组成,找到所有单词对应的词向量表示后将句子表示为(vector1,vector2,vectorn)。本文对 2 个摘要句子的词进行词组配对,生成MN的矩阵词对,计算矩阵内所有词组组合的余弦相似度,生成矩阵词组相似度矩阵,如式(4)所示。如果2词不同但相似度超过设定阈值,即认为2词词义相近。统计矩阵内余弦相似度超过阈值的词组数量K,把该值和总词组数的比值