第50卷第2期2023年2月Vol.50,No.2Feb.2023湖南大学学报(自然科学版)JournalofHunanUniversity(NaturalSciences)基于事件异构图表示的文本去重算法艾玮,许佳,谢灿豪,孟涛†(中南林业科技大学计算机与信息工程学院,湖南长沙410018)摘要:基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.关键词:图核算法;事件异构图;新闻文本;文本表示;文本去重中图分类号:T391.1文献标志码:ATextDeduplicationAlgorithmBasedonEventHeterogeneousGraphRepresentationAIWei,XUJia,XIECanhao,MENGTao†(SchoolofComputerandInformationEngineering,CentralSouthUniversityofForestryandTechnology,Changsha410018,China)Abstract:Thetextrepresentationmethodbasedongraphstructurehasabettereffectinnewstextdeduplica⁃tion.However,atpresent,thisrepresentationmethodcannotfullyrepresentthecompleteinformationofthetext,andignoresthesemanticinformationofthegraph,whichreducesthededuplicationeffectofnewstext.Tothisend,thisstudyproposesatextdeduplicationalgorithmbasedoneventheterogeneousgraphrepresentation.Thealgorithmfirstrepresentstheglobalsemanticandstructuralinformationofnewstextthrougheventheterogeneousgraph,andthenproposesadual-labelgraphkernelalgorithmtorepresenteventheterogeneousgraphtorealizethestructureandsemanticinformationofthedeeprepresentationgraph.Theexperimentalresultsshowthatthededuplicationalgo⁃rithmproposedimprovestheF1-scoreindexby10%,comparedwiththeexistingtextrepresentationdeduplicationmethodbasedongraphstructure.Finally,thealgorithmcanimprovethededuplicationeffectofnewstext.Keywords:graphkernelalgorithm;eventheterogeneousgraph;newstext;textrepresentation;textdeduplica⁃ti...