2023⁃08⁃10计算机应用,JournalofComputerApplications2023,43(8):2364-2369ISSN1001⁃9081CODENJYIIDUhttp://www.joca.cn基于多层语义融合的结构化深度文本聚类模型马胜位1,2,黄瑞章1,2*,任丽娜1,2,林川1,2(1.公共大数据国家重点实验室(贵州大学),贵阳550025;2.贵州大学计算机科学与技术学院,贵阳550025)(∗通信作者电子邮箱rzhuang@gzu.edu.cn)摘要:近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。关键词:深度文本聚类;逐层语义增强;文本语义信息;图神经网络;自监督学习中图分类号:TP391.1文献标志码:AStructureddeeptextclusteringmodelbasedonmulti-layersemanticfusionMAShengwei1,2,HUANGRuizhang1,2*,RENLina1,2,LINChuan1,2(1.StateKeyLaboratoryofPublicBigData(GuizhouUniversity),GuiyangGuizhou550025,China;2.CollegeofComputerScienceandTechnology,GuizhouUniversity,GuiyangGuizhou550025,China)Abstract:Inrecentyears,duetotheadvantagesofthestructuralinformationofGraphNeuralNetwork(GNN)inmachinelearning,peoplehavebeguntocombineGNNintodeeptextclustering.ThecurrentdeeptextclusteringalgorithmcombinedwithGNNignorestheimportantroleofthedecoderonsemanticcomplementationinthefusionoftextsemanticinformation,resultinginthelackofsemanticinformationinthedatagenerationpart.Inresponsetotheaboveproblem,aStructuredDeeptextClusteringModelbasedonmulti-layerSemanticfusion(SDCMS)wasproposed.Inthismodel,aGNNwasutilizedtointegratestructuralinformationintothedecoder,therepresentationoftextdatawasenhance...