分享
基于多层语义融合的结构化深度文本聚类模型.pdf
下载文档

ID:3081074

大小:1.90MB

页数:6页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 多层 语义 融合 结构 深度 文本 模型
2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2364-2369ISSN 10019081CODEN JYIIDUhttp:/基于多层语义融合的结构化深度文本聚类模型马胜位1,2,黄瑞章1,2*,任丽娜1,2,林川1,2(1.公共大数据国家重点实验室(贵州大学),贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)(通信作者电子邮箱)摘要:近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract 这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。关键词:深度文本聚类;逐层语义增强;文本语义信息;图神经网络;自监督学习中图分类号:TP391.1 文献标志码:AStructured deep text clustering model based on multi-layer semantic fusionMA Shengwei1,2,HUANG Ruizhang1,2*,REN Lina1,2,LIN Chuan1,2(1.State Key Laboratory of Public Big Data(Guizhou University),Guiyang Guizhou 550025,China;2.College of Computer Science and Technology,Guizhou University,Guiyang Guizhou 550025,China)Abstract:In recent years,due to the advantages of the structural information of Graph Neural Network(GNN)in machine learning,people have begun to combine GNN into deep text clustering.The current deep text clustering algorithm combined with GNN ignores the important role of the decoder on semantic complementation in the fusion of text semantic information,resulting in the lack of semantic information in the data generation part.In response to the above problem,a Structured Deep text Clustering Model based on multi-layer Semantic fusion(SDCMS)was proposed.In this model,a GNN was utilized to integrate structural information into the decoder,the representation of text data was enhanced through layer-by-layer semantic complement,and better network parameters were obtained through triple self-supervision mechanism.Results of experiments carried out on 5 real datasets Citeseer,Acm,Reutuers,Dblp and Abstract show that compared with the current optimal Attention-driven Graph Clustering Network(AGCN)model,SDCMS in accuracy,Normalized Mutual Information(NMI)and Average Rand Index(ARI)has increased by at most 5.853%,9.922%and 8.142%.Key words:deep text clustering;layer-by-layer semantic enhancement;text semantic information;graph neural network;self-supervised learning0 引言文本聚类1是一项处理无标签数据的文本分析任务,它将相似的文本数据分组到同一类簇中。传统的文本聚类算法难以处理高维的文本数据集,不能对高维文本数据集进行非线性关系的映射处理,于是,基于深度学习的文本聚类算法引起了众多学者的关注。深度文本聚类本质上可以看作是使用自动编码器(AutoEncoder,AE)预训练获取低维的特征表示以及无监督学习微调的一个过程,其关键在于从数据本身提取有用的特征表示。近几年,随着图神经网络(Graph Neural Network,GNN)2在机器学习中的突出表现,人们开始将GNN与深度聚类相结合,考虑文本数据之间的结构关系,利用这种结构信息来揭示文本潜在的相似性,增强数据映射。尽管在深度文本聚类中成功融合了结构信息,但对图结构信息的使用仍然存在局限性。图结构作为样本相似信息的一种表示,目前在聚类中的应用是将结构信息融合到编码部分,未考虑结合解码部分,然而自动编码器的解码部分作为聚类生成的主要模块,仅以样本自身信息重构语义,忽略样本之间的相似信息,可能会导致在数据重构时出现编码特征被破坏、语义信息丢失等问题,进一步影响聚类性能。为了在数据重构时同时考虑数据的语义信息和结构信息,在编码层和解码层进行结构信息的逐层融合是必要的。针对上述分析,本文设计了一种基于多层语义融合的结构化深度文本聚类模型(Structured Deep text Clustering Model 文章编号:1001-9081(2023)08-2364-06DOI:10.11772/j.issn.1001-9081.2022091356收稿日期:20220912;修回日期:20221013;录用日期:20221017。基金项目:国家自然科学基金资助项目(62066007)。作者简介:马胜位(1999),女,贵州紫云人,硕士研究生,CCF会员,主要研究方向:自然语言处理、深度聚类;黄瑞章(1979),女,天津人,教授,博士,主要研究方向:自然语言理解、数据融合分析、文本挖掘、知识发现;任丽娜(1987),女,辽宁阜新人,讲师,博士研究生,CCF会员,主要研究方向:自然语言处理、文本挖掘、机器学习;林川(1975),男,四川自贡人,副教授,硕士,主要研究方向:文本挖掘、机器学习、大数据管理与应用。第 8 期马胜位等:基于多层语义融合的结构化深度文本聚类模型based on multi-layer Semantic fusion,SDCMS),该模型在编码层和解码层都融入图结构信息,以此来丰富语义特征的学习,避免语义信息的丢失。首先,引入特征表示提取模块,通过构建自动编码器来获取文本数据本身的特征表示;其次,引入结构信息获取模块,利用图卷积网络(GCN)学习文本的图结构信息,建立一个逐层融合策略,将文本数据携带的特征信息逐层融入GCN中;最终,以GCN生成的重构信息对文本语义信息进行补充和增强。同时,本文设计了一个三重自监督模块,来指导模型参数的更新。本文的主要工作如下:1)考虑了解码层对语义补足的重要性,使用GCN模块引入数据的结构信息,将结构信息集成到解码层的特征信息中,补充语义信息,增强文本数据的表示。2)设计了一个三重自监督模块来统一自动编码器和GCN模型,使它们学习更好的数据表示,并对模型进行端到端的训练,帮助更新整个网络的参数。3)在真实数据集上对模型进行验证,结果表明SDCMS的聚类性能更好。1 相关工作 本章主要介绍最相关的工作:深度聚类和使用GCN的图聚类。深度聚类方法旨在将深度表征学习与聚类目标相结合。例如,深度聚类网络(Deep Clustering Network,DCN)3将自动编码器和 k-means 算法4结合,预先训练一个自动编码器(AE),而后将优化重构损失和 k 均值损失。深度嵌入聚类(Deep Embedding for Clustering,DEC)5使用神经网络同时学习特征表示和聚类分配,学习从高维数据空间到低维特征空间的映射,并通过构造辅助分布将无监督聚类转化为有监督聚 类 目 标。变 分 深 度 嵌 入(Variational Deep Embedding,VaDE)6是一个基于变分自编码器(Variational Auto-Encoder,VAE)7的非监督生成聚类方法,它使用一个高斯混合模型和一个深度神经网络来建模数据生成的过程。图是一种由若干个节点及链接两个节点的边所构成的图形,用于刻画不一样节点之间的关系,是一种非欧空间。传统的卷积神经网络仅能处理欧氏空间数据,很难应用于图数据。GNN最初是为了解决一些严格意义上的图论问题。目前最经常使用的GCN是GNN的一个分支。2013年,Bruna等8首次提出基于频域和基于空域的两种图卷积神经网络分类方法。为了处理数据背后的结构信息,一些基于GCN的聚类方法得到了广泛的应用。例如,变分图自动编码器(Variational Graph Auto-Encoder,VGAE)9,使用GCN作为编码器,对图经过编码器学到节点向量表示的分布进行采样;对抗正则化变分图自动编码器(Adversarially Regularized Variational Graph Autoencoder,ARVGA)10将对抗性方法引入VGAE,使得低维的输出尽可能地保留原始图拓扑结构信息和节点特征信息;边缘图自编码器(Marginalized Graph AutoEncoder,MGAE)11是一种将边缘化过程与图形上的光谱卷积相结合的自动编码器;图协议模型(Graph Agreement Models,GAM)12引入了一个辅助模型,该模型预测两个节点共享相同标签的概率作为其特征的学习函数;深度邻居感知嵌入式节点聚类(Deep Neighbor-aware Embedded Node Clustering,DNENC)13模型侧重于属性图,以充分探索图中信息的两侧,对图数据进行聚类;结构深度聚类网络(Structural Deep Clustering Network,SDCN)14,将自动编码器和GCN结合,实现特征信息与结构信息的结合;注意力驱动的图形聚类网络(Attention-driven Graph Clustering Network,AGCN)15提出了两个融合模块,即逐层融合模块和逐尺度融合模块,分别合并了来自同一层的GCN特征和AE特征以及来自不同层的多尺度特征。但这些模型只考虑在编码层部分进行融合,忽略了解码层的学习,使解码层不能利用图形的特征,导致语义缺失的问题。2 SDCMS设计 SDCMS总体框架如图1所示。2.1特征表示提取模块对于不同类型的数据,可以使用不同的无监督学习方法,如去噪自动编码器16、卷积自动编码器17、长短期记忆(Long Short-Term Memory,LSTM)自动编码器18和对抗式自动编码器19。为了通用性,本文使用基本的自动编码器20来学习原始数据的表示。编码层学习的表示如下:H(l)e=(W(l)eH(l-1)+b(l)e)(1)其 中:是 全 连 接 层 的 激 活 函 数 ReLU(Rectified Linear Unit)21,W(l)e和b(l)e分别是编码器中第l层的权重矩阵和偏置。解码器的输出与编码器类似,公式如下:H(l)d=(W(l)dH(l-1)+b(l)d)(2)其中:W(l)d和b(l)d分别是解码器中第l层的权重矩阵和偏置;H(l-1)表示自动编码器第l-1层学到的特征表示。2.2结构信息获取模块结构信息揭示了数据样本之间潜在的相似性,利用结构信息可以有效丰富语义特征的学习。本文考虑将解码层学习图1SDCMS总体框架Fig.1Overall framework of SDCMS2365第 43 卷计算机应用到的特征表示与结构信息相融合,充分利用样本数据的互补性,实现文本数据的语义增强。2.2.1图结构构建文本数据集一般包括文本数据类型和图结构数据类型两种类型。对于图结构数据类型的数据集,只需要使用它本身的图结构实验,而对于文本数据类型的数据集,本文使用KNN(K-Nearest Neighbor)将文本数据转换为图结构数据,获取其邻接矩阵A。首先利用如下公式计算文本数据之间的相似性:Sij=xTjxi(3)在计算相似矩阵后,选取每个样本的K个相似点作为其近邻,构造无向k近邻图。这就可以从非图数据中得到邻接矩阵A。Aij=aij 0,eij=0,其他(4)若图中存在一条连接顶点vi与vj的边eij,则aij 0;否则为0。2.2.2逐层融合策略GCN专门用来处理图结构的数据,使用卷积的方法从图数据中提取特征,因此可以利用GCN模型来学习结构信息。通过以下卷积运算可获得GCN第l层学习的表示:Z(l)=(D-1/2AD-1/2Z(l-1)W(l-1)(5)式中:D为度矩阵,表示每个节点的度的个数;A=A+I,Dij=jAij,I是单位矩阵。为了使GCN学习到的表示包含更多有价值的信息,本文设计了一个逐层融合策略。将文本数据的特征表示逐层集成到GCN,则GCN可学习表示两种不同类型的信息,即数据本身和数据之间关系的信息。对于编码层学习的表示H(l-1)e,首先让它与GCN中l-1层学习到的结构信息相结合,公式如下:Z(l-1)e=12Z(l-1)+12H(l-1)e(6)其次使用Z(l-1)e作为GCN层中第l层的输入,将结构信息集成到编码层,公式如下:Z(l)e=(D-1/2AD-1/2Z(l-1)eW(l-1)(7)将结构信息集成到解码层的步骤与上述相似,先将解码层学习的表示H(l-1)d与结构信息叠加,表示为:Z(l-1)d=12Z(l-1)+12H(l-1)d(8)再将Z(l-1)d作为解码层所对应GCN的第l层的输入,公式如下:Z(l)d=(D-1/2AD-1/2Z(l-1)dW(l-1)(9)最后对原始数据进行重构,具体表示为:Z=12Z(L)d+12X(10)其中:X为自编码器的重构数据,L 表示 GCN 最后一层的层数。这样将编码层和解码层的特征表示与结构信息逐层连接起来,既加强了数据的特征映射,又丰富了语义特征的学习,有效避免了语义信息的缺失。2.3三重自监督模块自动编码器主要用于数据学习表示是无监督学习,而传统的GCN层则是半监督学习。本文定义了一个三重自监督模块来统一自动编码器和GCN两种不同的神经网络,对两种神经网络进行端到端的聚类训练。首先分别在自动编码器和GCN层使用学生t-分布22来衡量样本H(i)和Z(i)与聚类中心j之间的相似性,表示为Q1和Q2,如下所示:Q1ij=()1+hi-j2v-v+12j()1+hi-j2v-v+12(11)Q2ij=()1+zi-j2v-v+12j()1+zi-j2v-v+12(12)其中:j是由k-means初始化得出,v是学生t-分布的自由度,Qij为将样本i分配给簇j的概率。使用学生t-分布可以很好地解决高维数据映射到低维数据时发生的重叠问题。学生t-分布的横轴表示距离,纵轴表示相似度,由于t-分布的拖尾效果比高斯分布强,使得高维空间中距离较大的点在低维空间中的映射也能保持一个较大的距离,即对于低相似度的点,t-分布在低维空间中的距离需要更远,从而缓解重叠问题。其次,利用辅助分布Q2构造目标分布P,从高置信度任务中迭代细化聚类,公式如下:pij=Q22ij/fjjQ22ij/fj(13)其中:fj=iQij是软集群频率。使用目标分布P可以帮助自编码器层和GCN层模块学习更好的聚类表示,即数据表示更靠近聚类中心。因此使用分布P来监督分布Q1与Q2:LDNN=KL()PQ1=i jpijlnpijQ1ij(14)LGCN=KL()PQ2=i jpijlnpijQ2ij(15)此外,式(9)得到的重构数据Z不仅在文本语义上有丰富的学习,还能保持数据的局部结构。因此,本文使用最小化损失函数对整体网络进行训练,定义如下:Lres=12Ni=1Nxi-xi22=12NX-Z22(16)其中:为L2范数,X为原始数据,N为样本数。Lres值越小,说明预测模型拥有更好的精确度。通过三重自监督模块,SDCMS将不同的目标集中在一个损失函数中,该模型的总体损失函数为:L=Lres+Ldnn+LGCN(17)其中:,0,是调解重构数据聚类优化的系数,是平衡原始数据聚类优化和局部结构保存的超参数,是控制图卷积网络模块对特征空间的干扰的系数。模型的整体流程如算法1所示。算法 1 基于多层语义融合的结构化深度文本聚类算法。输入 文本数据集X;邻接矩阵A;聚类个数K;最大迭代次数MaxIter;输出 文本聚类结果R。1)预训练AE模型,初始化参数W(l)e,b(l)e,W(l)d,b(l)d;2)使用kmeans初始化聚类中心;3)随机初始化W(l);4)for iter 0,1,MaxIter do5)获取特征表示 H(1),H(2),H(L 2),H(L)2366第 8 期马胜位等:基于多层语义融合的结构化深度文本聚类模型6)通过式(11)使用H(L 2)生成辅助分布Q1;7)for l 1,2,L do8)Z=12Z(l)+12H(l)9)使用式(7)生成GCN下一层的表示;10)end11)通过式(12)使用Z(L 2)生成辅助分布Q212)由Q2计算得到目标分布P13)通过式(10)重构原始数据14)计算损失函数Lres,Ldnn,LGCN15)使用式(17)计算总体损失函数;16)更新模型整体参数;17)end18)计算聚类结果R3 实验与结果分析 本章分析实验数据集,并在此基础上验证 SDCMS 的效果,分别从3个部分进行描述:数据集描述和评估方法、模型参数设置,以及结果和分析。3.1数据集及评估方法本次实验使用5个数据集来验证模型的有效性。表1展示了数据集的详细信息。详细描述如下。1)Citeseer数据集14是一个包含每个文档的稀疏单词特征向量包和文档之间的引用链接列表的一个引用网络,其标签包含6个领域:代理、人工智能、数据库、信息检索、机器语言和人机交互。2)Acm数据集23是从KDD(Knowledge Discovery and Data mining)、SIGMOD(Special Interest Group on Management Of Data)、SIGCOMM(Special Interest Group on data COMMunication)、MobiCOM(the annual international conference on Mobile COMputing and networking)和 VLDB(Very Large Data Base)上提取论文,并将论文分为三类(数据库、无线通信、数据挖掘)。3)Dblp数据集23将作者划分为4个领域:数据库、数据挖掘、机器学习和信息检索。根据每位作者提交的会议,为他们的研究贴上标签,作者特征的关键词是由词袋模型中的元素。4)Reuters数据集24是一个文本数据集,包含约81万篇新闻故事,使用公司、政府、市场和经济作为标签,本文随机抽取10 000个样本进行聚类。5)Abstract数据集25是一个文本数据集。从Aminer网站上下载发表的研究论文,使用了每篇论文的摘要。这些文档的所有特性都通过TF-IDF方案进行了预处理,它包含3个研究领域:信息、数据库和图形。本文使用了三种测量标准来评价聚类效果,分别是准确率(Accuracy,ACC)、归一化互信息(Normalized Mutual Information,NMI)26和平均兰德指数(Average RAND Index,ARI)。3.2参数设置本文使用自动编码器对每个数据集进行预训练,学习率设置为10-3。自动编码器和GCN中各层的维度设置为d-500-500-2000-10,其中d为数据集的维度。对SDCMS进行100次训练,batch_size设置为256。对于Acm、Dblp和Abstract数据集,学习率设置为10-3,Reuters、Citeseer数据集的学习率设置为10-4。对于、分别设置为0.01、1、0.5。最后,每个结果总共运行10次,每次都取迭代训练下最后一位的值,并求其平均值,避免产生极端情况。本文选择了三类聚类模型来进行对比实验,分别是传统的聚类模型(如 k-means4)、基于单一信息表示的聚类模型(如 AE20、DEC5、GAE9)和基于融合信息的聚类模型(如SDCN14、AGCN15)。每个模型的参数按照其论文给出的最优参数进行实验。3.3聚类结果分析3.3.1对比实验表2显示了5个数据集在不同聚类模型下的聚类结果,分析如下。对于每个指标,SDCMS在5个数据集中基本上都取得了优秀的结果,与传统的聚类模型和基于深度神经网络(Deep Neural Network,DNN)的聚类模型相比,SDCMS的 ACC都是最高的,这表明对于只关注数据本身特征的聚类模型,将结构信息引入到深度聚类中SDCMS有明显的优势,可利用每个文本的近邻来丰富语义特征的学习。与最优的对比模型AGCN相比,SDCMS 在 ACC、NMI 和 ARI 上最多提升了 5.853%、9.922%和 8.142%。这是由于 SDCMS考虑到解码层对语义补充的重要性,将结构信息集成到解码层中,利用文本的近邻丰富语义特征的学习;设置的三重的自监督模块可以更好地指导整个模型进行端到端的学习。3.3.2消融实验1)结构信息与特征表示相结合的有效性。为了验证解码层学习到的表示在特征融合中起到的作用,本文在Citeseer、Acm、Reuters和Dblp这4个数据集上进行测试。如表3所示,SDCMS-d指没有将自动编码器的解码层学习的表示传到GCN层。可以看出,SDCMS-d聚类效果低于SDCMS,如果没有传递解码层学习到的表示,聚类效果会出现表1数据集详细信息Tab.1Dataset details数据集CitesserAcmDblp样本数3 3273 0254 058维度3 0731 870334类别634数据集ReutersAbstract样本数10 0004 306维度2 00010 000类别43表2不同模型的聚类效果对比Tab.2Comparison of clustering results of different models模型k-meansAEDECGAESDCNAGCNSDCMSCiteseerACC0.431 30.570 80.523 30.613 50.628 00.627 00.663 7NMI0.207 30.276 40.282 10.346 30.348 90.360 80.396 6ARI0.155 40.293 10.242 10.335 50.358 20.369 70.399 8AcmACC0.673 10.809 60.847 30.845 20.893 20.903 80.918 3NMI0.327 60.465 70.591 80.553 80.649 10.682 30.722 8ARI0.308 00.518 00.609 80.594 60.710 30.736 90.774 5ReutersACC0.540 20.713 40.731 20.544 00.758 90.767 90.785 1NMI0.423 90.498 50.502 60.259 20.476 70.514 20.528 4ARI0.285 80.557 10.548 60.196 10.515 90.538 00.561 2DblpACC0.384 30.514 30.581 60.612 10.669 50.667 20.669 7NMI0.111 90.254 00.295 10.308 00.316 70.332 40.348 6ARI0.067 40.122 10.239 20.220 20.334 30.346 60.319 9AbstractACC0.691 80.852 10.868 70.873 70.930 30.934 30.943 8NMI0.382 60.580 50.603 60.590 00.729 00.746 50.781 4ARI0.276 90.598 90.641 20.653 20.791 10.810 90.836 22367第 43 卷计算机应用下跌的现象。这表明,在编码层进行特征融合可以对语义信息进行补足,解码层的特征表示也可以缓解GCN层出现的过度平滑问题,进而提升聚类效果。2)不同传播层的影响。为了研究解码层所对应的GCN层数对SDCMS模型是否有影响,本文将该部分的GCN层数分别设置为0、1和4,并保持自动编码器的层数不变。进行聚类实验,聚类具体结果如表4所示。从表4可以看出,随着GCN层数的增加,聚类的效果越好。这是因为自动编码器中每一层学习到的表示是不同的,只有两者的层数达到一致时,才尽可能多地保留数据的特征信息,从而增强语义的补充。表4不同GCN层数的聚类精度Tab.4Clustering accuracy of different GCN layer numbers数据集CiteseerAcmReuters层数014014014ACC0.618 00.627 90.663 70.893 20.907 10.917 40.758 90.754 60.785 1NMI0.348 90.363 40.396 60.649 10.708 50.718 20.476 70.500 00.528 4ARI0.358 20.364 80.399 80.710 30.748 60.771 50.515 90.488 70.561 2为了更明显地看出GCN层数对SDCMS模型的影响,使用Citeseer数据集和Acm数据集对聚类结果进行可视化展示,如图2所示。从图中可以看出,随着层数的增加,类簇分布越来越清晰。尤其当自编码器的层数和GCN的层数一致,即为4层时,聚类效果最为明显。图2不同GCN层数的聚类可视化Fig.2Clustering visualization of different GCN layer numbers3)不同分布对聚类精度的影响。SDCMS中3个分布的聚类精度随着迭代次数改变的变化规律如图3所示。对比Q1、Q2和P这3个分布的聚类精度,可以发现图中3个分布在迭代开始时有明显的波动,这是因为自动编码器和GCN学习到的信息不同,在融合时会引起两者结果的冲突,使得聚类结果的不稳定。随着迭代次数的增加,3个分布的聚类精度出现平缓上升趋势,其中P分布的聚类精度一般都高于其他两者。这是因为P分布起到缓解自动编码器和GCN之间冲突的表3不同结构的聚类精度Tab.3Clustering accuracy of different structures数据集CiteseerAcmSDCMS0.663 70.918 3SDCMS-d0.641 50.907 4数据集ReutersDblpSDCMS0.785 10.669 7SDCMS-d0.724 50.638 9图3不同分布的聚类精度Fig.3Clustering accuracy of different distributions2368第 8 期马胜位等:基于多层语义融合的结构化深度文本聚类模型作用,进而指导整个模型的更新,同时也表明SDCMS具有很好的鲁棒性。Reuters数据集的聚类精度出现轻微的下降趋势,是由于Reuters数据集的图结构中不同类别的节点连接在一起,导致包含了很多错误的结构信息,使得聚类精度出现下降。4 结语 本文提出了一种基于多层语义融合的结构化深度文本聚类模型SDCMS,将结构信息逐层集成到编码层和解码层中,增强了文本语义的补充学习,有效避免了传统深度聚类模型中语义缺失的问题。本文在5个真实数据集上进行实验,结果证明SDCMS比对比的深度文本聚类模型的效果更好;但由于图结构信息包含噪声,对聚类过程产生干扰。因此,如何避免聚类过程中噪声干扰的问题,是未来研究的一个方向。参考文献(References)1 AGGARWAL C C,ZHAI C X.A survey of text classification algorithmsM/Mining Text Data.Boston:Springer,2012:163-222.2 KIPFT N,WELLING M.Semi-supervised classification with graph convolutional networksEB/OL.(2017-02-22)2022-09-25.https:/arxiv.org/pdf/1609.02907.pdf.3 YANG B,FU X,SIDIROPOULOS N D,et al.Towards K-means-friendly spaces:simultaneous deep learning and clusteringC/Proceedings of the 34th International Conference on Machine Learning.New York:JMLR.org,2017:3861-3870.4 HARTIGAN J A,WONG M A.Algorithm AS 136:a K-means clustering algorithmJ.Journal of the Royal Statistical Society.Series C(Applied Statistics),1979,28(1):100-108.5 XIE J Y,GIRSHICK R,FARHADI A.Unsupervised deep embedding for clustering analysisC/Proceedings of the 33rd International Conference on Machine Learning.New York:JMLR.org,2016:478-487.6 JIANG Z X,ZHENG Y,TAN H C,et al.Variational deep embedding:an unsupervised and generative approach to clusteringC/Proceedings of the 26th International Joint Conference on Artificial Intelligence.California:ijcai.org,2017:1965-1972.7 KINGMA D P,WELLING M.Auto-encoding variational Bayes EB/OL.(2022-12-10)2023-02-26.https:/arxiv.org/pdf/1312.6114.pdf.8 BRUNA J,ZAREMBA W,SZLAM A,et al.Spectral networks and locally connected networks on graphsEB/OL.(2014-05-21)2022-09-25.https:/arxiv.org/pdf/1312.6203.pdf.9 KIPF T N,WELLING M.Variational graph auto-encodersEB/OL.(2016-11-21)2022-09-26.https:/arxiv.org/pdf/1611.07308.pdf.10 PAN S R,HU R Q,FUNG S F,et al.Learning graph embedding with adversarial training methodsJ.IEEE Transactions on Cybernetics,2020,50(6):2475-2487.11 WANG C,PAN S R,LONG G D,et al.MGAE:marginalized graph autoencoder for graph clusteringC/Proceedings of the 2017 ACM Conference on Information and Knowledge Management.New York:ACM,2017:889-898.12 STRETCU O,VISWANATHAN K,MOVSGOVITZ-ATTIAS D,et al.Graph agreement models for semi-supervised learningC/Proceedings of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:8713-8723.13 WANG C,PAN S R,YU C P,et al.Deep neighbor-aware embedding for node clustering in attributed graphsJ.Pattern Recognition,2022,122:No.108230.14 BO D Y,WANG X,SHI C,et al.Structural deep clustering network C/Proceedings of the Web Conference 2020.Republic and Canton of Geneva:International World Wide Web Conferences Steering Committee,2020:1400-1410.15 PENG Z H,LIU H,JIA Y H,et al.Attention-driven graph clustering network C/Proceedings of the 29th ACM International Conference on Multimedia.New York:ACM,2021:935-943.16 VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and composing robust features with denoising autoencodersC/Proceedings of the 25th International Conference on Machine Le

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开