温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
完备
视图
在线
反向
正则
化聚类
2023 年第 5 期计算机与数字工程收稿日期:2022年11月12日,修回日期:2022年12月17日基金项目:陕西省教育厅服务地方专项项目(编号:19JC036)资助。作者简介:邓万宇,男,博士,教授,硕士生导师,研究方向:数据挖掘与机器学习。耿美娜,女,硕士研究生,研究方向:数据挖掘与机器学习。李建强,男,硕士研究生,研究方向:计算机视觉与数据挖掘。1引言现今,随着信息技术、计算机技术以及互联网技术的迅速发展,获取数据的方式越来越多,人们已经进入了大数据时代。大数据在国内外已经如火如荼的发展起来,在各个领域都在渗透,近年来,人们对于数据信息价值性和可靠性都有着较高的要求,在大数据的时代背景下,每天都会产生各种形式的数据,包括文字、图片、视频以及音频,这些数据优势是规模大、种类多、要求实时性强。在当今大数据时代,同一数据对象往往可以在不同的视图下进行描述,所获取的数据常常可以由多个特征集合进行表示,不同视图下的观测揭示了事物的不同属性,这类数据通常被称为多视图数据2。多视图数据的学习主要是在聚类这个背景下被研究,对于此类多视图的研究被称为多视图学不完备多视图的在线反向图正则化聚类邓万宇耿美娜李建强(西安邮电大学计算机学院西安710121)摘要在如今的大数据时代,多视图数据引起了越来越多的关注,对多视图聚类的假设是所有视图都是完整的,然而,这种假设在实际应用中很难得到满足。因此不完备多视图聚类是一个重要挑战。针对大规模的不完备多视图数据,考虑到其数据的特征,利用互补性和一致性,论文提出了一种基于非负矩阵分解的在线反向图正则化聚类方法,首先利用加权非负矩阵分解作为基础模型,考虑到缺失实例的影响,引入一个动态权重矩阵;其次,学习所有视图的潜在特征矩阵并得到一个共识矩阵;同时,考虑到挖掘数据的局部结构,在基础模型上增加反向图正则化项;最后,对于大规模的数据,分块处理多视图数据以减少内存需求。在四个真实的数据集上进行了大量实验证明了所提出的方法的有效性。关键词多视图聚类;在线算法;不完备多视图;非负矩阵分解中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.05.006Online Reverse Graph Regularized Clustering forIncomplete Multi-viewDENG WanyuGENG MeinaLI Jianqiang(School of Computer Science and Technology,Xian University of Post and Telecommunications,Xian710121)AbstractIn todays era of big data,multi-view data has attracted more and more attention.The assumption of multi-viewclustering is that all views are complete.However,this assumption is difficult to meet in practical application.Therefore,incomplete multi-view clustering is an important challenge.For large-scale incomplete multi-view data,considering the characteristics ofthe data,using complementarity and consistency,this paper proposes an online reverse graph regularization clustering methodbased on non-negative matrix factorization.Firstly,weighted non negative matrix factorization is used as the basic model,and a dynamic weight matrix is introduced considering the influence of missing examples.Secondly,the potential feature moments of allviews are learned.At the same time,considering the local structure of the mining data,the regularization term of reverse graph isadded to the basic model.Finally,for large-scale data,multi view data is processed in blocks to reduce the memory requirement.Experiments on four real datasets show the effectiveness of the proposed method.Key Wordsmulti-view clustering,online algorithm,incomplete multi-view,non-negative matrix factorizationClass NumberTP391总第 403期2023 年第 5期计算机与数字工程Computer&Digital EngineeringVol.51No.51005第 51 卷习3,目前,多视图学习在机器学习、数据挖掘、人工智能等不同领域得到了广泛的研究46。在这些视图中,每一个视图可以满足于特定的数据分析任务需求,不同视图之间通常包含互补的信息。类似于我们所倡导的多视图看问题的思维,机器学习如何综合利用多视图数据建立性能更为有效的学习模型,从而服务于人类的生活和工业生产,具有重要的理论意义和广泛的应用前景。在多视图的聚类中,存在一些实际问题,往往假设这个数据是完整的,然而在实际应用中,可用的多视图数据是不完备的,即意味着缺少某些视图的功能,这对多视图聚类带来了很大的困难。如何处理不完全多视图数据并从中挖掘到该类数据的共享信息,利用多视图数据的一致原则以及互补原则完成多视图聚类任务,已经引起机器学习领域研究人员的广泛关注。如果对于这类不完备多视图数据直接进行聚类分析,则会丢失很多的信息,因此,首先要对不完备多视图数据进行分析处理,再对数据进行聚类。显然,现有的多视图聚类方法无法将不完备视图的多视图数据聚类,因为无法学习通用相似图或者所有视图的低维表示。此外,多个视图之间由于缺少配对视图可用的补充信息,因此视图非常有限。这些因素使得不完备多视图数据的研究成为一个挑战。对这类不完备多数图数据集上进行聚类称为不完备多视图聚类712。因此,本文的研究对象是不完备的多视图数据,关注如何能够更好地处理的不完备的多视图数据,聚焦不完备多视图技术的相关技术。同样,在上述中解决的不完备多视图数据都是离线的,没有考虑到大规模的一些数据问题,其不能直接存放在内存中,并且很难离线处理。对于这个问题的处理,到目前为止,针对此问题已经提出了两种解决方法1314。对于处理这种大规模的不完备多视图数据,本文提出了一种基于非负矩阵分解1520的在线反向图正则化算法(Nonnegative matrix factorization algorithm based on online inverse graph regularization:IMC_OIRG)方法。本文提出的IMC_OIRG算法,主要具有以下优点:1)当数据太大而不能放入内存中时,依旧可以处理不完备多视图数据,即可以最小化不完备多视图数据对聚类结果的影响。2)对于这种数据过大的数据,依旧可以将不同特征空间的各种视图进行组合,根据其一致性和互补性,能够使得可以获得更好的聚类结果。3)将非负矩阵分解与反向图正则化进行结合,保证多视图局部结构的一致性,使得不完备多视图数据能够进一步对齐,使得能够得到更好的公共潜在特征表示。2相关工作2.1问题描述对于不完备多视图聚类,简要描述问题的表述,假定给出一个有N个样本nv个视图的数据集X(k)RDkN+k=12nv,在本文中定义一个指示矩阵BRnvN。Bij=1 if jt instance in te it view0oterwise(1)其中,B的每一行代表一个视图的存在。若多视图数据是完备的,每个视图包含所有的实例,则B为一个全1矩阵,即j=1NBij=Nk=12nv。若多视图数据是不完备的,数据矩阵X(k)将有许多行缺失,即指示矩阵表示为j=1NBijNk=12nv。本文的目标为将不完备多视图数据的N个实例聚类成K个聚类。2.2相关工作OPIMC14为解决不完备多视图聚类问题提出了一个框架,借助于正则化矩阵分解和加权矩阵分解,将数据矩阵X(k)RdkN分解为两个矩阵G(k)RDkK和F(k)RNK,同时令F(k)2F=N,为了考虑到不同视图之间的一致性信息,假设不同的矩阵G(k)nvk=1,共享相同的矩阵F。同时还考虑到实例的缺失信息,借助加权矩阵分解来处理每个视图的不完备性。对于大量的不完备多视图数据,假设每个视图都是通过块获得的,并且块的大小为s,最终目标函数表示为=k=1nvt=1Ns()X(k)tG(k)FTtP(k)t2F+G(k)2Fs.t.Fij01j=1KFij=1i=12N(2)X(k)t是第k个视图的第t个数据块,Ft是第t个数据块的聚类指示矩阵,P(k)t是第t个数据块的对角权重矩阵。权重矩阵P()k被定义为邓万宇等:不完备多视图的在线反向图正则化聚类10062023 年第 5 期计算机与数字工程P(k)jj=1 if te kt view contains te it sample0oterwise(3)3算法模型在本节中,提出了 IMC_OIRG算法,处理大规模的不完备多视图数据,利用动态权重学习推断缺失的视图,同时,利用反向图正则化进一步对齐视图,学习局部特征,来实现有效的公共表示学习。3.1算法提出与模型构建给定nv个视图,N个样本的不完备多视图数据X(k)RDvN+k=12nv,使用非负矩阵分解的模型进行分解,将X(k)RDvN+分解为两个矩阵G(k)RDvK+和F(k)RNK+,分别表示为第k个视图的基矩阵和潜在特征矩阵。其中,K表示为聚类的目标数,目标函数可以写成如式(4)所示。minG(k)F(k)=k=1nvX(k)G(k)F(k)T2Fs.t.G(k)0 F()k0k=12nv(4)在此基础上,由于不完备多视图数据的特点,目标函数无法直接进行优化,简单的填充实例不能很好地解决这个问题。因此,本文利用加权非负矩阵分解的思想,引入一个对角权重矩阵P(k)RNN,其中,p(k)ii表示为第k个视图的第i个实例,同时,对于在视图中出现的实例权重赋予1,对于视图中缺失的实例赋予较低的权重。因此,目标函数式(5)表示为minG(k)F(k)=k=1nv()X(k)G(k)F(k)TP(k)2Fs.t.G(k)0 F()k0k=12nv(5)本节的目标为找到每个视图的潜在特征矩阵和一个共同的共识,这个共识矩阵表示了所有的视图的综合信息。因此,目标函数式(6)可以被重新写为minG(k)F(k)F*=k=1nv()X(k)G(k)F(k)TP(k)2F+k=1nv1(k)P(k)()F(k)F*2Fs.t.G(k)0 F()k0F*0k=12nv(6)其中,1(k)表示为重建误差与学习到的第k个视图的共识一致性不一致之间的权衡参数。在上述式(6)中,不仅对于不同的视图分配了不同的权重,而且表示出了一致的共识矩阵,对于不完备视图的性质,为了加强潜在特征矩阵的稀疏性,仍添加一项l1范数。同时