分享
基于伪标签纠正的半监督深度子空间聚类.pdf
下载文档

ID:3118737

大小:4.31MB

页数:9页

格式:PDF

时间:2024-01-21

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 标签 纠正 监督 深度 空间
书书书第 卷第 期烟台大学学报(自然科学与工程版)年 月 ()文章编号:():收稿日期:基金项目:国家自然科学基金资助项目()。通信作者:王立宏(),教授,博士,主要研究方向为数据挖掘与知识发现。基于伪标签纠正的半监督深度子空间聚类鲍兆强,王立宏(烟台大学计算机与控制工程学院,山东 烟台 )摘要:提出了一种基于伪标签纠正的半监督深度子空间聚类算法。首先利用少量已知样本标签,对分类层产生的不精确伪标签进行纠正,从而提高伪标签的精确性和稳定性;其次从已知样本标签中获得成对样本信息,通过对比学习对自表达系数矩阵进行约束来提高聚类的性能。在 个常用数据集上的实验证明,在最多 个已知样本标签的情况下,提出的子空间聚类算法性能优于目前先进的子空间聚类算法。关键词:子空间聚类;伪标签纠正;对比学习;半监督;自编码器中图分类号:文献标志码:深度学习多年来引起众多研究者的重视,因其在很多领域达到了近似人的识别和判断能力,如语音识别 、图像分类 及自动驾驶 等。深度学习被认为是非常有价值的学习方法,其多层网络结构能够通过投影变换逐渐提纯输入数据中的内在特征,最终输出希望的结果。目前深度学习的研究主要集中在分类问题等有监督的学习方面,通常以训练样本的网络实际输出和期望输出之间的差别来判断网络的训练情况,同时以正则化方法来约束模型的复杂程度,避免出现过拟合现象。在聚类等无监督学习方面,深度学习的研究相对较少。最近有研究将深度学习和无监督学习结合起来,在聚类方面得出很好的结果 。这些研究的主要思想是用深度学习来得到输入数据的高层表示,然后利用现有的算法完成聚类。这些工作的主要区别在于采用了不同的神经网络结构和目标函数。高维数据的簇结构通常存在于低维的子空间中,子空间聚类是发现高维数据真实结构的有效手段。在子空间聚类中,一个基本假设是子空间的自表达性质,即一个子空间内的点可以由该子空间内的其他点线性表示 。子空间聚类的基本思想是获取合适的自表达系数矩阵,以该矩阵构造的相似矩阵进行聚类。如果将深度学习和子空间自表达联合起来求解,就会凭借深度学习得出的高层表示和子空间聚类的自表达性质,有效发现线性子空间或非线性子空间,从而得出比目前浅子空间聚类更好的结果 。深度学习在高维数据的子空间聚类方面已有一些研究,如自编码(,)结构的神经网络 ,在编码结束时加入自表达层,编码数据输入自表达层,自表达层的输出输入解码层。要求网络输出应尽量还原输入数据(即解码功能),二者的误差项是优化的目标项之一。针对该自表达层的数据进行稀疏、低秩等正则化约束就可以达到较好的聚类结果 ,。等在实验中发现,输出不一定必须还原输入数据,这样就可以只用一个多层前向网络来不断提纯输入数据,在输出层上完成各种正则约束的子空间聚类 。本文拟从子空间聚类和深度学习相结合出发,采用对比学习和伪标签纠正机制,在训练网络时充分利用用户给定或自动获取的少量先验信息,提高聚类的性能,最后在 个测试数据集上验证所提方法的有效性。第 期鲍兆强,等:基于伪标签纠正的半监督深度子空间聚类 深度子空间聚类在缺乏数据点标签的情况下,自监督()和伪监督()是两种提高聚类性能的可行方法。自监督学习是无监督的一种方式,通常需要预设一个任务,其目标函数不需要监督信息即可计算,自监督学习可获取后续分类等任务需要的高层语义信息。等提出了自监督的卷积子空间聚类网络 ,在没有标签数据的情况下直接用谱聚类结果作为标签来监督子空间聚类和深度网络的学习。孙浩等提出一种基于自监督对比学习的深度神经网络来提升对抗鲁棒性,最大化训练样本与其无监督对抗样本间的多隐层表征相似性,增强了模型的内在鲁棒性 。伪监督学习可以是无监督的 ,也可以是半监督的 。文献 同时采用少量标签点数据和大量无标签数据训练网络,把无标签点的标签预测结果当作真实的标签使用,在各类之间找到低密度的分隔边界,从而提高泛化性能。等提出伪监督的深度子空间聚类 ,其中没有标签点数据,属于无监督学习。网络由局部保持模块、自表达模块和伪监督模块组成。模型需要多次迭代训练,在每次迭代中,模型使用上一次迭代的预测来重新标记样本,为此在编码器的后面引入了一个分类模块,该模块利用学习到的潜在表示和相似图来构建伪标签,用来监督特征学习。在面对实际数据集时,用户或多或少会了解一些数据信息,或者通过少量标记数据获得一些有类标签的数据点。这些先验信息如果能加入到子空间的聚类中,会引导聚类过程得出更精确的聚类结果。李超杰研究了半监督深度聚类算法,包括基于标签自适应策略算法和基于成对预测的半监督深度聚类算法。算法利用标签信息指导簇心优化调整,或者基于已知的成对约束信息对数据集中无标记样本对的关系进行预测,在此基础上完成聚类任务 。基于伪标签纠正的半监督深度子空间聚类 算法描述 算法思想深度子空间聚类通常采用自编码器 来完成输入数据的非线性变换和特征抽取,本文也是如此。对 的训练要求可以是对输入数据的重建误差进行约束 ,也可以是对数据的局部保持误差进行约束 。深度子空间聚类通常在 网络的编码层后面设置自表达层,然后设置解码层,编码结束后通过自表达矩阵来表示数据点之间的相似性。本文提出的算法结构如图 所示。?图 基于伪标签纠正的半监督深度子空间聚类算法()()烟台大学学报(自然科学与工程版)第 卷图 显示算法包括 个模块,第一个是局部保持模块,用于约束重建误差,同时保持数据点之间的相似性,这个模块和 表达不同,但是目的是相同的;第二个是自表达层的约束,通常对自表达矩阵 进行自表达误差约束,这个模块是和 相同的。第三个是本文新增的对比学习模块,该模块利用现有的少量标签数据来控制自表达矩阵,希望该矩阵能出现块对角的性质,即同一个类中的数据点之间的相似度尽可能高,而不同类的数据点之间的相似度尽可能低,其中的损失约束为。最后一个模块是基于伪标签纠正的交叉熵模块,利用给出的少量标签数据来匹配伪标签并纠正伪标签中可能出现的错误,并通过最小化网络分类层 给出的概率分布和纠正后的伪标签之间的交叉熵,来约束网络的迭代和权重更新,从而得到更准确的网络表达。最后对数据点之间的相似度矩阵()进行谱聚类得出数据集的聚类结果。算法步骤图 所示算法整理如下:算法基于伪标签纠正的半监督深度子空间聚类算法()输入:数据集 已知样本标签 超参数,和 需要聚类的簇数:输出:聚类结果 随机初始化自编码器参数;预训练自编码器网络;随机初始化自表达层参数;没有达到最大训练次数 利用伪标签纠正策略训练整个网络;利用 优化器优化更新网络参数;计算相似度矩阵 ();对相似度矩阵 进行谱聚类,得到聚类结果 。模块描述下面详细介绍每个模块的计算过程,本文用到的符号见表 。局部保持模块设数据集 ,自表达矩阵为 。设数据点 的相邻点为,二者之间的相似性用自表达系数 表示。可以用相邻点 的解码值来重构数据点 的原始输入信息,通过约束重建误差来达到保持数据点局部关系的目的。在 的基础上,受文献 的启发,对每个数据点按其度数进行调整,重新设计重建误差 的表达为,槡槡 ,槡槡()槡槡(),槡 槡 ()()()()()()()(),()其中,度数矩阵 是对角矩阵,其对角线上元素为 ,是归一化拉普拉斯矩阵。能归一化相似矩阵 的行列取值范围,同时保持相似矩阵的对称性。表 本文所用符号 符号含义数据集数据点的个数自表达矩阵,大小为 的解码值度数矩阵 归一化的拉普拉斯矩阵 关系矩阵 关系矩阵编码器输出 自表达模块子空间聚类方法都是利用数据的自表达性质,将每一个数据点由处在同一子空间中的其他数据点的线性组合进行表示,所以在编码器和解码器之间加了一个全连接层,就是所谓的自表达层,如图 所示。其权重表示系数矩阵为 ,自表达损失函数为 (),()其中,系数矩阵 表示数据的子空间结构,中结构块的数量表示簇的数量,因此系数矩阵 对聚类效果至关重要。表示样本 和 不处于同一子空间,为了消除 的平凡解,添加了对角线约束 ()。第 期鲍兆强,等:基于伪标签纠正的半监督深度子空间聚类 对比学习模块对比学习是近些年来提出的潜在空间学习方法 ,通过数据增广获取同一个样本的不同版本,这些版本的潜在空间表达应该是相似的。对比学习以此为约束信息,获取鲁棒的数据表达。卢绍帅等提出了一种用于小样本情感分类任务的弱监督对比学习方法,旨在学习海量带噪声的用户标记数据中的情感语义,同时引入对比学习策略来捕获少量有标注数据的对比模式 。根据对比学习的思想,在半监督的背景下,相同标签的样本之间应该是相似的,而不同类标签的样本之间应该有较大差异。本文假定已经获取了少量样本的标签信息,为了充分利用这些先验知识,将这些标签转换为成对约束信息,即 和 ,如图 所示。实线连接的点 和 表示 ,即样本 和 具有相同的类标签,聚类结果应处于同一簇内;虚线连接的点表示 ,两个样本点具有不同的类标签,聚类结果一定处于不同簇内。实心点是已标签点,没有连线的点对之间关系未知。?图 标记样本内的成对信息 利用得到的标签点信息,可得到成对约束矩阵和,大小均为 。如果样本点 和 具有相同类标签,则 和 为 ,即(,)。如果 和 具有不同的类标签,则 和 为 ,即(,)。具体公式如下:(,),()(),。(,),()(),。()为了使系数矩阵 拥有更好的块对角结构,利用成对约束矩阵给 施加约束,具体损失函数 为 ,()其中,和 是损失项的系数,为 积运算符。(,)为惩罚矩阵,当样本 和 为 时,为了将 和 聚类到同一个簇,的值应该大一些,如果 的值较小,就对当前的 进行惩罚,为惩罚度。同理样本 和 为 时,的值应该小一些才能避免将 和聚类到同一个簇,因此对 的值进行惩罚。成对约束的损失函数 最小化可以使得 有更好的块对角结构,从而得到更好的聚类效果。伪标签的纠正模块分类层 的引入,是为了能够获取有益的伪标签来监督网络的训练,从而提高聚类的效果。但是分类层产生的伪标签是不精确的,因此不能够稳定地提高特征表示的质量。为了解决上述问题,本文提出了伪标签纠正算法。利用少许已标记的数据点对分类层产生的不精确伪标签进行纠正,从而进一步稳定提高特征表示的质量。由于预测出来的伪标签标记规则不同,需要利用 算法 把预测标签映射为真实标签。具体来说,将预测出来的每一类标签与每一种真实标签一一对比,形成一个代价矩阵,然后利用 算法计算出代价最低的映射关系,根据映射关系把预测标签映射为真实标签,再利用已知的标签对映射后的伪标签进行纠正。例如:已知 个样本点的真实标签为(,),整个数据集共 个点,假定前 个是已标记的样本点。数据集的预测标签为(,),真实标签的种类为 ,预测标签的种类 ,。利用 求出预测标签与真实标签的映射关系 ,即需要把预测标签中的 ,分别与真实标签 ,匹配,此时预测伪标签 映射为 (,)。很明显,映射后的标签存在两个错误(图 中用下划线标识),利用已知的真实标签 对 中的错误进行纠正,纠正后整个数据集的预测结果为 。?图 伪标签的匹配和纠正 烟台大学学报(自然科学与工程版)第 卷在实现的过程中,在特征提取模块(编码器)的后面添加了一个带有 层的全连接层作为一个分类模块,它利用编码器学习到的特征表示 转换成 (),其中 ()瓗表示对 预测的分类结果概率分布,表示簇数。()表示第 个样本属于 簇的概率,表示为()()(),()将伪标签描述为 (),()其中 表示预测向量的第 个元素,它对应的预测伪标签的概率为 ()。()在实际中通过设置阈值,筛选出可信度较高的伪标签来帮助网络的训练,为概率 设置了一个较大的阈值,来选择可信度较高的伪标签进行监督:,。()对应的损失函数为 (),),()其中,损失函数 是交叉熵函数,是纠正后的伪标签。联合四个模块,得到本文总损失函数:()(),),(),()其中,和 为损失项的系数,在网络微调阶段,采用网格搜索这四个系数,找出最优系数组合。实验及结果分析 数据集及评价指标为了测试算法的聚类效果,对 个基准数据集进行了实验,分别是 和 两个人脸数据集、和 两个物体数据集,数据集的详细情况见表 。()数据集:该数据集由 个人的面部图像组成,每个人在不同的光照条件下有 个面部图像,在拍摄图像时伴有光线和面部表情和姿势的变化。表 实验数据集详细信息 数据集样本个数类别个数维度 ()数据集:这个数据集由 个人的 张人脸图像组成,每个人的图像数量为 张,每张图像都有姿势的变化,数据集的每个图像像素都调整为 。()和 :数据集包含 种不同形状物体的 张灰度图像,而 由 种不同形状物品的 张 像素的灰度图像组成。本实验采用三个标准指标来评估算法性能,包括准确率 ()、归一化互信息 ()和纯度 ()。三个指标的值越高,代表聚类效果越好。三个指标的表达式分别为 (),()其中,表示第 个样本的标签,()代表第 个样本聚类结果 映射的真实标签。(,)()(),()其中,为样本点的真实标签,为聚类标签,计算的是 和 之间的互信息,用来分别计算真实标签和聚类标签的熵。,()其中,是样本数量,表示聚类结果中第 个簇中的所有样本,表示真实类别中第 个类别中的真实样本。实验方案与结果将本文方法与一些常见的子空间聚类算法进行对比,包括低秩表示()、低秩子空间聚类()、稀疏子空间聚类()、具有 范数的 (),具有 范数的 (),深度嵌入聚类()以及伪监督深度子空间聚类()。为了测试伪标签纠正机制和模块的影响,通过去掉伪标签纠正和 模块进行消融实验。第 期鲍兆强,等:基于伪标签纠正的半监督深度子空间聚类首先,在没有自表达网络层和 分类层的情况下预训练自动编码器卷积网络,网络架构信息如表 所示。然后添加自表达网络层和 分类层对整个网络进行微调,在训练过程中利用已知标签对生成的伪标签进行纠正来监督网络的训练。预训练阶段设置学习率为 ,在微调阶段设为 。为提高预测伪标签的可信度,把阈值 设置为 。使用基于自适应动量的梯度下降法 来最小化损失函数。在得到 之后计算相似度矩阵,完成谱聚类。表 数据集的网络设置 数据集 表 记录了本文算法 和对比算法在 个测试数据集上的聚类结果,其中 在 个数据集上的标签点个数为 个。关于标签点比例的讨论见 节。如表 所示,在 种常见的数据集上表现出了良好的聚类效果。与非深度学习模型 ,和 相比,在 个数据集上的 、和 均增加了约 及以上,这也证明了基于卷积神经网络结构的自编码器能够提取更加良好的特征表示。相较于 ,算法 在 数据集上的 、和 分别增加了 、和 。与 相比,在 、和 三个数据集上的聚类表现都更好,这也验证了本文提出的伪标签纠正机制和成对约束信息能够提高子空间聚类的性能。消融实验为了进一步验证伪标签纠正机制和成对约束对子空间聚类效果的影响,通过分别去除对比学习模块和伪标签纠正机制,然后在 个数据集上进行测试,结果如表 中的 和 。其中,是只去掉对比学习模块时的聚类结果;而 是只去掉伪标签纠正模块时的聚类结果。通过表 中的消融实验结果可以观察到,仅保留伪标签纠正机制或对比学习模块得到的聚类结果要比 的结果差一些。从实验结果看,伪标签纠正模块对提高聚类性能的作用更明显一些,同时也证实了伪标签纠正机制和对比学习模块的联合作用对提高子空间聚类性能的有效性。表 不同算法在四个数据集上的聚类结果 算法 注:是只去掉对比学习模块时的结果,是只去掉伪标签纠正模块时的结果。另外,实验记录了不同个数的标签点对聚类结果的影响,假定最多只拥有 个标签点。表 记录了 算法在各数据集的半监督聚类结果。从表可以看出,在各个数据集上随着标记数据点个数的增加,各项聚类指标均有不同程度的增加,只有一种情况有轻微的下降。因为标签点的随机性,对聚烟台大学学报(自然科学与工程版)第 卷类的影响程度是不确定的,但标签点的介入总体上能提升聚类性能。最优参数搜索 的损失函数 有、和 四个参数,通过网格搜索法寻找每个数据集上的最优参数。由于三个指标度量聚类性能的角度不同,同时满足三个指标最优的参数很可能是不存在的,因此本文选择聚类准确率 这个直观的指标作为最优参数搜索的依据。实验中固定两个参数的值来研究另外两个参数对 的影响。如图 、所示,算法对参数、不敏感,即、的变化对聚类性能影响不大。当、都取 时,在 数据集上 取得最大值;当 ,、时,在 数据集上取得最大值。按照相同的方法搜索,得出数据集 和 的最优参数,见表 。表 半监督聚类结果 数据集个数?图 参数对 数据集 的影响?图 参数对 数据集 的影响 为了将满足 的点对(,)聚到同一个簇中,用惩罚矩阵 (,)对较小的 进行惩罚。图 是在、和 设置如表 所示下对 进行的测试。从图 可以看出,对 数据集效果影响不大,故任取 为 ,在 和 数据集上 设置为 能取得较好的效果,而第 期鲍兆强,等:基于伪标签纠正的半监督深度子空间聚类 数据集在 时能取得较好的效果。每个数据集经过自编码器编码后都会得出其潜在的数据表示,这个潜在表示再用自表达矩阵进行重新表示,就得到了自表达系数矩阵 。从这个过程看,和数据集本身、网络的自编码器,以及自表达过程都是密切相关的。数据集在不同的 值上 取值变化较大,反映出该数据集的自表达矩阵元素取值范围较广,适当的惩罚度 能有效促进聚类结果的改变,这也是深度子空间聚类算法能得出较好结果(如 算法的 达到 )的原因。表 参数设置 数据集?图 惩罚度 对 的影响 结论本文提出的算法 是一种半监督的学习算法,该方法充分利用少量已知样本标签来获得更好的特征表示和相似度矩阵。一方面基于对比学习的思想,利用这些已知样本标签来获得成对的约束信息,来约束系数矩阵 的块对角结构,从而获得更好的聚类性能;另一方面用这些真实标签来纠正网络分类层产生的伪标签,通过反复训练来监督整个网络的训练,纠正网络权重的值。实验表明,算法 的性能优于或接近先进的子空间聚类算法。同时也证明了利用半监督信息和对比学习方法在提高子空间聚类性能上的可行性和有效性。以后的工作会继续研究用不同方式来嵌入先验信息来提升子空间聚类的性能。参考文献:,:,:,():李茂月,吕虹毓,河香梅,等 自动驾驶中周围车辆识别与信息地图构建技术 汽车安全与节能学报,():,():,:,:,:,:,():,:,():,:,:,:,:,:,():,烟台大学学报(自然科学与工程版)第 卷():,:孙浩,徐延杰,陈进,等基于自监督对比学习的深度神经网络对抗鲁棒性提升 信号处理,():,:():,李超杰基于深度学习的半监督聚类算法研究 大连:大连理工大学,:,:,:,:,:,:卢绍帅,陈龙,卢光跃,等 基于弱监督对比学习的小样本情感分类 计算机研究与发展:,():,():,:,:,:,:,():,(),:,:,():,:,:,:,(,):,:;(责任编辑李春梅)

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开