第36卷第4期烟台大学学报(自然科学与工程版)Vol.36No.42023年10月JournalofYantaiUniversity(NaturalScienceandEngineeringEdition)Oct.2023文章编号:10048820(2023)04044209doi:10.13951/j.cnki.371213/n.220501收稿日期:20220502基金项目:国家自然科学基金资助项目(62072391)。通信作者:王立宏(wanglh-000@163.com),教授,博士,主要研究方向为数据挖掘与知识发现。基于伪标签纠正的半监督深度子空间聚类鲍兆强,王立宏(烟台大学计算机与控制工程学院,山东烟台264005)摘要:提出了一种基于伪标签纠正的半监督深度子空间聚类算法。首先利用少量已知样本标签,对分类层产生的不精确伪标签进行纠正,从而提高伪标签的精确性和稳定性;其次从已知样本标签中获得成对样本信息,通过对比学习对自表达系数矩阵进行约束来提高聚类的性能。在4个常用数据集上的实验证明,在最多50个已知样本标签的情况下,提出的子空间聚类算法性能优于目前先进的子空间聚类算法。关键词:子空间聚类;伪标签纠正;对比学习;半监督;自编码器中图分类号:TP181文献标志码:A深度学习多年来引起众多研究者的重视,因其在很多领域达到了近似人的识别和判断能力,如语音识别[1]、图像分类[2]及自动驾驶[3]等。深度学习被认为是非常有价值的学习方法,其多层网络结构能够通过投影变换逐渐提纯输入数据中的内在特征,最终输出希望的结果。目前深度学习的研究主要集中在分类问题等有监督的学习方面,通常以训练样本的网络实际输出和期望输出之间的差别来判断网络的训练情况,同时以正则化方法来约束模型的复杂程度,避免出现过拟合现象。在聚类等无监督学习方面,深度学习的研究相对较少。最近有研究将深度学习和无监督学习结合起来,在聚类方面得出很好的结果[4-8]。这些研究的主要思想是用深度学习来得到输入数据的高层表示,然后利用现有的算法完成聚类。这些工作的主要区别在于采用了不同的神经网络结构和目标函数。高维数据的簇结构通常存在于低维的子空间中,子空间聚类是发现高维数据真实结构的有效手段。在子空间聚类中,一个基本假设是子空间的自表达性质,即一个子空间内的点可以由该子空间内的其他点线性表示[9]。子空间聚...