第59卷第1期2023年1月南京大学学报(自然科学)(NATURALSCIENCE)Vol.59,No.1Jan.,2023JOURNALOFNANJINGUNIVERSITY基于弱监督对比学习的弱多标记特征选择王津1,谭安辉1,2*,顾沈明1,2(1.浙江海洋大学信息工程学院,舟山,316022;2.浙江省海洋大数据挖掘与应用重点实验室,浙江海洋大学信息工程学院,舟山,316022)摘要:多标记特征选择已被广泛应用于医疗诊断、模式识别等领域,然而现实中的数据往往存在维数灾难以及标记大量缺失等问题,现有的弱多标记特征选择算法又普遍易受缺失标记和噪声的干扰,使算法模型难以准确地选择重要特征.针对上述问题,提出一种用于弱多标记数据集特征选择的弱监督对比学习方法,旨在缺失和含噪声标记数据集中选择优质特征,同时挖掘少量人工标注数据中潜在的类间对比模式.该方法包括三个步骤:首先,设计一种弱监督预训练策略,通过利用实例相似性以及稀疏学习方法获取每个类标记类属属性,用于恢复缺失标记;其次,引入对比学习策略来捕获少量有标记数据的对比模式来削弱噪声数据的影响;最后,选取10组多标记数据集以及四个评价指标进行实验.实验结果证明,与多个先进多标记特征选择算法相比,提出的方法分类性能更优.关键词:多标记学习,特征选择,缺失标记,弱监督学习,对比学习中图分类号:TP181文献标志码:AWeakmulti⁃labelfeatureselectionbasedonweakly⁃supervisedcontrastivelearningWangJin1,TanAnhui1,2*,GuShenming1,2(1.SchoolofInformationEngineering,ZhejiangOceanUniversity,Zhoushan,316022,China;2.KeyLaboratoryofOceanographicBigDataMiningandApplicationofZhejiangProvince,SchoolofInformationEngineering,ZhejiangOceanUniversity,Zhoushan,316022,China)Abstract:Multi⁃labelfeatureselectionhasbeenwidelyusedinmanyfields,suchasmedicaldiagnosisandpatternrecognition.However,mostweakmulti⁃labeldataoftensufferfrommanyproblems,suchascurseofdimensionalityandnoisy/missinglabelsinreality.Existingweaklabelfeatureselectionalgorithmsaregenerallyvulnerabletomissingandnoisylabels,whichmakesitdifficultforalgorithmstoaccuratelyselectimportantfeatures.Tosolvetheseproblems,wepresentaweakly⁃supervisedcontrastivelearningmethodforfeatureselectionfromlargeweakmulti⁃labeldatawithmissinglabelsthataimsatselectingalargenumberofhi...