温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
相关性
约束
矩阵
分解
标签
分类
方法
田小瑜
第 59 卷 第 1 期2023 年 1 月南京大学学报(自然科学)(NATURAL SCIENCE)Vol.59,No.1Jan.,2023JOURNAL OF NANJING UNIVERSITY基于相关性约束矩阵分解的多标签分类方法田小瑜1,2,秦永彬1,2*,黄瑞章1,2,陈艳平1,2(1.公共大数据国家重点实验室,贵州大学,贵阳,550025;2.贵州大学计算机科学与技术学院,贵阳,550025)摘要:多标签分类是一项重要且具有挑战性的任务,对于场景分类、信息检索和网页挖掘等领域有重要意义.近年来,研究者倾向于挖掘并利用标签相关性以及实例相关性来提升多标签分类的性能,其中利用这类相关性来解决多标签分类中的标签缺失问题一直是机器学习领域的热门研究点,但现有的方法都忽略了标签和实例之间的相关性.针对标签完整和标签缺失的情况,基于矩阵分解的方式分解得到实例和标签的特征表示矩阵,在利用标签相关性和实例相关性建立正则约束的同时,首次建立实例和标签特征表示间的相关性并用以建立正则约束,进而提升算法性能.在三个真实数据集上对提出的算法进行性能验证,实验结果表明,该算法和对比算法相比,获得了最高的预测精度.关键词:标签相关性,实例相关性,标签与实例相关性,矩阵分解,多标签分类中图分类号:TP391 文献标志码:AMultilabel classification method based on correlationconstrained matrix factorizationTian Xiaoyu1,2,Qin Yongbin1,2*,Huang Ruizhang1,2,Chen Yanping1,2(1.State Key Laboratory of Public Big Data,Guizhou University,Guiyang,550025,China;2.The College of Computer Science and Technology,Guizhou University,Guiyang,550025,China)Abstract:Multilabel classification is a challenging classification task,which is important in the fields of scene classification,information retrieval,and web mining.Recently,researchers tend to mine and use label correlation and instance correlation to improve the performance of multilabel classification.Using such correlation to solve the problem of missing labels in multilabel classification has been a research hot spot,but existing methods ignore the correlation between labels and instances.In this paper,aiming at the situation of complete labels and missing labels,the feature representation matrix of instance and labels is obtained based on matrix factorization.While using label correlation and instance correlation to establish constraints,the correlation between instance and label is firstly established.We validate the performance on three datasets and the proposed algorithm is superior to the existing methods.Key words:label correlation,instance correlation,correlation between instance and label,matrix factorization,multi label classification多标签分类指一个实例同时关联了多个标签,例如,一张图片中同时出现“猫”和“狗”两种动物,一篇文档中同时包含“政治”和“经济”两个主题.该任务具有广泛的应用场景,如场景分类、信息检索以及网页挖掘等,因此引起了学术界和工业界的高度关注.DOI:10.13232/ki.jnju.2023.01.008基金项目:国家自然科学基金(62066008)收稿日期:2022-09-28*通讯联系人,Email:第 1期田小瑜等:基于相关性约束矩阵分解的多标签分类方法多标签分类中,标签之间和实例之间往往不是完全独立的,而是相互关联的.标签之间的关联关系可以为多标签分类提供非常重要的信息,例如“政治”和“经济”两个主题有一定关联,那么当“政治”这个话题出现时,“经济”有很大的概率会同时出现.基于此,许多研究者都不同程度地尝试挖掘和利用标签之间的关联关系1-7.实例之间的相关性指两个实例在语义空间上具有高度相似的特征,如果两个实例 A 和 B彼此接近,那么它们的预测标签向量也很接近,可以借此来提升多标签分类的性能8,主要通过 K 近邻算法挖掘和建立实例之间的关联关系,进而利用这种关系对 实 例 的 特 征 表 示 和 预 测 标 签 向 量 进 行 约束9-10.此外,在多标签分类任务中,数据标注者可能会忽略他们不知道或不感兴趣的标签,或遵循一些标注算法来自动标注,因此会造成标签缺失的问题.为了克服这个问题,许多研究者利用标 签 相 关 性 和 实 例 的 相 关 性 来 恢 复 真 实 标签10-14.Zhu et al4将标签的相关性分为局部相关性和全局相关性,同时利用全局和局部标签相关性来学习一个潜在的标签表示并优化标签流形,进而处理全标签和标签丢失的情况.罗森林等10融合标签相关性和实例相关性来解决多标签数据的标签缺失问题.Li et al11针对标签缺失问题,利用标签间固有的关联性以及实例间的相似性,提出一种基于实例级和标签级关联的多标签图像分类算法.近年来,研究者们利用标签矩阵进行矩阵分解来得到潜在的标签表示和实例表示并取得了一定的成功4,15-16.Feng et al16通过正则化矩阵分解来恢复真实标签矩阵.具体地,实例的潜在因素通过从特征空间推导出的局部拓扑结构进行正则化,进一步诱导一个有效的多标签模型,但在对分解出的潜在的标签表示和实例表示的优化上 还 存 在 一 定 的 缺 陷,因 此 还 有 一 定 的 提 升空间.尽管现有方法在利用标签关联关系和实例之间的相关性解决多标签分类的标签缺失问题上取得了一定成功,但它们忽略了潜在标签表示和实例特征表示之间的关联关系,使模型的性能受到一定限制.本文认为潜在的标签表示首先可以显式地告诉模型要分类的内容并辅助模型获取与标签关联的鉴别信息,其次,实例特征表示中一定包含其对应标签集中所有标签的特征,进而可以由潜在标签特征线性表示.基于此假设,以矩阵分解的方式从标签矩阵中分解得到潜在的标签表示和实例表示,在充分利用标签之间的关联关系和实例间的相关性约束潜在的标签表示和实例表示的同时,将潜在的标签表示和实例表示的内积作为它们之间的线性表示权重,并用线性表示权重与潜在标签表示的加权和来重构实例表示,进而优化分解出实例表示和潜在标签表示.这样,标签相关性、实例相关性以及标签和实例之间的潜在关联被显示地利用,并将这种矩阵分解的优化方法进一步纳入模型,这带来了在训练期望的多标签学习模型的同时恢复缺失标签矩阵的优势.对完整标签学习和缺失标签学习的大量实验表明,本文算法的性能优于大部分算法.1 相关工作 多标签分类任务是一项应用广泛且存在提升空间的任务,有效挖掘和利用标签之间的相关性是提升多标签分类算法性能的一个核心.根据标签关联的程度不同,大致可以将多标签学习算法分三个类别:一阶策略(FirstOrder Strategy)、二阶策略(SecondOrder Strategy)、高阶策略(HighOrder Strategy)17.一阶策略将每个标签看作是独立的并单独处理每个标签18-19,完全忽略标签之间的相关性.二阶策略针对一阶策略进行改进,考虑成对标签之间的关联性3,20,但仍然没有充分地考虑标签相关性.高阶策略可以尽可能充分地挖掘标签相关性,如考虑标签集中所有可能的组合方式,将其作为单独的标签形式,但会造成高阶计算的问题.此外,除了标签之间的相关性,实例之间同时具有相关性,同样可以用于提升多标签分类的性能8-9.然而,这些方法大多为一般的多标签学习设计,不能直接处理标签缺失的情况.近年来,多标签分类任务中的标签缺失问题引起了学术界的高度关注.正如标签相关性和实例相关性在传统的多标签分类中的重要作用一样,现有算法大多通过利用标签矩阵上的标签相关性和实例之间的相关性来恢复有缺失的标签矩 77南京大学学报(自然科学)第 59 卷阵,其中包括利用低秩矩阵分解的方式来获取潜在标签和实例表示,进而通过正则化的方式利用标签相关性来恢复真实标签4,16.钱龙等13利用标签相关性和实例相似性恢复标签以提高数据利用率,并将标签恢复嵌入训练过程以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.刘依璐和曹付元12提出基于标签间相关性的多标签学习 K近邻算法.然而,他们都忽略了潜在标签表示和实例表示之间的相关性,这种相关性可以辅助模型优化标签表示和实例表示.2 算法原理 2.1问题定义针对标签缺失的多标签分类任务,给定数据集D=()xi,yini=1,它由实例特征矩 阵X=xi Rd和 相 应 标 签 矩 阵Y=yi0,+1,-1l组成,其中,d是实例的特征维数,l是标签总数,+1 为正标签(实例与标签关联),1为负标签(实例与标签不关联),0为缺失标签(标签缺失).与文献 4,16 一样,表示Y中观测到的标签的索引(Y中非零元素的索引)集合,设M为索引矩阵,因此如果()i,j ,则Mij=Yij,否则Mij为 0.标签缺失的多标签分类的目标就是根据给定训练实例特征矩阵X及其带有缺失的标签矩阵Y,训练一个映射函数Y=f()X,使其能为新来的实例分配最相关的标签集.2.2目标函数构建2.2.1基础目标函数受启于低秩矩阵分解在推荐任务上取得的成功,经过分析发现其同样可以用来解决多标签分类问题.首先,多标签分类问题中标签之间存在相关性且实例的特征维度高,但信息量不会随着向量维度的增加而线性增加;其次,标签矩阵元素稀疏且标签总量越大越明显,这会导致计算结果不稳定.上述两个问题在矩阵分解中可以得到解决,矩阵分解就是把原本的矩阵近似地分解成两个小矩阵的乘积,然后使用分解出的矩阵进行后续的分类计算.具体地,将标签矩阵Y分解为两个矩阵(U和V):minU,VM()Y-UVT2F(1)其中,Y是n乘以l维,即一共有n个实例,l个标签.选择一个合适的特征维度k,这个维度比实例本身的维度d小很多,进而得到矩阵U Rn k和V Rl k,它们分别表示实例和标签的潜在特征描述.由于实例的原始特征中一般含有一些与标签分类无关的特征且与标签相关的特征比较稀疏,需要学习一个实例原始特征到潜在特征描述的线性映射函数f()X=XW+b,其中,参数矩阵W可以通过最小平方损失U-f()x2F获得.此外,为了控制模型的复杂度,利用普通平方的弗罗比尼乌斯范数W2F进行限制16.结合以上公式