分享
基于多通道图卷积网络的节点聚类_孙艳丰.pdf
下载文档

ID:2251502

大小:1.48MB

页数:8页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 通道 图卷 网络 节点 孙艳丰
第 卷 第 期 年 月北京工业大学学报 基于多通道图卷积网络的节点聚类孙艳丰,杜鹏飞(北京工业大学信息学部,北京;北京工业大学多媒体与智能软件技术北京市重点实验室,北京)摘 要:针对在深度聚类中大部分基于图卷积网络(,)的方法仅使用拓扑图而忽略了特征空间中存在的结构信息的问题,提出一种通过引入特征图更充分地利用特征空间中存在的结构信息的节点聚类方法 首先,该方法使用自动编码器(,)来学习节点特征的潜在表示,同时在特征图、拓扑图及节点属性 个层面获得节点嵌入;然后,使用融合机制对学习到的节点嵌入进行融合;最后,通过自监督的方式训练网络实现节点聚类 在 个基准数据集上的大量实验表明,该方法明显提高了聚类精度关键词:节点聚类;图卷积网络(,);注意力机制;自动编码器(,);特征融合;图结构中图分类号:文献标志码:文章编号:():收稿日期:;修回日期:基金项目:国家自然科学基金资助项目()作者简介:孙艳丰(),女,教授,博士生导师,主要从事人工智能、模式识别、深度学习方面的研究,:,(,;,):(),(),:;();();聚类是数据分析的一项基本任务,将样本按照相似性关系分到不同的类别中 最近,由于深度网络所展现出的强大的数据表示学习能力,应用深度网络来解决聚类问题受到人们的关注 目北 京 工 业 大 学 学 报 年前,一些深度聚类算法已经成功地在各种实际中进行应用,例如文本聚类、图像聚类等 挖掘数据原始特征空间中的属性信息以获得有判别力的数据表示是深度聚类中的一个关键步骤,例如:等通过自动编码器(,)网络驱动表征学习;等提出了深度编码聚类(,)方法,将原始数据空间经过参数化非线性映射到低维特征空间,在低维特征空间优化聚类目标来学习节点表示;等提出了改进的通过保持局部结构进行聚类的网络,该网络引入了重构损失、融合聚类损失和 的重构损失,从而学习到具有局部结构约束的特征 然而,这些模型只是针对结构化的数据学习原始节点属性信息,在处理非结构化的图关系数据聚类时表现不佳针对图结构数据的聚类问题,最近的研究工作集中于学习图拓扑结构的编码表示,将图拓扑结构与原始节点属性更好地结合 新兴的图卷积网络(,)给这一工作带来了巨大的突破 基于图的拓扑结构和节点属性信息,通过聚合来自相邻节点的特征迭代更新节点编码 在此基础上,等提出了图自动编码器(,)和变分图自动编码器(,),利用 作为编码器获得节点的表示,使学习到的表示符合高斯先验分布;等提出了一种利用高阶图卷积自适应地捕获全局结构信息来学习节点表示的方法;等使用图注意力融合网络作为编码器来融合图结构信息和节点属性;等进一步提出了一种对抗性正则化图自动编码器(,)用于学习潜在的节点表示;等提出了深度结构化聚类网络(,),利用深度 和 分别学习节点属性信息和图结构信息表示,并通过自监督机制将它们集成到一个统一的框架中 等提出了注意力驱动的图聚类网络(,),将图结构信息和节点属性信息通过注意力机制进行融合以获得更利于聚类的节点表示 现有的方法都是从原始图结构和节点特征中学习优质的嵌入表示,然而,原始的图结构关系由于数据噪声或度量的不准确可能导致关系描述不精确另外,有研究表明,在从图拓扑信息和节点属性信息中学习嵌入表示时表现出来的性能并不是特别令人满意,因此,如何获得更准确的嵌入表示是一个关键问题针对以上提出的不足之处,本文提出一种深度聚类网络,即基于多通道图卷积网络(,)的节点聚类 的节点聚类模型.符号定义及任务说明首先介绍一些符号及概念,属性图可以表示为 ,其中:是节点集合;是边集合;是节点的属性矩阵,表示节点数,表示特征的维数 图的邻接矩阵表示为 ,如果和 之间有边,则,否则为 给定一个图 和聚类数,属性图聚类的目的是把图 中的节点划分到 个不相交的簇中 任务说明如图 所示,黄色和蓝色分别表示 种类别的节点,聚类模型根据拓扑信息和特征信息将它们分到 个簇中图 属性图聚类示例 .整体框架对于图数据集,本文把原始的拓扑图结构称为拓扑图,把基于节点特征相似度通过 近邻(,)算法构建的图结构称为特征图 然后,使用 提取节点特征的数据表示,使用 从拓扑图和特征图中提取图的数据表示,以便在不同的空间学习嵌入表示 最后,通过一个自适应融合模块将 个通道得到的节点编码进行融合此外,采用了自监督机制和编码之间的差异性约束来监督训练过程,模型整体框架如图 所示.节点特征的编码模块不考虑节点之间的连接关系,只考虑节点的特征,将节点特征嵌入到低维空间有很多方法,如去噪自动编码器(,)、稀疏自动编码器(,)、变分自动编码器(,)等 本文使用最基本的,其主要由 个部分组成,即将输入映射到中间层表示的编码器以及将中间层映射到输出的解码器,通过最小化原始特征与重构特征之间的 第 期孙艳丰,等:基于多通道图卷积网络的节点聚类图 多通道图卷积聚类网络结构 重构损失来学习编码表示 它的编码、解码和重构损失公式分别可以表示为()()()()()()()()()()()()式中:()、()分别表示编码器和解码器第 层的输出;表示原始特征;表示原始特征重构后的结果;()、()分别表示编码器第 层的权重和偏置;()、()分别表示解码器第 层的权重和偏置;表示激活函数,如、等;表示节点特征 的重构损失,目的是使从解码器变换后的数据中恢复出来的数据与原始数据更接近,如图 所示 模块的输入为 的节点特征编码器部分.图结构的编码模块 的目标是根据节点特征和图邻接关系学习图的低维节点嵌入 近年来,在处理图数据上表现出来的性能得到了广泛的认可,基本思想是根据邻接关系聚合邻居节点的特征信息,通过堆叠多层的图网络学习更深层次的表示 给定一个节点特征矩阵 和邻接矩阵,通过 和 生成新的节点表示,第 层输出可以表示为()(?()()()式中:?;()是一个激活函数;?表示度矩阵,?;()表示 第 层的可学习参数矩阵;()表示 第 层学习到的数据表示,()对于图数据,原始图关系可能存在误差,使得通过原始拓扑图和节点特征得到的嵌入表示并不是令人满意的,因此,使用节点之间的特征相似度构建特征图,拓扑图和特征图同时被用来提取图数据的嵌入表示 这种方法可更充分地从特征空间中挖掘可靠信息 另外,为了使算法能够适应非图数据,采用不同 值下 算法生成的邻接关系来表示拓扑图和特征图.融合模块如何融合这些来自不同通道的节点编码是一个挑战,常用的方法有加权求和、拼接和注意力机制等 为了充分融合由 和 得到的嵌入表示,采用了一种基于注意力的动态融合机制,使得上述 个通道得到的节点表示充分交互 具体的图示如图 所示,首先将来自 个通道的嵌入表示(,)两两加权求和进行初步融合,得到 个新的嵌入表示(,),融合规则用公式表示为 ()()()()式中、表示融合的超参数 之后,对、应用注意力机制以实现自适应融合,通过全连接层挖掘不同表示之间的关系,使用()激活函数,并且进行 归一化,将得到的每个嵌入表示系数与对应的嵌入表示加权求和,得到融北 京 工 业 大 学 学 报 年合之后的嵌入表示 融合规则的公式为()()()()()c(c)()式中:表 示 把 待 融 合 的 嵌 入 表 示(,)拼接到一起;、均为全连接层的权重;为偏置;表示嵌入表示的融合系数;为对系数归一化的结果 由此可以得到最终的融合表示,将融合后的表示通过 函数得到 个样本属于 个簇的概率分布 ,这一过程用公式表述为 ()()对网络训练后,可以通过 得到预测的簇标签,公式为 ()式中:表示第 个样本预测的簇标签;表示 的第 个样本由于特征空间的图结构是通过 算法从原始节点属性 生成的,为了充分挖掘特征空间的信息,应训练编码器在节点属性空间和特征图空间学习到有差异的嵌入表示,同时也约束节点属性空间和拓扑图空间的嵌入表示有差异性 为此,本文使用希尔伯特 施密特独立性准则(,)进行约束 是一种基于核的独立性度量方法,主要功能是衡量 个变量的分布差异,其公式可以描述为(,)()()()(,)()()()式中:、为 矩阵,(,),(,);,为一个单位矩阵,为一个全 的列向量 同理,经过此约束项可以使 个层面的嵌入表示更具差异性,从而包含更丰富的信息,如图 中编码器模块输出部分的黑色虚线标注所示.自监督模块获得融合的嵌入表示后,借鉴文献中的策略,对融合后的嵌入表示增加约束,以便更好地实现聚类任务,这也成为现在许多深度聚类方法中实现聚类的最常用策略 其详细过程如下:首先,使用 分布作为核来度量由 学习到的嵌入表示中第 个样本和第 个聚类质心之间的相似性,计算公式为(,)(,)()式中:表示样本,分配到聚类中心 的概率;,表示 学习到的嵌入表示 的第 个样本;是通过对 进行 计算得到的聚类中心;表示自由度,是一个超参数,本文实验中设置为 对每个样本进行计算,得到所有样本分配分布,称之为聚类软分配分布 为了增加聚类的内聚力,使 的数据表示更接近聚类中心,求得 的归一化分布 为()最后,为了使融合后的分布与融合前的分布相一致,在目标分布 的协助下通过优化融合后的嵌入表示分布 与 学习到的嵌入表示分布 之间的()散度达到这一目的,在此使用了 个约束项()()()()()()式中()、()分别表示聚类软分配分布 和融合后嵌入表示分布 与归一化分布 之间的 散度通过最小化式()()可以使融合后的分布 和融合前的分布 很好地对齐,由于 是通过 生成的,而 又反过来监督 的更新,整个过程中没有人为的引导,因此,称为自监督方式、和 之间的约束正则项如图 中红色虚线标注所示本文通过这一监督方法把 和 整合到一个网络中,实现端到端的训练 在对网络进行训练之后,通过融合后的表示分布 可以直接得到预测聚类结果,最终,整个网络的损失函数设计为 ()()(,)(,)()式中:表示 的重构损失;(,)、(,)分别表示对节点属性与特征图和拓扑图编码得到的嵌入表示之间的差异性损失 第 期孙艳丰,等:基于多通道图卷积网络的节点聚类整个模型的算法步骤如下输入:原始数据,邻接矩阵,聚类簇数,迭代次数 通过 计算特征图结构,得到 初始化 和 的权重 :通过式()()得到 和 学习到的嵌入表示、通过式()()对表示进行融合,得到融合后样本的分布 通过式()()计算 的样本分布 和 通过式()()最小化 与、的 散度 通过式()计算全部的损失并反向传播更新参数 输出:通过式()计算聚类结果 实验.实验数据本文在 个常用的基准数据集上进行了实验,包括 个图像数据集、个人类活动识别记录数据集、个文本数据集 和 个图数据集、,数据集的简要描述如表 所示表 数据集描述 数据集 样本数类别数样本维度 数据集包括 个灰度手写数字图像,共 个类别(即 )数据集包含智能手表的 条传感器记录 样本被划分为 类人类活动(骑自行车、坐、站、走、上楼梯和下楼梯)数据集包含大约 万篇英语新闻故事,并按类别进行标记 使用公司 工业、政府 社会、市场和经济作为标签 数据集是来自 数字图书馆的一个论文网络数据集,其中边表示同一作者撰写 特征是关键词的词袋表示 样本按照研究领域分成 类(数据库、无线通信、数据挖掘)数据集是一个作者网络数据集 节点表示作者,边表示作者合作完成的论文 作者分为 个领域:数据库、数据挖掘、机器学习和信息检索 数据集是一个引文网络数据集,包含每个文档的稀疏词汇特征向量包和文档之间的引文链接列表 标签包含 个领域:代理、人工智能、数据库、信息检索、机器语言和人机交互.对比方法本文将提出的方法与 种方法进行了对比,其中前 种是基于 的非图数据聚类方法,后 种是基于 的图数据聚类方法)方法:对 从原始数据中学习到的嵌入表示执行 聚类)方法:在上述 方法基础上加入约束项,将编码器学习嵌入表示和聚类分配两部分联合后进行优化,不再把两部分割裂开,从而提高聚类)方法:在 上增加了一个自编码器的重构损失以更好地学习嵌入表示,提高聚类效果)方法:结合 和 设计,用于学习数据表示)方法:在 的基础上,从原始数据中学习到一个分布,从这个分布中采样一组数据作为嵌入表示进行聚类 )方法:使用 网络来学习嵌入表示

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开