分享
基于边权重信息深度网络嵌入的PPIN功能模块检测.pdf
下载文档

ID:3074825

大小:1.60MB

页数:8页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 权重 信息 深度 网络 嵌入 PPIN 功能模块 检测
第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于边权重信息深度网络嵌入的 PPIN功能模块检测李泽水,冀俊忠,杨翠翠(北京工业大学 多媒体与智能软件技术北京市重点实验室,北京 100124)摘要:现有基于网络嵌入的蛋白质相互作用网络(PPIN)功能模块检测方法通常仅对蛋白质节点信息进行网络嵌入,并未对蛋白质间的边权重信息进行网络嵌入,导致蛋白质功能模块检测质量不理想。针对该问题,提出一种基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法。结合 PPIN 的拓扑结构以及基因本体的属性信息,通过图注意力网络的注意力系数来衡量蛋白质间的一阶边权重信息,基于邻域聚合对蛋白质的一阶边权重信息进行嵌入。利用长短期记忆网络的遗忘门和输入门来衡量蛋白质间的高阶边权重信息,并对蛋白质的高阶边权重信息进行嵌入。根据网络嵌入得到的低维向量,通过核心附属聚类算法挖掘出核心团并添加附属蛋白质,从而获得最终的蛋白质功能模块。在 Collins、Gavin 和 Krogan 蛋白质数据集上的实验结果表明,该方法相较于基于核心附属聚类的蛋白质功能模块检测等方法在准确率和 F1值上最高提升了 18.1和 12.9个百分点。关键词:蛋白质相互作用网络;功能模块检测;深度学习;网络嵌入;核心附属聚类开放科学(资源服务)标志码(OSID):源代码链接:https:/ PPIN 功能模块检测 J.计算机工程,2023,49(8):69-76.英文引用格式:LI Z S,JI J Z,YANG C C.Functional module detection based on deep network embedding of edge weighing information in PPIN J.Computer Engineering,2023,49(8):69-76.Functional Module Detection Based on Deep Network Embedding of Edge Weighing Information in PPINLI Zeshui,JI Junzhong,YANG Cuicui(Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,Beijing University of Technology,Beijing 100124,China)【Abstract】The existing functional module detection methods of Protein-Protein Interaction Network(PPIN),which are based on network embedding,usually only embed the information of protein nodes and do not embed the information of edge weights between proteins,which deteriorates the quality of protein functional module detection.To solve this problem,a functional module detection method based on deep network embedding of edge weighing information in PPIN is proposed.Combined with the topological structure of PPIN and attribute information of Gene Ontology(GO),the first-order edge weight information between proteins is measured using the attention coefficient of Graph ATtention(GAT)network,and the first-order edge weight information of proteins is embedded based on neighborhood aggregation.The forget and input gates of a Long Short-Term Memory(LSTM)network are used to measure the high-order edge weight information between proteins,whereby this information is embedded.According to the low-dimensional vector obtained by network embedding,the core clique is mined by the core attachment clustering algorithm,and the affiliate proteins are added to obtain the final protein functional module.Experimental results on the Collins,Gavin,and Krogan datasets show that the proposed method improves the accuracy and F1 score by up to 18.1 and 12.9 percentage points,respectively,compared with the methods such as COACH.【Key words】Protein-Protein Interaction Network(PPIN);functional module detection;deep learning;network embedding;core attachment clusteringDOI:10.19678/j.issn.1000-3428.0065072基金项目:国家自然科学基金(61375059)。作者简介:李泽水(1997),男,硕士研究生,主研方向为机器学习、生物信息;冀俊忠(通信作者),教授、博士、博士生导师;杨翠翠,副教授、博士。收稿日期:2022-06-24 修回日期:2022-09-08 Email:人工智能与模式识别文章编号:1000-3428(2023)08-0069-08 文献标志码:A 中图分类号:TP301.62023年 8月 15日Computer Engineering 计算机工程0概述 随着后基因组时代的到来,生命科学研究的重心已从基因组学转向蛋白质组学1。蛋白质组学的一项重要任务是从蛋白质相互作用网络(Protein-Protein Interaction Network,PPIN)中进行蛋白质功能模块检测。检测到的蛋白质功能模块不仅可以揭示细胞组织和功能原理,为特定细胞生命活动提供理论依据2,而且有助于预测疾病、研制新型药物3。为了挖掘 PPIN 中的蛋白质功能模块,学者们起初提出了生物实验技术,但是随着高通量技术的发展,产生了大量的 PPIN数据4,生物实验技术由于存在时间消耗大等问题,因此越来越难以满足时代的需要,而基于机器学习的聚类方法具有效率高的特点5-6,逐渐被学者们应用到蛋白质功能模块检测领域7-9,然而由于 PPIN 结构的高维复杂性,直接对PPIN 进行聚类的方法不能够有效利用 PPIN 中蕴含的信息。网络嵌入方法可以把 PPIN 从高维空间嵌入低维向量空间,降维后的低维向量有着丰富的PPIN 结 构 信 息 和 蛋 白 质 的 基 因 本 体(Gene Ontology,GO)属性信息。因此,有一些研究开始探索先通过网络嵌入对 PPIN 进行降维再进行聚类得到蛋白质功能模块的方法,主要包括以下 3种:1)基于矩阵分解的网络嵌入方法,将 PPIN 以矩阵的形式表示节点之间的连接,并对该矩阵进行分解以获得PPIN 的低维向量表示,再聚类获得蛋白质功能模块检测结果10-11;2)基于随机游走的网络嵌入方法,通过模拟两个蛋白质在 PPIN 上进行随机游走,如果两个蛋白质在 PPIN 上的随机游走路径有所重叠,那么两者之间拥有相近的低维向量表示12-13;3)基于深度学习的网络嵌入方法,先通过深度学习模型获得PPIN 中的深层次特征,例如基于多层感知机的自编码器14、基于图卷积神经网络的自编码器15-16等对PPIN 中的信息进行深层次刻画,再进行聚类得到蛋白质功能模块检测结果。尽管现有基于网络嵌入的 PPIN 功能模块检测方法已经取得了较好的检测结果,但是仅对 PPIN 中的蛋白质节点信息进行网络嵌入,忽略了 PPIN 中的边权重信息。根据 GOYAL等17的研究发现,如果将节点间的边权重信息嵌入低维向量,那么低维向量将更准确地反映网络信息。更重要的是 PPIN 中相连的蛋白质发挥的生物功能和执行的生物过程相似程度不同,两者间功能相似性有所差异,因此边的权重大小不一18。为了能够对 PPIN 中蛋白质间的边权重信息进行网络嵌入,本文提出基于边权重信息深度网络嵌入的蛋白质功能模块检测方法(EWNE)。该方法首先结合 PPIN 的拓扑结构和 GO 属性信息,通过图注意力(Graph ATtention,GAT)网络的注意力系数对蛋白质的一阶边权重信息进行嵌入;然后通过长短期记忆(Long Short-Term Memory,LSTM)网络的遗忘门和输入门对蛋白质的高阶边权重信息进行嵌入;最后通过核心附属聚类算法得到最终的蛋白质功能模块。1相关工作 1.1网络嵌入方法网络嵌入是指通过学习网络中每个节点的低维向量,将高维且稀疏的网络数据映射为低维且稠密的向量数据的技术19。通常该映射需要不断优化,以便使低维向量能够更好地反映原始网络中的信息。通过网络嵌入手段,节点分类、推荐系统、欺诈检测、网络聚类等现有网络分析任务都可以得到更有效的解决方案20。迄今为止,网络嵌入方法主要分为基于矩阵分解、基于随机游走和基于深度学习3类。由于前 2种方法存在参数无法共享、无法利用节点属性信息、泛化能力较差等问题,因此基于深度学习的网络嵌入方法更受学者们的青睐21。例如,VELIKOVI 等22提出的图注意力网络是一种基于深度学习的网络嵌入方法,它使用注意力机制为节点的一阶邻居分配权重,再根据权重来聚合周围邻居特征,从而将一阶边权重信息融入低维向量,但是堆叠多层的 GAT也只可对一阶边权重信息进行网络嵌入,无法对高阶边权重信息进行网络嵌入。长短期记忆网络23属于基于深度学习的网络嵌入方法,具有输入门和遗忘门这 2种门控机制,可以用于衡量节点与其高阶邻居间的权重。1.2PPIN功能模块检测方法蛋白质相互作用网络功能模块检测是一种挖掘PPIN 中由蛋白质组成的功能模块的技术,功能模块的检测有助于揭示细胞的组织和功能原理24,推动蛋白质组学研究的进步和发展。伴随机器学习技术的应用及推广,学者们提出了一系列机器学习方法进行蛋白质功能模块检测。WU 等5提出基于核心附属聚类的蛋白质功能模块检测方法(COACH),该方法首先从 PPIN 中检测出连接紧密的核心团,然后将剩余蛋白质逐个添加到核心团的附属蛋白质,以形 成 具 有 生 物 学 意 义 的 蛋 白 质 功 能 模 块。ALDECOA 等6提出基于层次聚类思想的蛋白质功能模块检测方法(Jerarca),该方法首先计算蛋白质节点之间的距离权重,然后通过权重来构建层次树,最后根据层次树进行划分得到蛋白质功能模块。BADER 等7提出基于密度聚类的蛋白质功能模块检测方法(MCODE),该方法首先计算蛋白质节点的局部密度,从而决定每个节点权重,使权重高的节点作为种子节点,再向外扩张形成最后的功能模块。KING 等8提出基于聚类划分的蛋白质功能模块检测方法(RNSC),该方法首先对 PPIN 进行随机分区,然后迭代地将各个分区边界上的蛋白质节点移动到相邻的分区中,根据代价函数以最低的代价划分出更好的蛋白质功能模块。JI等9提出基于群智能聚类的蛋白质功能模块检测方法(NACO-FMD),该方70第 49卷 第 8期李泽水,冀俊忠,杨翠翠:基于边权重信息深度网络嵌入的 PPIN功能模块检测法通过结合 PPIN 的拓扑结构信息以及生物属性信息,利用蚁群优化算法进行功能模块检测,并通过一系列启发式策略以及后处理方法来优化检测结果。近年来,学者们开始探索先通过网络嵌入方法将 PPIN 嵌入低维向量空间再对低维向量进行聚类的 PPIN 功能模块检测方法。XU 等10提出一种蛋白质 功 能 模 块 检 测 方 法(GANE),该 方 法 首 先 使 用AANE 矩阵分解网络嵌入方法来获得 PPIN 的低维向量表示,然后使用核心附属聚类方法来获得蛋白质功能模块。XU 等11又提出一种蛋白质功能模块检测方法(GLONE),先通过使用 TADW 矩阵分解网络嵌入方法获得融合结构信息与属性信息的 PPIN的低维向量表示,再使用种子扩散聚类方法来获得蛋白质功能模块。LIU 等12通过结合矫形信息将多个 PPIN 连接为一个网络,然后通过随机游走网络嵌入方法得到每个蛋白质节点的低维向量表示,接着通过种子扩散方法得到最后的蛋白质功能模块。YAO 等13首先使用随机游走网络嵌入方法得到拓扑相似性矩阵,然后通过 GO属性信息得到功能相似性矩阵,接着将两者合并,通过合并得到的相似性矩阵对 PPIN 进行聚类,得到一些蛋白质簇,最后合并重叠的蛋白质簇得到最终预测的蛋白质功能模块。上述基于矩阵分解和随机游走的网络嵌入方法获得的低维向量表示多数是浅层和线性的,往往不能很好地捕获并结合非线性的属性信息和结构信息25。这也促使了基于深度学习网络嵌入的 PPIN 功能模块检测的发展。ZHANG 等14提出一种蛋白质功能模块检测方法(DANE),该方法首先使用一种半监督深度学习模型来实现网络嵌入,获得融合结构信息与属性信息的低维向量表示,然后使用核心附属方法来获得蛋白质功能模块。ZHU 等16提出一种仅使用 PPIN 结构信息的网络嵌入方法,该方法首先使用 DeepWalk获得每个蛋白质的低维向量表示,通过邻居节点选择算法,将邻居节点当作属性特征;然后使用基于 GCN 的半监督模型来训练获得最终的蛋白质低维向量表示;最后使用 COACH 方法来获得蛋白质功能模块。2基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法 为了充分利用边权重信息,本文提出一种基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法。该方法通过 GAT 和 LSTM 将 PPIN 中的边权重信息嵌入低维向量空间,并利用核心附属聚类完成蛋白质功能模块检测,具体步骤为:1)为了将蛋白质的一阶边权重信息嵌入低维向量空间,使用 GAT 注意力系数来衡量蛋白质与其直接邻居间的一阶边权重,并根据该权重进行特征融合,使低维向量蕴含一阶边权重信息;2)为了将蛋白质的高阶边权重信息嵌入低维向量空间,使用 LSTM 遗忘门和输入门来衡量蛋白质与其间接邻居的高阶边权重,并根据该权重进行特征的提取和过滤,从而使低维向量能够蕴含高阶边权重信息;3)基于网络嵌入得到的低维向量信息,利用核心附属聚类方法得到蛋白质功能模块检测结果。EWNE方法框架如图 1所示。输入为 PPIN网络及其蛋白质具有的 GO 属性信息,首先由 GAT 计算出每个蛋白质与其邻居间的一阶边权重,并根据此权重对周围邻居进行特征聚合,从而将一阶边权重信息嵌入低维向量。然后由 LSTM 的输入门和遗忘门计算出蛋白质与其高阶邻居间的权重,并根据此权重对高阶邻居进行特征的过滤和提取,从而将高阶边权重嵌入到低维向量中。经过 GAT与 LSTM 多次堆叠后,得到整个网络嵌入后的低维向量。最后根据该低维向量挖掘出蛋白质核心团,添加附属蛋白质从而得到蛋白质功能模块集合。图 1EWNE方法框架Fig.1Framework of EWNE method712023年 8月 15日Computer Engineering 计算机工程2.1基于 GAT的一阶边权重信息嵌入PPIN 中直接相连的两个蛋白质间的边权重,称为一阶边权重。为了能够将 PPIN 中的一阶边权重信息融入网络嵌入结果,首先通过 GAT 的注意力系数来衡量一阶边权重的大小,然后根据一阶边权重的大小将蛋白质邻居的信息聚合到蛋白质上,此时网络嵌入后得到的低维向量中就融合了一阶边权重信息。由于 GAT 的注意力系数与两个蛋白质的 GO 属性相似度成正相关,因此首先需要将 PPIN 的邻接矩阵A Rn n(其中,n是 PPIN中的蛋白质节点总数)和GO 属性矩阵X Rn m(其中,m 是 GO 属性种类总数)输入 GAT 层,由 GAT 根据蛋白质节点间属性的相似程度来衡量蛋白质间的一阶边权重信息aij:aij=exp(LeakyReLU(aTWhi|Whj)k Niexp(LeakyReLU(aTWhi|Whk)(1)其中:i为蛋白质节点;j为蛋白质 i的邻居节点;hi和hj分别为蛋白质节点 i和 j的 GO属性信息;W表示为每个属性信息分配的权重矩阵;|用于拼接左右两侧的数据,之后再与权重向量aT相乘;LeakyReLU为激活函数。当 GAT 为蛋白质节点 i与其所有的邻居节点计算完一阶边权重后,根据一阶边权重将邻居节点的特征聚合到蛋白质节点 i得到hi1:hi1=tanh()j Ni iaijWhj(2)其中:W表示为蛋白质节点 j 分配的权重矩阵;tanh为激活函数;hi1为蛋白质节点 i根据一阶边权重信息融合邻居信息后的低维向量。当经过 t层 GAT 后,蛋白质可感知到 t阶之内的信息hi1hi2hit,并且通过 GAT 的注意力系数将一阶边权重信息嵌入低维向量。2.2基于 LSTM 的高阶边权重信息嵌入在 PPIN 中间接相连的两个蛋白质间的边权重,称为高阶边权重。为了将 PPIN 中的高阶边权重信息嵌入低维向量,通过 LSTM 的输入门和遗忘门来衡量蛋白质的高阶边权重信息,再根据高阶边权重信息对蛋白质的高阶邻居特征进行提取和过滤,实现对高阶边权重信息的网络嵌入。在第 2.1 节经过 t层 GAT 后,每个蛋白质都已经感 知 到 t 阶 内 的 信 息hi1hi2hit。在 本 节 将hi1hi2hit分别输入 t层的 LSTM,由 LSTM 的输入门wie和遗忘门wif衡量蛋白质与第 t 阶邻居的权重,通过权重对hi1hi2hit中的信息进行提取和过滤,从而将高阶边权重信息嵌入低维向量。wie和wif的计算公式如下:wie=(WTetCONCAT(hituit)(3)wif=(WTftCONCAT(hituit)(4)其中:是激活函数;WTft和WTet分别是第 t 层的遗忘门和输入门的可训练参数;ui0为蛋白质的原始特征经过线性变换后的结果。在得到wie和wif后,对第 t阶邻居的信息进行提取和过滤。在 PPIN 中的每个蛋白质拥有一个由LSTM 分配的记忆细胞Ci0,用于使蛋白质记住其已拥有的特征。第 t层的 LSTM 会通过遗忘门wif过滤蛋白质现有的Ci(t-1)中权重较低的信息,通过输入门wie提取第 t 阶邻居的权重较高的信息,并通过上述过滤和提取操作得到新一层的记忆细胞Cit。C=tanh(WTCtCONCAT(hituit)(5)Cit=wifCi(t-1)+wieC(6)通过输出门oi输出细胞状态信息,即可得到融合了 t阶边权重信息的网络嵌入结果uit。oi=(WTotCONCAT(hituit)(7)uit=oi tanh(Cit)(8)LSTM 的遗忘门和输出门衡量了蛋白质与高阶邻居间的权重,从而对hit中的信息进行提取和过滤,即将 t阶边权重信息融入网络嵌入结果中并得到uit。为了训练 EWNE 模型,最小化原始邻接矩阵 A 与重构邻接矩阵A之间的差值,计算公式如下:L=i=1nj=1nloss(AijAij)(9)其中:Aij通过uit和ujt的内积计算得到。通过训练将蛋白质的一阶边权重信息和高阶边权重信息都嵌入低维向量空间。2.3核心附属聚类在对 PPIN 进行网络嵌入并得到低维向量后,借助低维向量进行聚类,得到最终的蛋白质功能模块检测结果。由于蛋白质功能模块可以看作两部分,即核心蛋白质和附属蛋白质,因此使用核心附属聚类方法得到蛋白质功能模块。该聚类方法的主要思想为:核心团蛋白质发挥独特的作用,不会出现在其他蛋白质功能模块中;附属蛋白质与核心蛋白质密切连接,且附属蛋白质可以重复使用,即不同的功能模块可以共享相同的附属蛋白质。根据这一思想,将蛋白质功能模块检测的过程分为 3个步骤:第 1步得到蛋白质间的聚合分数;第 2步产生一组核心团;第 3 步根据蛋白质间的聚合分数,将附属蛋白质添加到核心团上。2.3.1聚合分数计算根据蛋白质的低维向量计算得到蛋白质间的聚合分数,即如果两个蛋白质发生了相互作用,那么两者的聚合分数qij可以通过两者的低维向量的余弦相似性来衡量,计算公式如下:qij=CosSim(uiuj)(10)其中:ui和uj分别是蛋白质 i和蛋白质 j的低维向量;CosSim()表示余弦相似性计算函数。2.3.2核心团生成核心团中的蛋白质连接紧密,彼此之间通过相72第 49卷 第 8期李泽水,冀俊忠,杨翠翠:基于边权重信息深度网络嵌入的 PPIN功能模块检测互作用连接。因此,使用极大团挖掘算法挖掘出PPIN 中具有至少 3 个蛋白质的极大团,将其存入集合 M 中并进行以下步骤来获得核心团 ccore:1)根据 bioscore 函数对 M 中的极大团进行降序排列,这样可以同时考虑每个极大团的内部连接紧密程度和生物学相关性。bioscore(Mp)=ij Mpqij(11)2)将分数最高的极大团从 M 中移除并添加到ccore中。3)对于 M 中剩下的极大团,将其中与 ccore重复的蛋白质删除,然后检查剩下的极大团中的蛋白质数量是否少于 3个:如果小于 3个,则将其从 M 中删除。重复以上步骤,直到 M 为空,此时 ccore可以被视为真正的核心团集合。2.3.3附属蛋白质添加在得到核心团集合 ccore后,通过剩余蛋白质pi与核心团Hj之间的 conscore函数计算来决定是否将该蛋白质pi当作核心团Hj的附属蛋白质:conscore(piHj)=k Hjqikxy Hjqxy(12)如果 conscore函数值大于阈值,则认为此节点属于核心蛋白质集合。在所有的附属节点都添加完成后,得到最终的蛋白质功能模块。3实验结果与分析 3.1实验数据集与评价指标为 了 验 证 本 文 方 法 的 有 效 性,使 用 Collins、Gavin、Krogan 等 3 个公共数据集进行实验,在去除数据集中的自环和重复相互作用边后,3个数据集的节点数和边数如表 1所示。实 验 中 用 到 的 GO 属 性 信 息 从 网 站(https:/downloads.yeastgenome.org/curation/literature/go_slim_mapping.tab)进行下载。为了验证检测出的蛋白质网络功能模块是否有效,采用含有 408 个标准蛋白质功能模块的 CYC2008 作为标准数据集,并采用两组常见的评价指标进行衡量。精确率(P)、召回率(R)和 F1值(F)是一组 PPIN功能模块检测领域常见的评价指标。在计算这组指标前需要先计算邻域亲和力(Neighborhood Affinity,NA)评分,该评分用于衡量检测出的蛋白质功能模块p=(VpEp)与标准蛋白质功能模块b=(VbEb)的匹配程度,其中,V、E 分别是功能模块中的蛋白质节点集合和相互作用边集合,计算公式分别如下:NA(pb)=|Vp Vb2|Vp|Vb(13)精确率和召回率计算公式如下:P=Ncp|P(14)R=Ncb|B(15)其 中:Ncp=|p p P$b BNA(pb)|;Ncb=|b b B$p PNA(pb)|;是一个阈值,用于判定检测出的功能模块与标准功能模块是否匹配。F1 值是精确率和召回率的调和平均值,计算公式如下:F=2 P RP+R(16)敏感度(S)、正预测率(Positive Predictive Value,PPV)和准确率(A)是另外一组评价指标,计算公式分别如下:S=i=1|Bmaxj Tiji=1|BNi(17)PPPV=j=1|Amaxi Tijj=1|ATj(18)A=S PPPV(19)其中:m=|P|;n=|B|;Tij为标准模块bi与检测模块pj共有的蛋白质数量;Ni为第 i个功能模块中蛋白质的个数;Tj=i=1nTij。3.2实验参数设置为了确定所提方法的网络层数、低维向量维度、核心附属聚类阈值等参数,本节以综合指标 F1值作为衡量指标,通过实验找到最佳参数。3.2.1网络层数设置网络层数会影响模型的网络嵌入能力。为了能够找到最优的网络层数,将网络层数从 1到 5进行变化,实验结果如图 2 所示。由图 2 可以看出:如果网络层数过多,则 F1 值会下降,这是由于随着网络层数的增多,产生了过拟合的现象,即蛋白质的低维向量表示将会比较相似,对功能模块检测带来负面影响;如果层数太少,无法对远处的高阶边权重信息进行网络嵌入,导致低维向量无法很好地表达蛋白质的边权重信息。因此,将网络层数设置为 3,可获得较好的效果。表 1实验中使用的 PPIN数据集 Table 1PPIN dataset used in the experiment数据集CollinsGavinKrogan节点数/个1 6221 4302 708边数/条9 0746 5317 123732023年 8月 15日Computer Engineering 计算机工程3.2.2低维向量维度设置低维向量维度 d 的大小会影响低维向量的表达能力,进而影响后续的聚类任务。因此,需要找到最佳的低维向量维度。将低维向量维度 d 从 32 到 256进行变化,实验结果如图 3 所示。由图 3 可以看出,当低维向量维度过高时,聚类性能会出现下降,这主要是因为蛋白质属性是稀疏的,如果使用过高的维度进行表示,会产生过拟合的现象。总体而言,当低维向量维度为 64时即可获得较好的结果,因此将低维向量维度设置为 64。3.2.3核心附属阈值设置核心附属阈值用于判断一个蛋白质能否成为核心团的附属蛋白质。如果核心附属阈值过高,则蛋白质功能模块内部的紧密程度越高,该蛋白质更加难以成为核心团的附属蛋白质。如果核心附属阈值过低,则会使核心团拥有过多的附属蛋白质。为了找到最佳核心附属阈值,将核心附属阈值从 0.10 到0.70进行变化,实验结果如图 4所示。由图 4可以看出:当核心附属阈值为 0.100.20 时,实验结果不太理想,这是由于核心附属阈值过小,核心团的大部分邻居蛋白质都被当作附属蛋白质,使得蛋白质功能模块中包含本不属于该功能模块的蛋白质;随着核心附属阈值越来越大,蛋白质功能模块会丢弃很多本该属于它的蛋白质;当核心附属阈值为 0.35 时达到较好的效果,因此将核心附属阈值设置为 0.35。3.3一阶边权重信息对蛋白质功能模块检测的影响为了探究一阶边权重信息对蛋白质功能模块检测 结 果 的 影 响,对 GAT 的 注 意 力 机 制 进 行 修 改(EWNE-1),不再借助 GAT 的注意力机制来衡量蛋白质的一阶边权重,而是将蛋白质与 n 个邻居的一阶边权重全部固定为 1/n。在数据集上进行实验,实验结果如表 2所示。由表 2可以看出,EWNE在各项指标上均高于 EWNE-1,这说明了如果没有将蛋白质的一阶边权重信息嵌入低维向量,则会使低维向量无法表示蛋白质与其直接相连邻居的紧密程度,导致在聚类阶段无法很好地将其划分到一个蛋白质功能模块中。以上实验结果验证了一阶边权重信息对蛋白质功能模块检测的重要性。3.4高阶边权重信息对蛋白质功能模块检测的影响为了验证高阶边权重信息对蛋白质功能模块检测的影响,将删除 LSTM(EWNE-2),即不将高阶边权重信息进行网络嵌入,仅使用 GAT 对一阶边权重信息进行网络嵌入,实验结果如表 3所示。由表 3可以看出,在精确率、召回率、F1 值、准确率等指标上,EWNE 比 EWNE-2 具有更好的表现,这主要是由于没有考虑高阶边权重信息,低维向量无法很好地反映蛋白质节点与高阶邻居间的关系,从而导致在聚类阶段无法将距离较远的蛋白质划分到同一个功能模块中,使得蛋白质功能模块检测质量下降。以上实验结果验证了高阶边权重信息对蛋白质功能模块检测的重要性。图 2网络层数对比Fig.2Comparison of number of network layers图 3低维向量维度对比Fig.3Comparison of low-dimensional vector dimensions表 2 3个数据集上的一阶边权重信息验证Table 2Verification of first-order edge weight information on three datasets 数据集CollinsGavinKrogan方法EWNEEWNE-1EWNEEWNE-1EWNEEWNE-1精确率0.6780.6590.6040.5900.6720.653召回率0.5060.4920.4060.3970.4630.455F1值0.5800.5630.4860.4740.5480.536准确率0.6010.5930.5420.5350.5450.581图 4核心附属阈值对比Fig.4Comparison of core attachment thresholds74第 49卷 第 8期李泽水,冀俊忠,杨翠翠:基于边权重信息深度网络嵌入的 PPIN功能模块检测3.5与其他方法的对比本节在 Collins、Gavin、Krogan 等 3 个不同规模的数据集上将所提方法与 6 种方法进行对比实验,包括直接对 PPIN 进行聚类的 COACH 和 BA-FMD方 法,还 有 对 PPIN 进 行 网 络 嵌 入 后 再 聚 类 的GLONE、GANE、SSNE、DANE 等方法,这些方法的参数均设置为原文献中的默认参数。使用精确率、召回率、F1 值、准确率作为衡量指标,实验结果如图 5图 7 所示。在 Collins 数据集上,EWNE 方法在精确率(67.8%)、F1值(58.0%)和准确率(59.6%)上都取 得 了 最 好 的 结 果,相 比 于 COACH、BA-FMD、GLONE、GANE、SSNE 和 DANE 方法,精确率提高27.7、24.7、14.6、10.1、14.2、0.4 个百分点,F1 值提高12.9、12.2、7.7、4.1、4.6、1.0 个百分点,准确率提高9.0、18.1、6.3、3.5、4.2、0.8 个 百 分 点,召 回 率 低 于COACH 和 SSNE 方法。在 Gavin 数据集上,EWNE方法同样在精确率、F1 值和准确率上取得了最好的结果,召回率略低。在 Krogan 数据集上,EWNE 方法在 F1值和准确率上均取得了最好的结果,在精确率上仅低于 GANE 方法,在召回率上仅低于 SSNE方法。综合以上 3个数据集的实验结果可以看出:1)EWNE 方法在精确率指标上表现较好,在召回率指标上没有取得最好的结果,这可能是因为EWNE 方法预测出的蛋白质功能模块的数量不多,但与其他方法相比差距不大,并且没有过多地影响综合评价指标的表现。2)EWNE 方法在综合性指标 F1 值和准确率上表现较好,这可能是因为:(1)EWNE 方法考虑了PPIN 中的边权重信息,在一定程度上可以缓解由噪声引起的假阳性相互作用问题;(2)EWNE方法可使处于同一个功能模块的蛋白质的低维向量更相似,达到类内距离小、类间距离大的效果,更加适用于下游的功能模块检测任务,提高下游蛋白质功能模块的检测质量。经过上述分析可知,EWNE 方法可以很好地对PPIN进行功能模块检测。4结束语 本文提出一种基于边权重信息深度网络嵌入的PPIN 功能模块检测方法。通过图注意力网络对一阶边权重信息进行嵌入,利用长短期记忆网络的遗忘门和输入门对高阶边权重信息进行嵌入得到低维向量,并借助得到的低维向量使用核心附属聚类方法,计算得到最终的蛋白质网络功能模块。实验结果表明,该方法可以有效地对 PPIN 中的边权重信息进行网络嵌入,从而提升功能模块检测质量。后续图 76种方法在 Krogan数据集上的结果对比Fig.7Result comparison of six methods on Krogan dataset图 66种方法在 Gavin数据集上的结果对比Fig.6Result comparison of six methods on Gavin dataset图 56种方法在 Collins数据集上的结果对比Fig.5Result comparison of six methods on Collins dataset表 3 3个数据集上的高阶边权重信息验证Table 3Verification of high-order edge weight information on three datasets数据集CollinsGavinKrogan方法EWNEEWNE-2EWNEEWNE-2EWNEEWNE-2精确率0.6780.6540.6040.5740.6720.662召回率0.5060.5020.4060.3960.4630.452F1值0.5800.5680.4860.4680.5480.536准确率0.6010.5810.5420.5360.5450.511752023年 8月 15日Computer Engineering 计算机工程将尝试对 PPIN 中蛋白质的角色结构等其他有价值的信息进行网络嵌入,进一步提升蛋白质功能模块检测效果。参考文献 1 UHLN M,FAGERBERG L,HALLSTRM B M,et al.Tissue-based map of the human proteome J.Science,2015,347(6220):1260419.2 MANIPUR I,GIORDANO M,PICCIRILLO M,et al.Community detection in protein-protein interaction networks and applications J.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2023,20(1):217-237.3 JI J Z,ZHANG A D,LIU C N,et al.Survey:functional module detection from protein-protein interaction networks J.IEEE Transactions on Knowledge and Data Engineering,2014,26(2):261-277.4 MENG X M,LI W K,PENG X Q,et al.Protein interaction networks:centrality,modularity,dynamics,and applicationsJ.Frontiers of Computer Science,2021,15(6):1-17.5 WU M,LI X L,KWOH C K,et al.A core-attachment based method to detect protein co

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开