分享
多信息融合和自注意力识别新冠磷酸化位点_闫路.pdf
下载文档

ID:2572051

大小:1.92MB

页数:7页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
信息 融合 注意力 识别 磷酸化 闫路
()年 第 卷 第 期 收稿日期:基金项目:国家自然科学基金面上项目()作者简介:闫路,女,硕士研究生,主要从事生物信息学研究,:;通信作者 王明辉,博士,教授,主要从事科学计算和生物计算研究,:。本文引用格式:闫路,来佳丽,王明辉 多信息融合和自注意力识别新冠磷酸化位点 重庆理工大学学报(自然科学),():,(),():()多信息融合和自注意力识别新冠磷酸化位点闫 路,来佳丽,王明辉(青岛科技大学 数理学院,山东 青岛)摘 要:由严重急性呼吸系统综合症冠状病毒 ()引起的疾病正在威胁着人们的健康。识别磷酸化位点是理解感染新型冠状病毒的分子机制的重要步骤。由于实验方法的局限性,建立有效的预测模型是非常有必要的,由此提出一种新的新冠磷酸化位点预测模型。利用二肽组成(),增强氨基酸组成(),组成、转化和分布(),四种特征提取方法将蛋白质序列信息转化为数字信息,并首尾相连融合这些特征,采用互信息方法去除冗余信息。利用 和自注意力机制结合构建深度学习模型预测新冠磷酸化位点。利用五折交叉验证对模型进行检验。训练集的 和 值分别达到 和,独立测试集的 和 值分别达到 和。实验结果表明:方法能够有效识别新冠磷酸化位点。关 键 词:新冠磷酸化;多信息融合;自注意力机制;深度学习中图分类号:文献标识码:文章编号:()引言 年新型冠状病毒肺炎()是一种高度传染性的疾病,该疾病已经在世界各地迅速传播并引发了健康和社会经济危机。目前为止,还没有普遍有效的治疗方法,尽管已经有针对新型冠状病毒()感染的各种候选疫苗,但它们也可能无法控制由 引起的大流行疾病。开发有效的治疗策略来对抗 感染显得尤为紧迫。了解 感染后宿主细胞调节的分子机制,可以确定细胞中新冠病毒蛋白的磷酸化位点,进一步推测所涉及的宿主激酶以及 驱动的功能,表明它们可以在感染细胞中有效修饰。这将为新冠肺炎的药理治疗提供潜在途径。然而,传统的实验方法费时费力,计算方法是更好的选择。目前,已经提出了相当多的计算方法来识别磷酸化位点。等开发了一种非激肽特异性磷酸化位点预测工具,使用 作为分类器预测蛋白质磷酸化位点。使用卷积神经网络来预测磷酸化位点。利用深度神经网络预测磷酸化位点。这些已被证明优于以前的传统机器学习方法。目前识别新冠磷酸化位点仍然存在很多困难和挑战,主要有以下 个方面。不同的特征提取方法对模型的预测结果有较大的影响,而且单个特征提取方法不能很全面地提取新冠磷酸化的序列信息。数据冗余严重影响模型的性能,利用特征选择等方法预测结果有明显差别。利用传统的分类器和一般的深度学习方法识别新冠磷酸化位点遇到了瓶颈。因此,针对以上困难,开发新的计算方法,成为了识别新冠磷酸化的研究重点。提出一种新的新冠磷酸化位点预测方法。首先,利用 种特征提取方法,即二肽组成(,),增强氨基酸组成(,),组成、转化和分布()以及,将蛋白质序列信息转化为数字信息,并从多视角进行多信息融合这些特征。其次,利用互信息(,)去除冗余和不相关信息,最后使用构建的深度学习分类模型()对新冠磷酸化位点进行分类预测,利用五折交叉验证对模型进行检验。实验结果表明,提出的 方法能够有效地鉴定识别新冠磷酸化位点。材料与方法 数据来源本研究数据集来源于 等构建的数据集,该数据集是从文献中收集了感染 的人 细胞的实验验证的磷酸化位点。为了减少磷酸化蛋白的序列冗余并避免模型过度拟合,使用 程序,对蛋白质序列相似性大于 的序列进行剔除。为了便于与其他现有磷酸化位点预测方法进行比较,将处理后的序列截断为 个残基长的序列片段,其中 位于中心。如果片段的中心 磷酸化,则将其定义为阳性样品,否则,它被定义为阴性样本。综上所述,得到 位点阳性样本 份,阴性样本 份。并将数据集随机分为严格不重叠的训练集和独立测试集,比例为 。特征提取:对于 种天然氨基酸,进行两两组合可能出现 种情况,每一种两两组合的氨基酸对,称为一个二肽。是计算给定蛋白质序列的氨基酸对的出现频率,即二肽的频率。利用 算法,每条蛋白质序列可以生成 维特征向量。:由 等提出,计算固定长度子序列的氨基酸出现频率,计算公式为:(,)(,)(),(,)()其中:(,),(,)是滑动窗口 中氨基酸类型 的个数,()是滑动窗口 的大小,固定长度的序列窗口大小默认值为。:可以表征蛋白质序列的物理化学性质和氨基酸序列组成的分布模式。使用 种物理化学性质来计算蛋白质特征信息,可以总共可以生成 维特征向量。:矩阵建立在氨基酸序列的比对上,个肽序列之间的同一性不超过。矩阵中的每一行都被用来编码 个氨基酸之一,序列长度为 的氨基酸序列可得到 维的特征向量。特征选择可以度量统计量之间存在的关联性,捕捉变量之间的线性和非线性关联。假设 个离散随机变量 和 的 定义为:(,)(,)(,)()()()其中:()为概率函数。根据定义,()(,)(,),()(,),独立随机变量相等。深度学习框架本研究构建的深度网络框架由自注意力机制、双向长短时记忆网络()和全连接层结合构建,称为。构建的深度学习网络框架融合了多个组件的优点,可以使学习更有效。接下来,将按顺序介绍框架中从输入到输出的所有组件。)自注意力机制为了更好地捕捉蛋白质序列之间的交互信息,在模型中采用了一种自注意机制。自注意力机制可以捕获蛋白质序列中上下信息之间的长闫 路,等:多信息融合和自注意力识别新冠磷酸化位点期依赖关系。它可以有选择性地对一些重要蛋白质信息给予更多的关注,给予较高的权重,而对其他信息给予较低的权重。首先,根据上一层输出的嵌入向量得到、个注意力向量表示:,()其中:矩阵、分别表示一组查询、键和值(输入 输出序列),、表示学习的线性运算,对 和 进行缩放点积运算,得到相似度权重,然后利用 函数对相似度权重进行归一化。注意力矩阵 的计算如下:(,)|()其中:是一个比例因子;是一个列式归一化函数;表示注意力矩阵。)的工作原理类似于。然而,除了称为细胞的内部处理单元之外,它们在称为遗忘门、更新门和输出门的循环神经元的门的使用上有所不同。在输入层的顶部使用 层。在每个序列索引位置 的门一般包括遗忘门、输入门和输出门 种。遗忘门可以表示为:()()输入门由 部分组成,第一部分使用了 激活函数,输出为,第二部分使用了 激活函数,输出为,两者的结果相乘去更新细胞状态,可以表示为:()()()()其中:、和 为线性相关系数,和 为偏置向量,为 激活函数。细胞状态 由 部分组成,其公式为:()隐藏状态 的更新由 部分组成,即()()()()接下来,将前向隐藏层和后向隐藏层结合得到()随后,将上面得到的隐藏状态输入到全连接神经网络并利用式()将结果输出。()本研究的模型使用 防止模型过拟合,作为模型的激活函数,使用 函数计算每个参数的自适应学习率,作为交叉熵损失函数来评价模型的优劣,用于对新冠磷酸化位点和非新冠磷酸化位点行分类,整个深度学习框架通过 实现。模型评估为了有效地评估模型的性能,选择五折交叉验证和独立测试集对模型进行性能评估,选用准确性()、特异性()、敏感性()与马氏关系数()来作为评估模型性能的指标,具体公式如下:()()()()()()()()其中:表示正确预测新冠磷酸化位点的数量,定义为真阳性;表示正确预测非新冠磷酸化位点的数量,定义为真阴性;表示错误的预测为新冠磷酸化位点的数量,定义为假阳性;表示错误预测非新冠磷酸化位点的数量,定义为假阴性。此外,还选择 和 曲线作为衡量模型优劣的标准,和 分别是 和 曲线下面积,曲线下面积越大代表模型的泛化能力和鲁棒性越好。统计性检验也通常被用来作为验证预测模型是否有效的方法,双侧 检验方法可以用来评估交叉验证的显著性是否明显。采用双侧 检验检测模型的。为方便起见,提出的新冠磷酸化位点预测方法称之为,所提出的模型的总体架构流程如图 所示。实验环境为:()().,。图 预测方法流程 模型可以描述为以下几个步骤:)获得训练集和测试集。数据包括新冠蛋白质序列及其对应标签,并严格按照按 划分训练集和独立测试集。)特征提取。利用 种特征编码方法(、和),将蛋白质序列信息转化为数字信息并进行多信息融合得到 维特征向量。)特征选择。利用 特征选择算法对融合的特征向量去除冗余和不相关信息。)分类器。根据步骤)、),将所选取的最优特征子集以及所对应的类别标签,输入到 分类器中预测新冠磷酸化位点。)模型评估。根据步骤)中建立的模型采用五折交叉验证和独立测试集对模型进行评估。以、值作为评价指标,并绘制 曲线和 曲线,并且使用独立的测试数据集对模型进行测试。结果与讨论 特征提取和特征选择对结果的影响在生物信息学中使用有效的特征方法对模型预测结果有重要的影响,然而使用单一的特征提取方法不能较好地说明新冠磷酸化位点的特征信息,采用 种特征提取方法(、和)进行多信息融合,并利用 对多信息融合后的信息进行特征选择,然后将选择的最优特征子集输入到 分类器中预测新冠磷酸化位点。各指标预测值的结果如表 所示。表 不同特征提取方法的预测结果比较方法 注:表示 种特征提取方法的多信息融合;表示进行多信息融合之后再进行特征选择。由表 可知,多信息融合 种特征提取方法后的、和 值分别为 、.、和 ,均高于其他特征提取方法的指标。其中 值高出 闫 路,等:多信息融合和自注意力识别新冠磷酸化位点,值高出 。多信息融合之后再进行特征选择后的、和 值分别为 、和 。综合分析多个指标预测结果,多信息融合之后再进行特征选择能准确地提取蛋白质的信息,能更好地提高模型的预测性能。分类器结果的影响为了验证构建的分类模型()的有效性,选用 种分类算法进行对比,其中包括、卷积神经网络()、长短时记忆网络()和门控循环神经网络(),其中、种分类算法均采用默认参数。使用 个卷积层,一个最大池化层和一个完全连接的输出层。使用 个 层和一个全连接的输出层。使用 个 层和一个全连接层。使用一个自注意力层、个 层和 个全连接层。种分类模型的 和 值如图 所示,与其他分类器的 值检验结果如表 所示。图 对比不同分类器的 和 曲线 由图 可以看出,分类器的 和 曲线都明显覆盖了其他的分类器,值和 值分别达到 和 ,其中 值高出其他分类器对应指标值的 ,值高出 。因此,在 数据集上的 和 曲线值均高于其他 个分类模型,达到最好的预测效果。因此构建的 分类模型表现出更好的鲁棒性和泛化能力,能更准确地预测新冠磷酸化位点。如表 所示,在显著性水平下,在、和 方面,构建的 分类器在统计性检验上大多 都 优 于、和 分类器,说明所构建的深度学习框架与其他分类器具备显著性差异,有较好的统计学意义。因此,采用 分类模型作为识别新冠磷酸化位点的最佳分类器。表 分类器与其他分类器的 值(检验)在独立测试集上本文方法与其他方法的比较为了进一步评估 的性能,使用独立的测试数据将 与几种现有的磷酸化位点预测工具进行比较,这些模型分别为、,如图 所示。从图 中可以看出,构建的模型 在独立测试集上达到了较好效果,和 值分别达到 和 ,均超过了其他现存的磷酸化位点预测模型,不同指标结果表明提出的 预测模型明显提高了预测精度。说明构建的模型具有很好的鲁棒性和泛化能力,在很大程度上提高了磷酸化位点的预测性能。图 基于独立集测试集本文方法和现存方法对比的指标结果 结论磷酸化位点的鉴定是了解 感染的分子机制和宿主细胞通路内变化的重要步骤。用于鉴定磷酸化位点的计算模型可以加速这些新型候选药物的开发。通过机器学习预测模型能极大减少实验鉴定新冠磷酸化位点的工作量,提出一种新的识别新冠磷酸化预测模型,通过多信息融合蛋白质不同方面的信息,将蛋白质的序列信息转化为数字信息,然后利用 去除冗余和不相关信息,首次使用自注意力机制和 网络结合来构建深度学习框架识别新冠磷酸化位点。通过五折交叉验证和独立测试集对模型进行性能评估。在五折交叉验证下 训练集的 值达到 ,独立测试集上的 值达到 。在训练集和独立测试集上的最终结果都达到了较好的预测效果。因此,提出的模型 能够有效预测新冠磷酸化位点,为实验鉴定新冠磷酸化位点提供更有意义的指导和帮助

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开