分享
基于注意力机制的RNA碱基关联图预测方法_曹一航.pdf
下载文档

ID:2719952

大小:2.40MB

页数:11页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 注意力 机制 RNA 碱基 关联 预测 方法 曹一航
Techniques and Methods技术与方法生物化学与生物物理进展Progress in Biochemistry and Biophysics2023,50(3):基于注意力机制的RNA碱基关联图预测方法*曹一航 黄强*(复旦大学生命科学学院,上海 200438)摘要 目的长链非编码RNA在遗传、代谢和基因表达调控等方面发挥着重要作用。然而,传统的实验方法解析RNA的三级结构耗时长、费用高且操作要求高。此外,通过计算方法来预测RNA的三级结构在近十年来无突破性进展。因此,需要提出新的预测算法来准确的预测RNA的三级结构。所以,本文发展可以用于提高RNA三级结构预测准确性的碱基关联图预测方法。方法为了利用RNA理化特征信息,本文应用多层全卷积神经网络和循环神经网络的深度学习算法来预测RNA碱基间的接触概率,并通过注意力机制处理RNA序列中碱基间相互依赖的特征。结果通过多层神经网络与注意力机制结合,本文方法能够有效得到RNA特征值中局部和全局的信息,提高了模型的鲁棒性和泛化能力。检验计算表明,所提出模型对序列长度 L 的 4 种标准(L/10、L/5、L/2、L)碱基关联图的预测准确率分别达到 0.84、0.82、0.82 和 0.75。结论基于注意力机制的深度学习预测算法能够提高RNA碱基关联图预测的准确率,从而帮助RNA三级结构的预测。关键词 深度学习,RNA碱基关联图,结构预测,注意力机制中图分类号 Q812DOI:10.16476/j.pibb.2022.0241RNA作为生物大分子在遗传代谢、细胞表达调控等方面作为调控因子发挥生物学功能1-2。RNA分子通过三级结构形成的空间构象与其他分子发生相互作用或反应。因此,解析其结构能够更有效地研究它与其他分子的相互作用机制。RNA分子的三级结构包括所有碱基原子的空间坐标及其在三维空间中的相互作用关系3。三级结构的相互作用主要包括共价键的相互作用、氢键相互作用、范德华力及其他非键相互作用4。目前,冷冻电镜技术5是获得RNA分子三级结构的常用手段。尽管该方法能得到精确的三级结构,但是价格昂贵、实验周期长等缺点限制了该技术的大规模使用。这促使研究人员开发基于计算的预测算法来快速地预测RNA的三级结构。RNA 三级结构的预测算法主要可分为两类,基于先验知识的预测算法和基于核酸分子物理化学特征的预测算法。其中,基于先验知识的三级结构预测方法包括碎片组装算法6和同源序列比较算法7-8。前者将已有的RNA三级结构按照不同的标准切割成碎片再重新组合,例如按照二级结构、原子的三维空间坐标或内部碱基间的接触概率9-10;后者利用模版序列间的协同进化信息来预测目标序列的三级结构。基于核酸分子物理化学特征的预测算法通过计算最低的自由能构象来预测RNA分子的三级结构11,该方法通常采用蒙特卡罗模拟退火算法或分子动力学模拟算法12,利用动态规划方法迭代来得到目标序列的三级结构,例如SWA、FARFAR、FARNA等算法。研究表明,优化RNA内部碱基间的接触概率矩阵能显著提高碎片组装算法的预测准确率3。此外,内部碱基间的接触概率矩阵能提升直接耦合分析的准确率,这也有助于核酸的结构预测13-14。因此,RNA碱基间的接触问题受到了密切的关注。以往研究发现,蛋白质残基接触的准确性能够影响蛋白质三级结构的预测结构。通过蛋白质残基的接触绘制接触概率矩阵,并将该矩阵称为关联图。近年来,机器学习算法已经广泛应用于蛋白质 国家重大科技专项“重大新药开发”课题(2018ZX09J18112)和国家自然科学基金(31971377)资助项目。通讯联系人。Tel:021-31246589,E-mail:收稿日期:2022-05-26,接受日期:2022-07-11 658 2023;50(3)生物化学与生物物理进展 Prog.Biochem.Biophys.的关联图预测中,例如:Li等15提出残差神经网络来预测蛋白质的关联图;RaptorX16将进化偶联算法和序列保守信息整合至深度学习算法来预测蛋白质关联图;R2C算法17将支持向量机用于关联图的预测并得到了较好的准确率。此外,深度学习算法也已广泛应用于 RNA 变异位点的分类18、RNA 结合蛋白19以及 RNA 三级结构20的预测中。然而,深度学习算法在RNA关联图的预测中进展缓慢。目前,仅有RNAcontact21将深度学习算法用于RNA关联图的预测。虽然众多研究已经表明基于深度学习的预测算法往往优于传统的计算方法,但是RNAcontact仅采用深度卷积神经网络来提取特征值,该方法无法提取序列间的特征值,因此预测准确率还有待提高。针对现有的深度学习方法不能处理RNA序列中碱基间相互依赖的特征,本文提出了一种基于注意 力 机 制 的 深 度 学 习 预 测 模 型(命 名 为ATTcontact),用于预测RNA的关联图。其中,用文本注意力机制提取RNA序列的特征值,而图像注意力机制则用于提取RNA二级结构、位置特异性矩阵和协方差矩阵的特征值。首先,ATTcontact的运行仅需要RNA的序列信息和多序列比对文件。其次,为了处理特征值间对输出的影响,模型采用了 长 短 期 记 忆 网 络(long short-term memory networks,LSTM)、卷积神经网络(convolutional neural networks,CNN)、注意力机制和全连接层进行学习。最后,通过特征值间维度的转换,用全连接层预测每个碱基间的接触概率。检验计算结果表明,ATTcontact模型优于基于进化偶联算法和以往的深度学习预测方法。1数据与方法1.1数据集首先,从Protein Data Bank(PDB)库中下载具有 3D 结构的单链 RNA 序列,共得到了 729 个PDB 结构文件。随后,去除同源度高于 90%的RNA序列。为了优化运行速度,本文去除了序列长度大于300个碱基的PDB结构。预处理之后,用余下的649个PDB结构建立数据集,利用DSSR22软件提取每个PDB结构所对应的二级结构,并从649条序列随机选取500条序列作为模型的训练集,74条序列为验证集,75条序列为测试集。根据Weinreb等14的工作以及蛋白质关联图的相关研究,当RNA中碱基上的任意一个原子与另一个碱基的任意原子距离小于8 时,设定这两个碱基在三级结构上接触(设碱基对的关联值为1),否则,就认为它们在三级结构中没有发生接触(设碱基对的关联值为0)。基于这个判定标准,本研究把RNA序列中每个碱基之间的接触关联特征转换为LL大小的矩阵(L是RNA序列的长度)。因此,碱基间的接触问题可以视为二分类问题,可以应用深度学习算法进行预测。1.2深度学习网络模型本研究利用图1的深度学习模型来训练RNA数据集。模型结构包括CNN、LSTM、残差神经网络(residual net,ResNet)23和注意力机制24。注意力机制包括基于文本的注意力机制和基于图像的注意力机制。此外,注意力机制整合进残差神经网络中来提取RNA特征值中更深维度的信息。RNA序列经过独热编码(one-hot encoding)的处理后直接与文本注意力机制相连,随后用3层LSTM充分挖掘RNA的序列信息。第一部分的ResNet包含着3个一维的卷积层并以LSTM的输出作为输入。卷积层的卷积核分别为2、3、3,ReLU函数作为激活函数。该部分的网络引入0.02的丢弃率来避免过拟合。序列特征值经过一系列非线性变换后得到输出,并经过扩维运算后转换为三维张量与另外3个特征值合并,形成LL4的张量并作为第二部分神经网络的输入。在第二部分,每个ResNet中都包含了二维的卷积层和图像注意力机制。同样,每个卷积层的卷积核都是2,并用ReLU函数作为激活函数。模型采用0.02的丢弃率和标准化来避免模型的过拟合。在模型的最后,加入了两层全连接层,第一层采用ReLU激活函数,并使用0.02的丢弃率和标准化来避免过拟合,最后一层全连接层只有一个节点,用Sigmoid函数作为激活函数,将模型最后的输出转化为0,1之间的概率。模型构建采用Google公司的TensorFlow25框架(V2.16)。网络使用 Adam 优化算法,并将Cross-entropy作为损失函数来进行模型的优化。研究过程中使用了Nvidia GTX3080图形处理器来加速模型的优化速度。1.3输入值完成 RNA 三级结构数据集的构建后,生成RNA序列的特征矩阵。特征矩阵越体现RNA的理化信息,预测结果就越准确。根据Sun等21的研究,有多种参数信息对RNA三级结构的预测有影响,包括碱基的排列顺序、RNA的二级结构、溶曹一航,等:基于注意力机制的RNA碱基关联图预测方法2023;50(3)659 剂可及表面积、碱基间的相对位置、协同进化信息等。在本研究中,由于溶剂可及表面积等参数需要利用其他软件进行预测,这一步骤往往会引入错误的预测结果,使关联图的预测过程把错误结果视为真实值进行学习,从而影响模型的准确性。基于上述原因,本研究把RNA序列、位置特异性矩阵、二级结构以及基于协同进化信息得到的协方差矩阵作为神经网络的特征值。a.RNA序列。从PDB结构文件中提取RNA的碱基,并根据碱基的种型把每个碱基都转换为one-hot向量,即M_sequenceR(L4)。为了处理不同长度的RNA序列,本文将RNA序列的长度设置为300,未满300个核苷酸的RNA序列用0向量填充至300,以便于模型运算。b.二级结构(secondary structure,SS)。对于已有PDB结构文件的RNA序列,利用DSSR软件分析其三级结构的特征来得到准确的二级结构,并把二级结构转化为LL大小的矩阵,M_secondaryR(LL)。当碱基互补配对时该位置处的元素为1,否则为 0。对于没有 PDB 结构文件的 RNA 序列,则利用SPOT-RNA软件预测其二级结构并经过上述相同的方法得到二维的特征矩阵。同样地,本文将未满300个碱基的矩阵用0元素进行填充,并对矩阵进行扩维,得到LL1大小的三维矩阵。c.协方差矩阵(covariance matrix,Cov)。从NCBI 数据库中下载 FASTA 参考数据集,并利用BLASTN软件将待测RNA序列与参考数据集进行比较,最后用 Muscle 软件26得到多序列比对文件。为了得到更具有特异性的序列,本文去除了具有80%相似性的序列和空位超过50%的序列。最后,使用pydca软件27中的MeanField算法计算序列中每个碱基与另一个碱基之间的协方差,得到协方差矩阵M_CovR(LL)。对该矩阵进行填充和扩维操作后得到LL1大小的三维矩阵。d.位置特异性矩阵(position specific scoring matrix,PSSM)。采用动态规划算法计算RNA序列中每个碱基的相对位置。得分规则如下:if seqi=seqj,Ai,j=Ai-1,j-1+1 (1a)if seqi seqj,Ai,j=Ai-1,j-1+1 (1b)其中,i和j分别是碱基在序列中的位置,seq i(seq j)是在i(j)位置处的碱基,Ai,j是第i行第j列时矩阵的元素。基于上述计算方法构建了位置特异性矩阵,M_pssmR(LL),并对该矩阵进行相同的填充和扩维操作。最后,模型将经过独热编码后的RNA序列作为第一部分网络的输入,即经过文本注意力机制、LSTM和一维的CNN等非线性计算后进行扩维操作,得到LL1的张量。此外,二级结构、协方差矩阵和位置特异性矩阵等特征值合并为LL3的矩阵张量,并与第一部分网络的输出一起作为深度学习模型第二部分的输入。1.4注意力机制模型包含文本注意力机制28和图像注意力机制29。文本注意力机制主要从二维的RNA序列信息中提取特征值,并与LSTM相连。图像注意力机制包含了通道注意力机制和空间注意力机制,并与卷积神经网络整合,来提取RNA二级结构、协方差矩阵、位置特异性矩阵和RNA序列的高维特征值。图像注意力机制分别在特征值的通道和大小中寻找

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开