TechniquesandMethods技术与方法生物化学与生物物理进展ProgressinBiochemistryandBiophysics2023,50(3):657~667www.pibb.ac.cn基于注意力机制的RNA碱基关联图预测方法*曹一航黄强**(复旦大学生命科学学院,上海200438)摘要目的长链非编码RNA在遗传、代谢和基因表达调控等方面发挥着重要作用。然而,传统的实验方法解析RNA的三级结构耗时长、费用高且操作要求高。此外,通过计算方法来预测RNA的三级结构在近十年来无突破性进展。因此,需要提出新的预测算法来准确的预测RNA的三级结构。所以,本文发展可以用于提高RNA三级结构预测准确性的碱基关联图预测方法。方法为了利用RNA理化特征信息,本文应用多层全卷积神经网络和循环神经网络的深度学习算法来预测RNA碱基间的接触概率,并通过注意力机制处理RNA序列中碱基间相互依赖的特征。结果通过多层神经网络与注意力机制结合,本文方法能够有效得到RNA特征值中局部和全局的信息,提高了模型的鲁棒性和泛化能力。检验计算表明,所提出模型对序列长度L的4种标准(L/10、L/5、L/2、L)碱基关联图的预测准确率分别达到0.84、0.82、0.82和0.75。结论基于注意力机制的深度学习预测算法能够提高RNA碱基关联图预测的准确率,从而帮助RNA三级结构的预测。关键词深度学习,RNA碱基关联图,结构预测,注意力机制中图分类号Q812DOI:10.16476/j.pibb.2022.0241RNA作为生物大分子在遗传代谢、细胞表达调控等方面作为调控因子发挥生物学功能[1-2]。RNA分子通过三级结构形成的空间构象与其他分子发生相互作用或反应。因此,解析其结构能够更有效地研究它与其他分子的相互作用机制。RNA分子的三级结构包括所有碱基原子的空间坐标及其在三维空间中的相互作用关系[3]。三级结构的相互作用主要包括共价键的相互作用、氢键相互作用、范德华力及其他非键相互作用[4]。目前,冷冻电镜技术[5]是获得RNA分子三级结构的常用手段。尽管该方法能得到精确的三级结构,但是价格昂贵、实验周期长等缺点限制了该技术的大规模使用。这促使研究人员开发基于计算的预测算法来快速地预测RNA的三级结构。RNA三级结构的预测算法主要可分为两类,基于先验知识的预测算法和基于核酸分子物理化学特征的预测算法。其中,基于先验知识的三级结构预测方法包括碎片组装算法[6]和同源序列比较算法[7-8]。前者将已有的RNA三级结构按照不同的标准切割成碎片再重新组合,例如按照二级结构、原子的三维空间坐标或内部碱基间的接触概率...