南开大学学报(自然科学版)ActaScientiarumNaturaliumUniversitatisNankaiensisVol.56№1Feb.2023第56卷第1期2023年2月收稿日期:2020-12-28作者简介:杨佳(1995-),女,河北邯郸人,硕士研究生.通讯作者:刘海员(1972-),男,江西永修人,副教授,研究方向:生物信息学、信息论与编码理论.E-mail:liuhaiyuan@nankai.edu.cn.文章编号:0465-7942(2023)01-0001-07基于PSO_BP神经网络的固有无序蛋白质预测杨佳,刘海员(南开大学电子信息与光学工程学院,天津300350)摘要:通过对蛋白质有序-无序区域分析,找到表示氨基酸的34维特征.其中,样本熵是用于计算时间序列复杂度的参数,通过比较20种氨基酸在两种区域的出现频率,将其对应为0-9的时间序列,从而计算蛋白质的复杂度.另外,使用长度为35的滑动窗口将相邻氨基酸联系起来,提高了预测准确度.最后,使用粒子群算法优化BP神经网络的节点参数,训练并实现有序-无序分类的5个网络,取均值后转化为有序-无序输出.使用DisProt数据集和R80数据集分别进行十折交叉验证,预测准确率分别达76%和87%以上.关键词:生物信息学;固有无序蛋白质;神经网络;粒子群优化算法中图分类号:TP301文献标识码:A0引言有些蛋白质不具有稳定三维结构却仍能行使正常的生物学功能,称为固有无序蛋白(IntrinsicallyDisorderedProteins,IDPs)[1-2].蛋白质无序区域在包括转录和翻译的生物过程中具有功能性作用[3],与许多疾病相关[4],例如遗传疾病、帕金森氏病和癌症.预测IDPs对蛋白质的结构和功能分析均至关重要.传统生物学方法预测无序蛋白是通过实验获取数据再分析归纳获得结果,如X射线晶体衍射技术(X-ray)[5]、核磁共振技术(NMR)[6]等.但这些方法成本高、周期长,很难实现大规模预测.于是研究人员试图通过计算方法构建固有无序蛋白预测模型,如GlobPlot[7],FoldUnfold[8],RONN[9],ESpritz[10]等.2017年,Hanson等人提出SPOT-Disorder[11],使用深度双向长短期记忆循环神经网络对固有无序蛋白质进行预测.2020年,他们又提出了SPOT-Disorder2[12],使用深层挤压-激发残基和长短期记忆网络的集合,通过进化信息输入和预测一维结构特性来预测无序区域.基于蛋白质一级结构即氨基酸序列[13],使用34维特征表示每个氨基酸,并使用滑动窗口增加相邻残基间相关性,计算出每条蛋白质序列的特征矩阵,使用BP神经网络作为分类器,使用粒子群算法对神经网络的参数进行优化,并训练出5个效果较好的网络,采取对5个网络的结果取均值的方式获得最终输出.1数据集构建及特征值选择DisP...