基于
PSO
BP
神经网络
固有
无序
蛋白质
预测
杨佳
南 开 大 学 学 报(自然科学版)Acta Scientiarum Naturalium Universitatis NankaiensisVol.561Feb.2023第56卷第1期2023年2月收稿日期:2020-12-28作者简介:杨 佳(1995-),女,河北邯郸人,硕士研究生.通讯作者:刘海员(1972-),男,江西永修人,副教授,研究方向:生物信息学、信息论与编码理论.E-mail:.杨 佳等:基于PSO_BP神经网络的固有无序蛋白质预测文章编号:0465-7942(2023)01-0001-07基于PSO_BP神经网络的固有无序蛋白质预测杨佳,刘海员(南开大学 电子信息与光学工程学院,天津 300350)摘要:通过对蛋白质有序-无序区域分析,找到表示氨基酸的34维特征.其中,样本熵是用于计算时间序列复杂度的参数,通过比较20种氨基酸在两种区域的出现频率,将其对应为0-9的时间序列,从而计算蛋白质的复杂度.另外,使用长度为35的滑动窗口将相邻氨基酸联系起来,提高了预测准确度.最后,使用粒子群算法优化BP神经网络的节点参数,训练并实现有序-无序分类的5个网络,取均值后转化为有序-无序输出.使用DisProt数据集和R80数据集分别进行十折交叉验证,预测准确率分别达76%和87%以上.关键词:生物信息学;固有无序蛋白质;神经网络;粒子群优化算法中图分类号:TP301文献标识码:A0引言有些蛋白质不具有稳定三维结构却仍能行使正常的生物学功能,称为固有无序蛋白(IntrinsicallyDisordered Proteins,IDPs)1-2.蛋白质无序区域在包括转录和翻译的生物过程中具有功能性作用3,与许多疾病相关4,例如遗传疾病、帕金森氏病和癌症.预测IDPs对蛋白质的结构和功能分析均至关重要.传统生物学方法预测无序蛋白是通过实验获取数据再分析归纳获得结果,如X射线晶体衍射技术(X-ray)5、核磁共振技术(NMR)6等.但这些方法成本高、周期长,很难实现大规模预测.于是研究人员试图通过计算方法构建固有无序蛋白预测模型,如GlobPlot7,FoldUnfold8,RONN9,ESpritz10等.2017年,Hanson等人提出SPOT-Disorder11,使用深度双向长短期记忆循环神经网络对固有无序蛋白质进行预测.2020年,他们又提出了SPOT-Disorder212,使用深层挤压-激发残基和长短期记忆网络的集合,通过进化信息输入和预测一维结构特性来预测无序区域.基于蛋白质一级结构即氨基酸序列13,使用34维特征表示每个氨基酸,并使用滑动窗口增加相邻残基间相关性,计算出每条蛋白质序列的特征矩阵,使用BP神经网络作为分类器,使用粒子群算法对神经网络的参数进行优化,并训练出5个效果较好的网络,采取对5个网络的结果取均值的方式获得最终输出.1数据集构建及特征值选择DisProt数据库14是收录固有无序蛋白的数据库,其中每条蛋白质序列均包含至少一个无序区域,其数据均由实验测定所得.使用Yang等人在RONN9中搜集并使用的R80作为第2个数据集(表1).特征值分别选用结构特性、物化特性、位置信息以及正交编码.结构特性.无序区域具有比有序区域更低的序列复杂度和氨基酸偏好性15,所以选取香农熵、拓扑熵、样本熵和GlobPlot中给出的氨基酸倾向性来表示蛋白质序列的复杂度.香农熵可以有效反映序列复杂度,给定一条表示一条长度为N的蛋白质序列W,fk(1k20)表示20种氨基酸(A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y)在序列中出现的频率.则香农熵:2 南 开 大 学 学 报(自然科学版)第56卷HS(W)=-k=120fklog2fk(1)拓扑熵16的计算依赖于复杂性函数,将蛋白质序列映射为0-1序列:体积较大的疏水氨基酸残基(I,L,V)以及芳香族的氨基酸残基(F,W,Y)映射为1,其余残基映射为0.用Pw表示复杂性函数,即长度为N的序列W包含的长度为n的不同子序列的个数.因此,拓扑熵为:Htop(w)=log2pw2n+n-11(n)n(2)其中,w2n+n-11=w(1)w(2)w(2n+n-1).样本熵的计算依赖于两种区域中氨基酸组成的具体差异,通过计算20种氨基酸在各自区域内所占百分比将氨基酸序列映射为表2所示的0-9的时间序列,再利用样本熵计算映射后的序列复杂度.对于由N个数据组成的时间序列x(j),1jN,x(j)=0,1,2,3,4,5,6,7,8,9,样本熵的计算:(1)按序号组成的一组维数为m的向量序列,Xm(1),Xm(N-m+1),其中,Xm(i)=x(i),x(i+1),x(i+m-1),1iN-m+1.这些向量代表从i点开始的m个连续的x值.(2)定义向量Xm(i)与Xm(j)之间的距离dXm(i),Xm(j)为两者对应元素中最大差值的绝对值.即:d Xm(i),Xm(j)=maxk=0,1,.,m-1(|x(i+k)-x(j+k)|)(3)(3)对于给定的Xm(i),统计Xm(i)与Xm(j)之间距离小于等于r的j(1jN-m,ji)的数目,并记为Bi.于是,Bim(r)和Bm(r)可被定义为:Bim(r)=BiN-m-1,Bm(r)=1N-mi=1N-mBim(r)(4)(4)增加维数到m+1,计算Xm+1(i)与Xm+1(j)(1jN-m,ji)的距离小于等于r的个数,记为Ai.于是,Aim(r)和Am(r)可被定义为:Aim(r)=AiN-m-1,Am(r)=1N-mi=1N-mAim(r)(5)这样,Bm(r)是两个序列在相似容限r下匹配m个点的概率,Am(r)是两个序列在相似容限r下匹配m+1个点的概率.所以样本熵可被定义为:SanpEn(m,r)=limn -ln Am(r)Bm(r)(6)当N为有限值时,可使用下式估计:SanpEn(m,r,N)=-ln Am(r)Bm(r)(7)直接使用GlobPlot论文中给出的6种氨基酸倾向性尺度值的前3种7,对每条序列长度为N的蛋白质,分别计算Remark 465(P=1),Deleage/Roux(P=2)和Bfactor(2STD)(P=3)这3种氨基酸倾向性,从而表示蛋白质序列的复杂性:Mp(w)=1Nl=1Nwp(l),p=1,2,3(8)其中,wp(l)表示蛋白质序列按表3所映射的数值序列.A0D5S0Q5E1C6G1N6K2F7P2Y7R3I8T3V8H4L9M4W9表2 氨基酸到0-9的映射表Table 2 The mapping table of amino acids to 0-9表1 DisProt数据集和R80数据集的基本情况Table 1 The basic situation of the DisProt data set and the R80 data set蛋白质条数无序区域无序残基有序残基DisProt1 6092 301185 921710 461R80781513 56629 243第1期杨 佳等:基于PSO_BP神经网络的固有无序蛋白质预测 3 物化特性.蛋白质有序区域和无序区域表现出不同的物理化学性质,使用Jens等搜集的7种物理化学特性来描述氨基酸18,包括立体参数(W1)、极化性(W2)、体积(W3)、疏水性(W4)、等电点(W5)、落选概率(W6)、折叠概率(W7),如表4所示.位置特性和正交编码.末端位置标记19是指对氨基酸序列的N-端和C-端末尾的5个位置的特殊标记,因为这些区域比起内部的蛋白质区域有更强的无序结构倾向性.将处于N-端的前5个位置分别赋值为-1.0、-0.8、-0.6、-0.4、-0.2,将处于C-端的最后5个位置分别赋值为0.2、0.4、0.6、0.8、1.0,其余位置置为0.氨基酸正交编码19是指通过20维的二元向量来表示序列中的每个氨基酸,因为氨基酸的种类为20种,表3 氨基酸倾向性映射值Table 3 The mapping value of amino acid propensity氨基酸ARNDCQEGHIP=10.173 9-0.053 7-0.214 10.291 1-0.530 10.308 80.521 40.014 90.169 6-0.290 7P=2-0.275 0-0.179 00.479 00.464 5-0.125 5-0.055 0-0.274 50.667 50.135 0-0.515 0P=3-0.140 00.063 30.212 00.348 0-0.494 00.168 00.456 00.106 0-0.091 0-0.494 0氨基酸LKMFPSTWYVP=1-0.337 90.198 4-0.111 3-0.843 4-0.055 80.262 7-0.129 7-1.371 0-0.804 0-0.240 5P=2-0.438 5-0.049 5-0.476 5-0.497 01.117 00.296 50.145 0-0.257 00.082 5-0.705 5P=3-0.389 00.402 0-0.126 0-0.526 00.180 00.126 0-0.039 0-0.726 0-0.506 0-0.463 0表4 氨基酸物理化学特性对应值Table 4 The mapping value of amino acid physicochemical properties氨基酸ARNDCQEGHILKMFPSTWYVW11.282.341.601.601.771.561.5602.994.192.591.892.352.942.671.313.033.212.943.67W20.050.290.130.110.130.180.1500.230.190.190.220.220.2900.060.110.410.300.14W31.006.132.952.782.433.953.7804.664.004.004.774.435.892.721.602.608.086.473.00W40.31-1.01-0.60-0.771.54-0.22-0.6400.131.801.70-0.991.231.790.72-0.040.262.250.961.22W56.1110.746.522.956.355.653.096.077.696.046.049.995.715.676.805.705.605.945.666.02W60.420.360.210.250.170.360.420.130.270.300.390.320.380.300.130.200.210.320.250.27W70.230.250.220.200.410.250.210.150.300.450.310.270.320.380.340.280.360.420.410.49 4 南 开 大 学 学 报(自然科学版)第56卷所以可以用这个向量中的每个元素来代表一个氨基酸.例如A=(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),对序列中的每一个氨基酸都进行类似的处理,每一条氨基酸序列都能够得到一个20维的正交特征矩阵.滑动窗口预处理.由于相邻残基在形成蛋白质时具有相似的特性,且无序残基在蛋白质序列中通常是相邻的.所以采用滑动窗口进行数据预处理,从而加强相邻残基间的相关性.假设蛋白质序列长度为L,可选取一个长度为奇数N(NL)的滑动窗口连续截取蛋白质序列,为保证每个氨基酸都能被计算N次,采取在序列两端分别补充(N-1)/2个0的方式,于是对于每个被滑动窗口截取的部分,可以计算出窗口内序列的34维特征矢量Vi(1iL).然后赋值给窗口内每个残基,并移动滑动窗口,累加每个残基所被赋予的各窗口内计算得到的矢量特征值,然后对特征向量求平均得到各氨基酸残基的最终特征矢量Xj(1jL).经过多次试验,N=35的滑动窗口可得最优效果,预处理计算式:Xj=1j+N0i=1j+N0Vi,1 j