2022
医学
专题
蛋白质
三级
结构
预测
,蛋白质结构(jigu)预测,肖 飞,第一页,共四十页。,蛋白质三级结构预测(yc)的方法,1,2,3,第二页,共四十页。,方法(fngf)比较,第三页,共四十页。,同源(tn yun)建模比较建模,根底-相似的序列结构(jigu)相近-PDB结构数据库的快速增长-结构基因组学的启动-发散进化特点-相对精确可靠,第四页,共四十页。,假设待预测三维结构(jigu)的目标蛋白质为UUnknown,利用同源模型化方法建立结构模型的过程包括下述6个步骤:1搜索结构模型的模板(T)2序列比对 3建立骨架 4构建目标蛋白质的侧链 5构建目标蛋白质的环区 6优化模型,U T,第五页,共四十页。,预测结果准确率:对于具有60%等同的序列(xli),用上述方法所建立的三维模型非常准确。假设序列(xli)的等同局部超过60%,那么预测结果将接近于实验得到的测试结果。一般如果序列的等同局部大于30%,那么可以期望得到比较好的预测结果。,第六页,共四十页。,同源(tn yun)建模,数据库搜索,选择模板,依据模板构建骨架模型,环状、侧链的构建,优化,结构合理性评估,结构模型,YES,NO,第七页,共四十页。,分子式:pGlu-His-Trp-Ser-Tyr-Gly-Leu-Arg-Pro-Gly-NH,同源模建确定(qudng)一对柔性分子相应功能团可能的空间取向,模 板,加模板(mbn),第八页,共四十页。,3.同源(tn yun)建模法的局限性,传统的比较建模是通过PSI-BLAST找到结构的相关蛋白。最近如进行profileprofile比较和有效(yuxio)利用结构信息的更加复杂的方法已不仅显著增加了比对的质量而且远程同源(remote homologue)检测的能力。因此,比较建模和折叠识别在基于模板的建模方法中的区别现已十分模糊。开发新的比较建模和折叠识别的算法导致网上各种预测方法的出现,这包括结构预测meta-效劳器。,第九页,共四十页。,蛋白质三维结构预测效劳通过因特网对公众免费开放(同源建模):瑞士生物信息(xnx)研究所 SWISS-MODEL丹麦技术大学生物序列分析中心 CPHmodels比利时拿摩大学 ESyPred3D英国癌症研究中心 3DJigsaw,4.常用建模效劳器和软件(run jin)简介,Accelrys Discovery Studio 软件(run jin)InsightIIFAMS,第十页,共四十页。,同源(tn yun)蛋白质结构预测的方法,1片段组装法:SWISS-MODEL2距离(jl)几何法:MODELLER,SWISS-MODEL:,第十一页,共四十页。,SWISS-MODEL:/swissmodel.expasy.org/SWISS-MODEL.html,第十二页,共四十页。,提交查询(chxn)序列,第十三页,共四十页。,14,模板序列(xli)与查询序列(xli)的装载,结构(jigu)的精细比对,分子(fnz)骨架的形成,侧链形成和优化,参加氢原子、优化回环,能量最小化、结构封装,SWISS-MODEL的工作过程:,第十四页,共四十页。,15,最后(zuhu)的预测结果,第十五页,共四十页。,蛋白质具有很少的折叠类型1000 根本步骤 将目标蛋白质序列(xli)与的折叠进行比对 将目标序列“安装到选择的模板结构上 对模型进行优化、调整 检验模型的合理性 关键方法 序列-结构比对,穿针引线(chun zhn yn xin)法,第十六页,共四十页。,穿针引线方法折叠识别方法有很多蛋白质具有相似的空间结构,但它们的序列等同局部小于25%,即远程同源(tn yun)。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。,第十七页,共四十页。,对于一个未知结构的蛋白质U,如果找到一个结构的远程同源蛋白质T,那么(n me)可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。,U T远程(yunchng)同源,第十八页,共四十页。,一个远程同源模型化方法要解决三个问题:1检测远程同源蛋白质T;2U和T的序列必须被正确地比照排列;3修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。如何(rh)解决第一个和第二个问题?根本思想是建立一个从U到结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型那么是非常困难的,序列(xli)结构比对,第十九页,共四十页。,线索化的主要思想:利用氨基酸的结构倾向如形成二级结构的倾向、疏水性、极性等,评价一个序列所对应的结构是否(sh fu)能够适配到一个给定的结构环境中。,第二十页,共四十页。,建立序列到结构的线索的过程(guchng)称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找适宜的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。,第二十一页,共四十页。,线索化方法一般有5个根本组成局部:1三维折叠结构的数据库;2一种适合于进行序列-结构比对的三维折叠信息(xnx)的表示方法;3一个序列-结构匹配函数,该函数对匹配程度进行打分;4建立最优线索的策略,或者是进行序列-结构比对的策略;5一种评价序列-结构比对显著性的方法。,第二十二页,共四十页。,假设存在有限数目的核心折叠core folds核心折叠实际上是构成(guchng)蛋白质空间形状的根本模式。建立核心折叠数据库预测-建立线索,U序列(xli),与数据库核心(hxn)折叠比对,取最正确核心折叠,U结构模型,第二十三页,共四十页。,一种基于序列与结构比对的最优线索化算法令:s1,s2,sn为蛋白质序列S的n个元素 C1,C2,Cm为数据库中核心折叠(zhdi)C的m个核心区域Cij为第i个核心区域第j个氨基酸位置 每一个核心区域由假设干个氨基酸残基构成,第二十四页,共四十页。,设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素si,sj,sk,代表核心区域C1,C2,C3,的起始(q sh)位置。这实际上是一种从序列S到核心折叠C的比对令代表核心折叠C中的环到序列S中空位的映射,显然是通过线索化而确定的。,第二十五页,共四十页。,令f(t)是进行比对的得分函数,其定义如下:f(t)=g1(v,t)+g2(u,v,t)+g3(,t)g1(v,t)评价氨基酸残基v所处的位置g2(u,v,t)评价残基u和v的相对(xingdu)位置,如果u和v 键合,那么得分高;g3(,t)评价环区,根据环区的大小进行打分。线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一个从S到C的最正确映射。,第二十六页,共四十页。,动态(dngti)规划 人工神经网络 分支定界法 线性规划 Monte Carlo方法,穿针引线(chun zhn yn xin)法,第二十七页,共四十页。,理论根底 蛋白质的天然构象是热力学最稳定构象、也是 能量最低构象 能量函数 通过原子间作用力计算出的热力学能量 精确,但难以计算 伪能量函数 根据(gnj)的三维结构知识得到的势能函数 常见的结构 低能量 不常见的结构 高能量 极罕见的结构 极高能量,从头(cngtu)预测法,第二十八页,共四十页。,原子间作用力,第二十九页,共四十页。,蛋白质的势能(shnng),第三十页,共四十页。,能量(nngling)函数,第三十一页,共四十页。,蛋白质的势能(shnng),第三十二页,共四十页。,根本步骤 选择蛋白质能量函数模型 选择三维结构的表示(biosh)方法 选择三维结构的评价函数 选择寻找最优结构的优化方法 关键问题 大规模非线性规划 大量的局部极小点 在计算时间和准确度之间寻找平衡,基于能量(nngling)最小化的从头预测法,第三十三页,共四十页。,非线性规划 最速下降(xijing)法 牛顿法 共轭梯度法 全局优化方法 遗传算法 分解-结合法 离散化方法,最优化方法(fngf),第三十四页,共四十页。,分子(fnz)动力学,方法 对蛋白质中原子间的作用力进行建模 用动力学方程跟踪蛋白质折叠时每个原子的位置 求解(qi ji)这些方程的解析解是极其困难的 用离散动力系统的方法来确定数值解 问题 模拟蛋白质折叠过程是非常消耗时间的 模拟 10-9 秒的蛋白质折叠过程大约需要一天时间 蛋白质的实际折叠时间大约在 10-4 秒的数量级或者更多 需要超级计算机,第三十五页,共四十页。,新的趋势(qsh),混合(hnh)预测方法 在比较建模法和折叠识别法中使用从头预测法来预测局部难以找到模板的片断 在从头预测法中使用二级结构预测的结果和其他结构信息辅助建模 Meta-predictor 使用多个预测方法 对收集的结果进行综合比较和分析 改进收集的结果,第三十六页,共四十页。,本章(bn zhn)小结,重点介绍(jisho)一些常用的蛋白质结构分析技术 获取蛋白质结构的实验方法 预测蛋白质结构的理论方法 蛋白质结构比对 蛋白质二级结构预测 蛋白质三级结构预测 随着蛋白质分析技术的不断深入,将促进我们从系统生物学的层次全面了解蛋白质的生物学功能,第三十七页,共四十页。,Thanks for your attention!,The end,第三十八页,共四十页。,用Swiss-model分析如下序列,进行三级结构(jigu)建模,取3个结果,并分析所得模型,MSSGQCRSANAEDAQEFISDVERAIETLIIKNFHQSYSSVESNLAIGGKESTLTPSELRDLVTQQLLLKSSKPHLMPSNCGLEEKIASNLGSCKKNDSKLEEFRSFWAELLIGEAAKKSSVKLERPVRGH;,第三十九页,共四十页。,内容(nirng)总结,蛋白质结构预测。对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。一般如果序列的等同局部大于30%,那么可以期望得到比较好的预测结果。2一种适合于进行序列-结构比对的三维折叠信息的表示(biosh)方法。3一个序列-结构匹配函数,该函数对匹配程度进行打分。4建立最优线索的策略,或者是进行序列-结构比对的策略。Cij为第i个核心区域第j个氨基酸位置。g3(,t)评价环区,根据环区的大小进行打分,第四十页,共四十页。,