温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
蛋白质
三级
结构
预测
蛋白质结构预测蛋白质结构预测 肖肖 飞飞 蛋白质三级结构预测的方法 1 2 3 方法比较方法比较 同源建模(比较建模)同源建模(比较建模)基础基础 -相似的序列结构相近 -PDB结构数据库的快速增长 -结构基因组学的启动 -发散进化 特点特点 -相对精确可靠 假设待预测三维结构的目标蛋白质为假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结),利用同源模型化方法建立结构模型的过程包括下述构模型的过程包括下述6个步骤:个步骤:(1)搜索结构模型的模板)搜索结构模型的模板(T)(2)序列比对)序列比对 (3)建立骨架)建立骨架 (4)构建目标蛋白质的侧链)构建目标蛋白质的侧链 (5)构建目标蛋白质的环区)构建目标蛋白质的环区 (6)优化模型)优化模型 U T 预测结果准确率:预测结果准确率:对于具有对于具有60%等同的序列等同的序列,用上述方法所建用上述方法所建立的三维模型非常准确立的三维模型非常准确。若序列的等同部分若序列的等同部分超过超过60%,则预测结果将接近于实验得到的则预测结果将接近于实验得到的测试结果测试结果。一般如果序列的等同部分大于一般如果序列的等同部分大于30%,则可以则可以期望得到比较好的预测结果期望得到比较好的预测结果。同源建模 数据库搜索数据库搜索 选择模板选择模板 依据模板构建骨架模型依据模板构建骨架模型 环状、侧链的构建,优化环状、侧链的构建,优化 结构合理性评估结构合理性评估 结构模型结构模型 YES NO 分子式:分子式:pGlu-His-Trp-Ser-Tyr-Gly-Leu-Arg-Pro-Gly-NH 同源模建确定一对柔性分子相应功能团可能的空间取向 模 板 加模板 3.3.同源建模法的局限性同源建模法的局限性 传统的比较建模是通过传统的比较建模是通过PSIPSI-BLASTBLAST找到找到已知结构的相关蛋白已知结构的相关蛋白。最近如进行最近如进行profileprofileprofileprofile比较和有效利用结构信息的更加比较和有效利用结构信息的更加复杂的方法已不仅显著增加了比对的质量而复杂的方法已不仅显著增加了比对的质量而且远程同源且远程同源(remote(remote homologue)homologue)检测的能力检测的能力。因此因此,比较建模和折叠识别在基于模板的建比较建模和折叠识别在基于模板的建模方法中的区别现已十分模糊模方法中的区别现已十分模糊。开发新的比开发新的比较建模和折叠识别的算法导致网上各种预测较建模和折叠识别的算法导致网上各种预测方法的出现方法的出现,这包括结构预测这包括结构预测metameta-服务器服务器。蛋白质三维结构预测服务通过因特网对公众蛋白质三维结构预测服务通过因特网对公众免费开放免费开放(同源建模同源建模):瑞士生物信息研究所瑞士生物信息研究所 SWISSSWISS-MODELMODEL 丹麦技术大学生物序列分析中心丹麦技术大学生物序列分析中心 CPHmodelsCPHmodels 比利时拿摩大学比利时拿摩大学 ESyPred3DESyPred3D 英国癌症研究中心英国癌症研究中心 3DJigsaw3DJigsaw 4.4.常用建模服务器和软件简介常用建模服务器和软件简介 Accelrys Discovery Studio 软件软件 InsightII FAMS 同源蛋白质结构预测的方法同源蛋白质结构预测的方法 1)片段组装法:)片段组装法:SWISS-MODEL 2)距离几何法:)距离几何法:MODELLER SWISS-MODEL:http:/swissmodel.expasy.org/SWISS-MODEL.html SWISS-MODEL:http:/swissmodel.expasy.org/SWISS-MODEL.html 提交查询序列 14 模板序列与查询模板序列与查询序列的装载序列的装载 结构的精细比对结构的精细比对 分子骨架的形成分子骨架的形成 侧链形成和优化侧链形成和优化 加入氢原子、加入氢原子、优化回环优化回环 能量最小化、能量最小化、结构封装结构封装 SWISS-MODEL的工作过程:的工作过程:15 最后的预测结果最后的预测结果 蛋白质具有很少的折叠类型(1000)基本步骤 将目标蛋白质序列与已知的折叠进行比对 将目标序列“安装”到选择的模板结构上 对模型进行优化、调整 检验模型的合理性 关键方法 序列-结构比对 穿针引线法 穿针引线方法(折叠识别方法)穿针引线方法(折叠识别方法)有很多蛋白质具有相似的空间结构有很多蛋白质具有相似的空间结构,但它们但它们的序列等同部分小于的序列等同部分小于25%,即远程同源即远程同源。对于这类蛋白质对于这类蛋白质,很难通过序列比对找出它很难通过序列比对找出它们之间的关系们之间的关系,必须设计新的分析方法必须设计新的分析方法。对于一个未知结构的蛋白质(对于一个未知结构的蛋白质(U),),如果找到一个已知结构的远程同源蛋白质如果找到一个已知结构的远程同源蛋白质(T),),那么可以根据那么可以根据T的结构模板通过远程同源模型的结构模板通过远程同源模型化方法建立化方法建立U的三维结构模型。的三维结构模型。U T(远程同源)一个远程同源模型化方法要解决三个问题:一个远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质()检测远程同源蛋白质(T););(2)U和和T的序列必须被正确地对比排列;的序列必须被正确地对比排列;(3)修改一般的同源模型化过程,以应用于相似度)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三非常低的情况,即处理更多的环区,建立合理的三维结构模型。维结构模型。如何解决第一个和第二个问题?如何解决第一个和第二个问题?基本思想是建立一个从基本思想是建立一个从U到已知结构到已知结构T的线索,并通的线索,并通过一些基于环境或基于知识的势,评价序列与结构过一些基于环境或基于知识的势,评价序列与结构的适应性。的适应性。至于最后建立三维结构模型则是非常困难的至于最后建立三维结构模型则是非常困难的 序列结构比对 线索化的主要思想:线索化的主要思想:利用氨基酸的结构倾向(如形成二级结构利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定列所对应的结构是否能够适配到一个给定的结构环境中。的结构环境中。建立序列到结构的线索的过程称为线索化,建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质寻找合适的蛋白质模板,这些模板蛋白质与与U没有显著的序列相似性,但却是远程同没有显著的序列相似性,但却是远程同源的。源的。线索化方法一般有线索化方法一般有5个基本组成部分:个基本组成部分:(1)已知三维折叠结构的数据库;)已知三维折叠结构的数据库;(2)一种适合于进行序列)一种适合于进行序列-结构比对的三维折结构比对的三维折叠信息的表示方法;叠信息的表示方法;(3)一个序列)一个序列-结构匹配函数,该函数对匹配结构匹配函数,该函数对匹配程度进行打分;程度进行打分;(4)建立最优线索的策略,或者是进行序列)建立最优线索的策略,或者是进行序列-结构比对的策略;结构比对的策略;(5)一种评价序列)一种评价序列-结构比对显著性的方法。结构比对显著性的方法。假设存在有限数目的核心折叠假设存在有限数目的核心折叠(core folds)核心折叠实际上是构成蛋白质空间形状的基核心折叠实际上是构成蛋白质空间形状的基本模式本模式。建立核心折叠数据库建立核心折叠数据库 预测预测-建立线索建立线索 U序列 与数据库核心折叠比对 取最佳核心折叠 U结构模型 一种基于序列与结构比对的最优线索化算法一种基于序列与结构比对的最优线索化算法 令令:s s1 1,s s2 2,s sn n为蛋白质序列为蛋白质序列S S的的n n个元素个元素 C C1 1,C C2 2,C Cm m为数据库中核心折叠为数据库中核心折叠C C的的m m个核心区域个核心区域 C Cijij为第为第i i个核心区域第个核心区域第j j个氨基酸位置个氨基酸位置 每一个核心区域由若干个氨基酸残基构成每一个核心区域由若干个氨基酸残基构成 设设t是一个从序列到核心折叠的线索,那么是一个从序列到核心折叠的线索,那么t说明了序列说明了序列S的哪些元素的哪些元素si,sj,sk,代表核心代表核心区域区域C1,C2,C3,的起始位置。的起始位置。这实际上是一种从序列这实际上是一种从序列S到核心折叠到核心折叠C的比对的比对 令令 代表核心折叠代表核心折叠C中的环到序列中的环到序列S中空位的中空位的映射,显然映射,显然 是通过线索化而确定的。是通过线索化而确定的。令令f(t)是进行比对的得分函数,其定义如下:是进行比对的得分函数,其定义如下:f(t)=g1(v,t)+g2(u,v,t)+g3(,t)g1(v,t)评价氨基酸残基评价氨基酸残基v所处的位置所处的位置 g2(u,v,t)评价残基评价残基u和和v的相对位置,如果的相对位置,如果u和和v 键合,则得键合,则得分高;分高;g3(,t)评价环区,根据环区的大小进行打分。评价环区,根据环区的大小进行打分。线索化问题:线索化问题:对于给定的序列对于给定的序列S和核心折叠和核心折叠C,选择一个线索,选择一个线索t,使得,使得f(t)的的值最小,即寻找一个从值最小,即寻找一个从S到到C的最佳映射。的最佳映射。动态规划 人工神经网络 分支定界法 线性规划 Monte Carlo方法 穿针引线法穿针引线法 理论基础 蛋白质的天然构象是热力学最稳定构象、也是 能量最低构象 能量函数 通过原子间作用力计算出的热力学能量 精确,但难以计算 伪能量函数 根据已知的三维结构知识得到的势能函数 常见的结构 低能量 不常见的结构 高能量 极罕见的结构 极高能量 从头预测法从头预测法 原子间作用力 蛋白质的势能 能量函数 蛋白质的势能 基本步骤 选择蛋白质能量函数模型 选择三维结构的表示方法 选择三维结构的评价函数 选择寻找最优结构的优化方法 关键问题 大规模非线性规划 大量的局部极小点 在计算时间和准确度之间寻找平衡 基于能量最小化的从头预测法 非线性规划 最速下降法 牛顿法 共轭梯度法 全局优化方法 遗传算法 分解-结合法 离散化方法 最优化方法 分子动力学 方法 对蛋白质中原子间的作用力进行建模 用动力学方程跟踪蛋白质折叠时每个原子的位置 求解这些方程的解析解是极其困难的 用离散动力系统的方法来确定数值解 问题 模拟蛋白质折叠过程是非常消耗时间的 模拟 10-9 秒的蛋白质折叠过程大约需要一天时间 蛋白质的实际折叠时间大约在 10-4 秒的数量级或者更多 需要超级计算机 新的趋势 混合预测方法 在比较建模法和折叠识别法中使用从头预测法来预测部分难以找到模板的片断 在从头预测法中使用二级结构预测的结果和其他已知结构信息辅助建模 Meta-predictor 使用多个预测方法 对收集的结果进行综合比较和分析 改进收集的结果 本章小结 重点介绍一些常用的蛋白质结构分析技术 获取蛋白质结构的实验方法 预测蛋白质结构的理论方法 蛋白质结构比对 蛋白质二级结构预测 蛋白质三级结构预测 随着蛋白质分析技术的不断深入,将促进我们从系统生物学的层次全面了解蛋白质的生物学功能 Thanks for your attention!The end 用Swiss-model分析如下序列,进行三级结构建模,取3个结果,并分析所得模型 MSSGQCRSANAEDAQEFISDVERAIETLIIKNFHQSYSSVESNLAIGGKESTLTPSELRDLVTQQLLLKSSKPHLMPSNCGLEEKIASNLGSCKKNDSKLEEFRSFWAELLIGEAA