蛋白质结构预测的原理与方法.ppt_第1页
蛋白质结构预测的原理与方法.ppt_第2页
蛋白质结构预测的原理与方法.ppt_第3页
蛋白质结构预测的原理与方法.ppt_第4页
蛋白质结构预测的原理与方法.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章 蛋白质结构预测的原理与方法,第一节 引言,中 心 法 则,蛋 白 质 翻 译,一. 蛋白质的组成,氨基酸是蛋白质的单体。天然存在于蛋白质中的氨基酸共有20种。氨基酸由肽键相连形成多肽链,二. 蛋白质结构的层次,一级结构 - 氨基酸序列,二级结构 - 主要由氢键稳固的局部构象,如-helix, -sheet, -turn 等,-helix,-sheet,三级结构 - 三维构象,肌 酸 激 酶,肌 红 蛋 白,四级结构 - 多个多肽链的组合,三 . 蛋白质折叠,折叠时间极短,四. 影响蛋白质折叠的因素,对于水溶性蛋白来说,多肽链的折叠主要受氨基酸侧链的疏水性所驱动。,五. 蛋白质结构域的折

2、叠模式,结构域可以按二级结构的种类及排列方式进行分类,其基本基本类型:/、 /、 /、 /,六. 蛋白质结构预测,序列结构功能 .-Gly-Ala-Glu-Phe-.,功能,解决方法,.-Gly-Ala-Glu-Phe-.,FUNCTION,蛋白质结构预测:寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射,七. 蛋白质结构预测的流程,序 列 对 比,二级结构预测,三级结构预测,蛋白质结构模建,蛋白质结构的检验,八. 蛋白质结构数据库,蛋白质结构数据库 PDB /pdb/,九. 蛋白质结构分类数据库,SCOP (Structural Clas

3、sification of Proteins) CATH( Class, Architecture, Topology, Homology),十. 蛋白质的进化,同源性的蛋白往往具有相关的功能并采取相似的三维结构,序列的相同性有时可以低到20%。但三维结构总体上是保守的。 类似的蛋白质可以采取相似的三维结构,但序列的同源性要低于20%。 如何识别蛋白质的同源性和类似性是蛋白质结构预测中的一个重要问题。,蛋白质结构预测主要有两大类方法: (1)理论分析方法 通过理论计算(如分子力学、分子动力学计算)进行结构预测。,十一. 蛋白质结构预测方法,(2)统计的方法 对已知结构的蛋白质进行统计分析,建立

4、序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。 包括: 经验性方法 结构规律提取方法 同源模型化方法,第二节 蛋白质二级结构预测,蛋白质 序列: 二级结构:,二级结构预测,蛋白质 序列: 二级结构: QLMGERIRARRKKLK STHHHHHHHHHHHHT,1、二级结构预测概述 蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标: 判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。,基本策略(1)相似序列相似结构,QLMGERIRA

5、RRKKLK,QLMGAERIRARRKKLK,结构?,基本策略(2)分类分析,螺旋,提取样本,聚类分析,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,二级结构预测的方法大体分为三代: 第一代是基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。 第二代预测方法是基于氨基酸片段的统计分析 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,这些算法可以归为几类: (1)基于统计信息 (2)基于物理化学性质 (3)基于序

6、列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法,第一代和第二代预测方法对三态预测的准确率都小于70%,而对折叠预测的准确率仅为2848%,其主要原因是只利用局部信息 第三代方法(考虑多条序列) 运用长程信息和蛋白质序列的进化信息 准确度有了比较大的提高,2、蛋白质二级结构预测方法,(1)经验参数法(Chou-Fasman法) 经验参数法由Chou 和Fasman在70年代提出来, 是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。,内容: 蛋

7、白质二级结构的组成规律性比较强 三种基本二级结构(螺旋、折叠、转角)平均占氨基酸残基的85% 各种二级结构均匀地分布在蛋白质中,有些蛋白质中含有大量的螺旋 (血红蛋白和肌红蛋白) 而一些蛋白质中则不含或者仅含很少的螺旋 (铁氧蛋白) 有些蛋白质的二级结构以折叠为主 (免疫球蛋白) 例: 肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋 肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋,每种氨基酸出现在各种二级结构中倾向或者频率不同 例如:Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在螺旋中 可以

8、根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测,(2) GOR方法 是一种基于信息论算法和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法进行结构预测时不仅考虑被预测位置本身氨基酸残基种类,而且考虑相邻残基种类所携带的二级结构信息。,(3)最近邻居法 被预测的序列与已知的最相似的序列具有相同的二级结构,(4)二级结构在线预测 1.PHD算法 2.GOR算法 http:/molbiol.soton.ac.uk/compute/GOR.html,第三节 三级结构预测,一. 同源蛋白质结构预测 主要思想: 对于一个未知结构的蛋白质,找到一个已知结构的同源

9、蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。 依据: 任何一对蛋白质,如果两者的同源性超过35%,一般具有相同的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。,假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤: (1)搜索结构模型的模板(T) (2)序列比对 (3)建立骨架 (4)构建目标蛋白质的侧链 (5)构建目标蛋白质的环区 (6)优化模型,预测结果准确率: 对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到

10、的测试结果。 一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。,二. 线索化方法(折叠识别方法),有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。 对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。,线索化的主要思想: 利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。,线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。,三. 从头预测方法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论