第十一章蛋白质结构及预测_第1页
第十一章蛋白质结构及预测_第2页
第十一章蛋白质结构及预测_第3页
第十一章蛋白质结构及预测_第4页
第十一章蛋白质结构及预测_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 蛋白质功能、结构及预测授课教师:唐 明本章内容提要 1. 基本概念 2. 蛋白质功能的预测 3. 蛋白质结构的预测 4.主要数据库资源和的应用 5. 蛋白质结构的实验测定方法 6.计算机辅助药物设计 生物细胞中有许多蛋白质,这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。一级结构一级结构即氨基酸序列即氨基酸序列 高级结构高级结构 生物学功能生物学功能 (1 1)蛋白质一级结构与功能的关系)蛋白质一级结构与功能的关系序列分析序列分析(2 2)蛋白质空间构象与功能的关系)蛋白质空间构象与功能的关系结构分析结构分析1.

2、1. 基本概念基本概念氨基酸名称氨基酸名称英文缩写英文缩写简简 写写氨基酸名称氨基酸名称英文缩写英文缩写简简 写写甘氨酸甘氨酸GlyG丝氨酸丝氨酸SerS丙氨酸丙氨酸AlaA苏氨酸苏氨酸ThrT缬氨酸缬氨酸ValV天冬酰胺天冬酰胺AsnN异亮氨酸异亮氨酸IleI谷胺酰胺谷胺酰胺GlnQ亮氨酸亮氨酸LeuL酪氨酸酪氨酸TyrY苯丙氨酸苯丙氨酸PheF组氨酸组氨酸HisH脯氨酸脯氨酸ProP天冬氨酸天冬氨酸AspD甲硫氨酸甲硫氨酸MetM谷氨酸谷氨酸GluE色氨酸色氨酸TrpW赖氨酸赖氨酸LysK半胱氨酸半胱氨酸CysC精氨酸精氨酸ArgR按照侧链化学性质的不同可划分为:按照侧链化学性质的不同可划

3、分为: 极性氨基酸极性氨基酸(容易与水分子形成氢键(容易与水分子形成氢键 )SerSer、ThrThr、CysCys、AsnAsn、GlnGln、TyrTyr、GlyGly 带电氨基酸带电氨基酸HisHis、ArgArg、LysLys(+ +)碱性氨基酸)碱性氨基酸AspAsp、GluGlu(- -)酸性氨基酸)酸性氨基酸 疏水性氨基酸疏水性氨基酸AlaAla、ValVal、LeuLeu、IleIle、PhePhe、 Trp Trp 、ProPro和和MetMet2. 蛋白质功能的预测 根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2 条主要途径可以

4、进行上述的比较分析: 比较未知蛋白序列与已知蛋白质序列的相似性; 查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。 通过比对数据库中的相似序列确定功能 最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索 。一个显著的匹配应至少有25%的相同序列和超过80 个氨基酸的区段。 一般的策略是首先进行BLASTP检索,如果不能提供相关结果,可选用根据Smith-Waterman算法设计的搜索程序, 例如BLITZ www.ebi.ac.uk/searches/blitz.html。 通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于2025%的匹配,这些匹配可能达

5、到显著,但会被那些应用近似估计的程序错过。 根据蛋白质序列特性如疏水性、跨膜螺旋等 许多功能可直接从蛋白质序列预测出来。 蛋白质序列疏水性信息可使用ProtScale 程序http:/expasy.hcuge.ch/egibin/protscal.pl 预测序列的跨膜螺旋有多种方法。最简单的方法是通过查找包含有20 个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。 TMbase 是一个自然发生的跨膜螺旋数据库http:/ulrec3.unil.ch/tmbase/TMBASE_doc.html 预测

6、前导序列或特殊区室靶蛋白信号的程序: SignalP: http:/www.cbs.dtu.dk/services/SignalP PSORT: http:/psort.nibbac.jp/form.html 预测卷曲(coil)螺旋相关的2个程序: COILS: http:/ulrec3.unil.ch/software/COILS_form.html Paircoil: /cgi-bin/score 通过比对模序(motif)数据库等确定功能 经常会出现这样的情况:通过比对,未知蛋白质序列与数据库内已知功能的序列均相差较大,找不到可靠的匹配

7、结果,相反,也许会发现与某一不知功能的序列相匹配。 蛋白质不同区段的进化速率不同:蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域(motif),有可能为蛋白质功能提供线索。 最知名的motif数据库是 PROSITE: / PROSITE记录的典型形式: 以酪蛋白激酶磷酸化位点的一致序列为例:ST-x(2)-DE,即一个丝氨酸(S)或酪氨酸(T)紧跟任意2 个残基,然后再是一个D或E 主要有二种方法可用于序列模序的查找。 1. 查找匹配的一致(consensus)序列或模序。该技术的优点是快捷,模序数据库庞大且不断

8、被扩充;缺点是有时不灵敏,因为只有与一致序列或模序完全匹配才会被列出,而近乎匹配的都将被忽略。这将使你进行更复杂的分析时受到严重限制。 2. 序列分布型(profile)方法。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏地找出那些相关性较远的序列。但是分布型和分布型数据库的创建并非易事,它需要大量的计算和人力,因此,分布型数据库的记录数并没有模序数据库多。 在实际分析时,应同时对这二种类型的数据库都进行搜索,其中在一个数据库中显著的匹配可能在另一个数据库中被完全错过,反之亦然。 分布型(profile)数据库主要有: PRINTS: http:/www.biochem.uc

9、l.ac.uk/bsm/dbbrowers/PRINTS BLOCKS: /blocks/ ProDom: http:/prodom.prabi.fr/prodom/current/html/home.php 一般来说,分析时应搜索所有的相关数据库,以保证没有任何的遗漏。3. 蛋白质结构的预测 一般情况下,蛋白质的结构分为4个层次: 初级结构组成蛋白质的氨基酸序列; 二级结构即骨架原子间的相互作用形成的局部结构,比如a螺旋,折叠等; 三级结构即二级结构在更大范围内的堆积形成的空间结构; 四级结构主要描述由三级结构 形成的不同亚基之间的相互作用

10、。 3.1 蛋白质的一级结构动物的胰岛素(Insulin),氨基酸序列线性排列3.2 蛋白质的二级结构 二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部 的空间结构 主要有 螺旋、折叠、转角、loop、colis等几种形式,它们是构成蛋白质高级结构的基本要素。 多肽链中有60的区段为螺旋和折叠。a- helix 1. 蛋白质中最多的二级结构 2. 平均长度:10个氨基酸残基 长度范围:5-40aa 每一圈:3.6个aa 通过氢键 (per 4aa) 稳定结构 通常在内核的表面,疏水残基向内,亲水残基向外肽链主链骨架围绕中心轴盘旋成螺旋状的结构ahelix 通过氢

11、键稳定结构 C = blackO = redN = blueahelices:氨基酸偏好 Ala, Glu, Leu, Met:出现频率高 Pro, Gly Tyr, Ser:出现频率低- Sheets 1. 一般不单独出现,成对或多个出现 2. 链通过氢键连接,稳定结构 3. 相互作用的部分通过短的/长的loop连接 4. 平行或反平行的sheet在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构平行的-sheet反平行的-sheet混合的-SheetsLoops 1. 连接a-helix和-sheet 2. 长度和三级结构不定 3. 在蛋白质结构的表面 4. 受点突变的影响小

12、5. 柔性好,构象变化余地大 6. 带电荷、极性的氨基酸比例高 7. 倾向成为活性位点Coils 无序性 (Intrinsically disordered ): 介导蛋白质-蛋白质之间的相互作用结构域(domian) domian是在二级结构或超二级结构的基础上形成三级结构的局部折叠区。 domian通常由 50-300 个氨基酸残基组 成,其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小分子。 motif是结构域的亚单位,通常由 23个二级结构单位组成,一般为 螺旋、 折 叠和loop。3.3 三级和四级结构 三级结构 肽链折叠成三维的空间结构 二级结构在空间上的排

13、布 长程的、共价与非共价的相互作用 如果蛋白质只有1条肽链,三级结构就是最高结构层次 四级结构 多个肽链在空间上的排布蛋白质的三级结构蛋白质的三级结构 在二级结构基础上的肽链再折叠形成的构象在二级结构基础上的肽链再折叠形成的构象螺旋折叠Zn疏水核心螺旋蛋白质的四级结构蛋白质的四级结构 组成蛋白质的多条肽链在天然构象空间上的排列方式,组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接,疏水力、氢键、盐键多以弱键互相连接,疏水力、氢键、盐键3.4 蛋白质结构的预测 蛋白质结构预测的方法可以分为三种: (1)同源性(Homology)方法:这类方法的理论依据是如果两个蛋白质的序列比较相

14、似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于 75,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 常用工具:MODELLER,Swiss-model。Homology ModelingSwissModel网站: http:/expasy.hcuge.ch/swissmod/SWISS-MODEL.html它是一个蛋白质自动建模服务器,使用者可直接发送一条序列给该服务器用于同源性建模。 (2)从头计算(Ab initio) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从

15、原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的 Blue Gene 超级计算机,就是要解决这个问题。Ab Initio Prediction1. 能量函数 键能 (bond energy) 键的转角能 (bond angle energy) 二面角能 (dihedral angle energy) 范德华力 (van der Waals energy) 静电力 (electrostatic energy)2. 根据能量函数计算结构的最小自由能:Molecular Dynamics or Monte Carlo me

16、thods3. 计算量大 (3)穿线法(Threading)方法:由于 Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白 质来说,有必要寻求新的方法。Threading 就此应运而生。 Threading 法 : 先设计一个能量函数。 然后从模板库中取出一条模版序列和查询序列作序列比对,并将模版序列与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。 通过设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 Thr

17、eading将给定序列与模板库做序列比较将给定序列与模板库做序列比较 (fold library) 评分准则:给定序列是否与模板的结构吻合评分准则:给定序列是否与模板的结构吻合 (1D-3D profile)根据打分结果对模板适用性给予排序根据打分结果对模板适用性给予排序 Target SequenceStructure Templates ALKKGFHFDTSE TOPITS: http:/www.embl-heidelberg.de/predictprotein/predictprotein.html Frsvr: /people/frsvr/

18、frsvr.html 123D: http:/www_/nicka/123D.html THREADER: http:/globin.bio.warwick.ac.uk/jones/threader.html ProFIT: http:/lore.came.sbg.ac.at/Extern/software/Profit/profit.htmlThreading的相关应用蛋白质结构预测的原则 蛋白质结构的预测过程是个比较复杂的多步过程,整个过程涉及到多项工具。不同类别的蛋白质,例如膜蛋白与可溶蛋白,由于不同的理化性质,可能需要不同的预测方法。 一个蛋白质 可能有

19、多个功能结构域(domain),要直接预测具有多个domain的蛋白质不大可能,因为数据库中可能没有相应的模板。 在很大程度上,一个蛋白质的各domain的折叠方式不依 赖于其他domain的折叠方式,因此,每个domain 的结构可以单独预测。于是如何在一个蛋白质序列定位各个domain的边界也成了结构预测的一个问题。有些蛋白质序列可能包含信号肽,它们与蛋白质结构信息无关,所以可以切除。 例1. 通过 SignalP 预测信号肽 SignalP 预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白,预测靶蛋白序列中的信号肽具有很高的准确性。没有信号肽的例子没有信号肽的例子 例2. 通过

20、SOSUI预测膜蛋白和跨膜区 SOSUI 对于判断膜蛋白或可溶性蛋白的准确性可以达到 99%,对于预测跨膜区的准确性可达到 97%。 (1)软件:SOSUI (2)网址:http:/bp.nuap.nagoya-u.ac.jp/sosui/ (3)使用方法:网络提交 例3. 通过 ProDom划分domain ProDom 通过搜索已知蛋白序列结构域(ProDom)库来划分靶蛋白序列的结构域。ProDom是建立在 SWISS-PROT数据库基础上的蛋白质结构域数据库。 (1)软件:ProDomBlast3i.pl (2)网址:http:/prodom.prabi.fr/prodom/curre

21、nt/html/home.php (3)使用方法:本地化运行 4.主要数据库资源和应用 核酸序列数据库核酸序列数据库主要有主要有GenBank, EMBL, DDBJ等等 蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT, PIR, TrEMBL等等 蛋白质结构数据库蛋白质结构数据库主要主要有有PDB, MMDB等等4.1 蛋白质序列数据库 1. 1. 由美国由美国NCBINCBI翻译自翻译自GenBankGenBank的的DNADNA序列序列(1984(1984年年) ); 2. 2. 在在EMBLEMBL和和GenBankGenBank数据库上均建立了镜像站点;数据库上均建

22、立了镜像站点; 3. 3. 数据依据注释的质量分为数据依据注释的质量分为4 4类。类。 分类名称分类名称(Name)说明说明(Comment)记录数记录数(Number of entries)PIR1已分类、已注释已分类、已注释(Classified and annotated)13572PIR2已注释已注释(Annotated)69368PIR3未核实未核实(Unverified)7508PIR4未翻译未翻译(Unencoded or untranslated)196 除了除了PIRPIR外,另一个重要的蛋白质序列数据库则是外,另一个重要的蛋白质序列数据库则是SwissProtSwissPr

23、ot。 该数据库由瑞士日内瓦大学于该数据库由瑞士日内瓦大学于19861986年创建,目前由年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所瑞士生物信息学研究所和欧洲生物信息学研究所 EBIEBI共共同维护和管理。同维护和管理。 TREMBL(Translated EMBL): 也是一个蛋白质数据库,它包括了所有EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这导致其注释质量的下降。4.2 蛋白质结构数据库 PDB (Protein Data Bank): 蛋白质结构数据库 MMDB (Molecular Modeling Database): 分子模拟数据库

24、MSD (Molecular Structure Database): 大分子的相互作用和结合位点 1. 1. 目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库; 2. 19702. 1970年代建立,美国年代建立,美国BrookhavenBrookhaven国家实验室维护管国家实验室维护管理理; ; 3. 1988 3. 1988年,由美国年,由美国RCSB(research collaboratory RCSB(research collaboratory for structural biology)for structural biology)管理;管理; 4. 4.

25、 以文本格式存放数据,包括原子坐标、物种来源、以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;测定方法、提交者信息、一级结构、二级结构等; PDBPDB的网址:的网址:/pdb/pdb如何如何 Access PDBAccess PDB记录记录? ?如何如何 Access PDBAccess PDB记录记录? ?如何如何 Access PDBAccess PDB记录记录? ?如何如何 Access PDBAccess PDB记录记录? ?DownloadPDB fileViewPDB fileStruct

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论