蛋白质序列分析_第1页
蛋白质序列分析_第2页
蛋白质序列分析_第3页
蛋白质序列分析_第4页
蛋白质序列分析_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学生物信息学 bioinformatics生物科学学院生物工程教研室生物科学学院生物工程教研室蛋白质序列分析蛋白质序列分析Analysis of protein sequence生物工程教研室生物工程教研室 孙继政孙继政通过预测蛋白质的结构、功能特征分析,可为我们的研究提供指导信息通过预测蛋白质的结构、功能特征分析,可为我们的研究提供指导信息8.1 8.1 温故而知新温故而知新Single- & three-letter amino acid codes G GlycineGlyP ProlinePro A AlanineAlaV ValineVal L LeucineLeuI

2、 IsoleucineIle M MethionineMetC CysteineCys F Phenylalanine PheY Tyrosine Tyr W TryptophanTrpH HistidineHis K LysineLysR ArginineArg Q GlutamineGlnN AsparagineAsn E Glutamic Acid GluD Aspartic AcidAsp S SerineSerT ThreonineThrAdditional codes B Asn/AspZ Gln/GluX Any amino acid蛋白质的组成蛋白质的组成 Primary st

3、ructure the linear sequence of amino acids in a protein Secondary structure regions of local regularity i.e., a-helices, b-strands, -sheets & -turns蛋白质的结构层次蛋白质的结构层次 Tertiary structure the overall chain fold that results from packing of secondary structure elements Super-secondary structure the p

4、acking of secondary structure elements into stable units e.g., b-barrels, bab units, Greek keys, etc. Quaternary structure the arrangement of separate chains within a protein that has more than one subunit e.g., haemoglobin多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是相对独立的紧密球状实体,被称作

5、结构域(相对独立的紧密球状实体,被称作结构域(domaindomain)。)。 结构域(结构域(domaindomain)在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用,在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用,进化过程中变化的非常缓慢,这样的区域称作蛋白质核心区域(进化过程中变化的非常缓慢,这样的区域称作蛋白质核心区域(core core regionregion)。)。核心区域(核心区域(core region)结构与功能结构与功能蛋白质结构重要位点蛋白质结构重要位点一些氨基酸残基对于某些结构的稳定具有关键的作用,这样的关键角一些氨基酸残基对于某些结构

6、的稳定具有关键的作用,这样的关键角色在蛋白质中显得尤为重要,色在蛋白质中显得尤为重要,8.28.2蛋白质序列的同源分析蛋白质序列的同源分析同源蛋白:同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来生物大分子序列是分子进化的产物,从共同祖先序列进化而来 的蛋白质通常称为同源蛋白的蛋白质通常称为同源蛋白蛋白质同源分析:蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特基于检测的同源蛋白从而外推得到某特定蛋白的某些特 性的方法称为蛋白质的同源分析性的方法称为蛋白质的同源分析常有的软件有:常有的软件有:BLAST等等 PSI-BLAST和隐马尔可夫模型和隐马尔可夫模型(H

7、MMs) PSI-BLAST(迭代搜索(迭代搜索)把查找到的每一击中项作为第二次迭代的查)把查找到的每一击中项作为第二次迭代的查询序列得到更多的进化关系,第二次及以后的迭代不是对第一次输出的询序列得到更多的进化关系,第二次及以后的迭代不是对第一次输出的每一序列执行每一序列执行BLAST,而是所有击中项形成的序列轮廓(家族保守序,而是所有击中项形成的序列轮廓(家族保守序列)进行列)进行BLAST搜索,查到收敛为止。搜索,查到收敛为止。蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难相似与同源的问题相似与同源的问题直系与旁系同源直系与旁系同源

8、计算机程序自动生成的功能注释不少是错误的计算机程序自动生成的功能注释不少是错误的有的序列会彼此相似,却不是进化关系或生物功能相近的缘故有的序列会彼此相似,却不是进化关系或生物功能相近的缘故8.38.3蛋白质序列的结构域及结合位点分析蛋白质序列的结构域及结合位点分析蛋白质的进化过程并不都是从头开始,而是利用现有材料,通过改造,使蛋白质的进化过程并不都是从头开始,而是利用现有材料,通过改造,使其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。而这些现有材料,就是蛋白质序列中的统。而这些现有材料,就是蛋白质序列中的“模

9、块模块” ,他们对应蛋白质分,他们对应蛋白质分子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。蛋白质序列的二级数据库蛋白质序列的二级数据库同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库为重要了,存储这些信息的数据库称为蛋白质二级数据库称为蛋白质二级数据库。通过对二级数据。通过

10、对二级数据库中序列的比对搜索,可以把一条新的蛋白质序列分配到蛋白质家族中,从库中序列的比对搜索,可以把一条新的蛋白质序列分配到蛋白质家族中,从而预测蛋白质功能。而预测蛋白质功能。保守残基出现的原因是:维持某种功能或特定结构保守残基出现的原因是:维持某种功能或特定结构多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守残基和残基模式、序列轮廓和其它的序列家族的概率模型。残基和残基模式、序列轮廓和其它的序列家族的概率模型。PrositeProsite数据库:基于多序列比较得到的数据库:基于多序列比较得到的单一保守序列片段单一保

11、守序列片段,或称,或称序列模体序列模体PrintsPrints(蛋白质序列指纹图谱数据库)(蛋白质序列指纹图谱数据库)BlocksBlocks(蛋白质序列模块数据库)(蛋白质序列模块数据库)ProfilesProfiles(序列概貌数据库)(序列概貌数据库)PfamPfam(蛋白质序列家族数据库)采用了隐马尔可夫模型(蛋白质序列家族数据库)采用了隐马尔可夫模型IdentifyIdentify(蛋白质序列识别数据库)(蛋白质序列识别数据库)序列中的序列中的多重保守片段多重保守片段它们的共同特点是都基于多序列比对,不同之处是处理比对结果的原则和方法各有特色它们的共同特点是都基于多序列比对,不同之处

12、是处理比对结果的原则和方法各有特色蛋白质模式蛋白质模式(protein patterin(protein patterin) )数据库数据库PrositeProsite数据库:是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的数据库:是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的多序列比对得到的保守性区域,与生物学功能有关,酶的活性位点、配体或金属结多序列比对得到的保守性区域,与生物学功能有关,酶的活性位点、配体或金属结合位点等。它合位点等。它实际上是蛋白质序列功能位点数据库实际上是蛋白质序列功能位点数据库。可用来判断该序列包含什么样。可用来判断该序列包含什么样的功能位点,从而

13、推测其可能属于哪一个蛋白质家族。的功能位点,从而推测其可能属于哪一个蛋白质家族。PrositeProsite的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶 家族有关的两个序列模式如下:家族有关的两个序列模式如下: 一类是提交一条未知蛋白质序列,通过搜索给出相应的序列模式,一类是提交一条未知蛋白质序列,通过搜索给出相应的序列模式,一类是输入一个序列模式,针对特定数据库,如一类是输入一个序列模式,针对特定数据库,如SwissProtSwissProt、TrEMBLTrEMBL、PDBPDB等,给出符合该序列模式的蛋白质序列条目等,给出符合该

14、序列模式的蛋白质序列条目给出关键功能机制相关的少数几个重要残基,对于发现远距离同源较有优势,给出关键功能机制相关的少数几个重要残基,对于发现远距离同源较有优势,但是有假阳性,指出了序列上特定位置处可能出现的残基,但并没有对出现但是有假阳性,指出了序列上特定位置处可能出现的残基,但并没有对出现的概率给予描述。的概率给予描述。PRINTS和和BLOCKS非常类似,非常类似,都以一组无空位肽段来表示蛋都以一组无空位肽段来表示蛋白质家族,这些无空位肽段是白质家族,这些无空位肽段是通过对一组蛋白或蛋白质家族通过对一组蛋白或蛋白质家族的高保守区进行多序列联配而的高保守区进行多序列联配而得的。无空位片段在得

15、的。无空位片段在BLOCKS中称为中称为blocks,在,在PRINTS中中称为称为motifs(模体模体),在,在PRINTS中,代表一个蛋白质家族的一中,代表一个蛋白质家族的一组组motifs被称为被称为fingerprint(指纹指纹),PRINTSPRINTS和和BLOCKSBLOCKShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS//blocks/PRINTS/BLOCKSPRINTS/BLOCKS库中的库中的motifsmotifs或或blocksblocks可以比可以比PrositeProsite

16、的序列模式覆盖更大的的序列模式覆盖更大的序列区域,并且序列区域,并且motifs/blocksmotifs/blocks在序列匹配中通常会考虑氨基酸替换矩阵的在序列匹配中通常会考虑氨基酸替换矩阵的问题。因而更为敏感问题。因而更为敏感( (找出更多远距离的关系找出更多远距离的关系) )和更加特异和更加特异( (出现更少的假阳性出现更少的假阳性) )。蛋白质结构域与家族蛋白质结构域与家族(protein domain families)(protein domain families) 蛋白质结构域蛋白质结构域(protein domain)(protein domain):必须是一个独立单元。:

17、必须是一个独立单元。是是蛋白质中结蛋白质中结构紧密构紧密(compact)(compact)的、半独立的单元的、半独立的单元(semi-independent) (semi-independent) 在三维结构上在三维结构上呈现几何独立的部分呈现几何独立的部分 ;是是蛋白质三维结构中可自折叠的稳定单元蛋白质三维结构中可自折叠的稳定单元(stable(stable unit) unit),是可独立于序列的剩余部分而折叠为特定三维结构的那部分序,是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列;列;是是可重现的功能和进化模块,是可定义单一明确功能的部分蛋白质可重现的功能和进化模块,是可定义

18、单一明确功能的部分蛋白质序列序列这些模块化结构很可能反映了这些模块化结构很可能反映了蛋白质的进化方式。遗传事件蛋白质的进化方式。遗传事件可以导致结构域互换、结构域可以导致结构域互换、结构域复制、结构域丢失和获得等。复制、结构域丢失和获得等。得到有特定功能的新结构域可得到有特定功能的新结构域可以使蛋白质非常迅速地获得更以使蛋白质非常迅速地获得更加复杂的新功能。加复杂的新功能。ProDom是一个蛋白质结构域家族数据库,它采用基于递归的是一个蛋白质结构域家族数据库,它采用基于递归的PSI-BLAST比对搜索算法基于比对搜索算法基于SwissProt和和TrEMBL蛋白质序列数据库自动构建产生蛋白质序

19、列数据库自动构建产生sequence profiles sequence profiles 和和 PrositeProsite profile profile 序列谱序列谱(sequence profiles)提供了一种方法,用来描述来自同一蛋白质提供了一种方法,用来描述来自同一蛋白质结构域家族的相关序列。它描述了观察到每个氨基酸的可能性,以及在结构域家族的相关序列。它描述了观察到每个氨基酸的可能性,以及在序列中每个位点处插入和缺失的可能性序列中每个位点处插入和缺失的可能性Hidden Markov models Hidden Markov models 和和 PfamPfam 隐马尔可夫模型

20、隐马尔可夫模型(Hidden Markov models, HMMs(Hidden Markov models, HMMs) )是描述蛋白质结构域家是描述蛋白质结构域家族序列最精细的统计学方法族序列最精细的统计学方法InterProScanInterProScan综合分析综合分析目前已经出现了整合蛋白质结构功能域二级数据库的综合性数据库及其目前已经出现了整合蛋白质结构功能域二级数据库的综合性数据库及其搜索系统,如搜索系统,如SMARTSMART、HITS(HITS(集成集成PrositeProsite pattern pattern、PrositeProsite profileprofile和

21、和pfampfam) )和和InterProInterPro等。这里主要对等。这里主要对InterProInterPro做一个简单介绍。做一个简单介绍。 8.4 8.4 蛋白质序列理化性质分析蛋白质序列理化性质分析蛋白质理化性质的分析通常包括:蛋白质的分子量、等电点蛋白质理化性质的分析通常包括:蛋白质的分子量、等电点(pI(pI) )、氨、氨基酸组成、疏水性和亲水性分析等基酸组成、疏水性和亲水性分析等 Compute pICompute pI/Mw /Mw ANTHEPROTANTHEPROT ANTHEPROTANTHEPROT可以计算给出蛋白质序列的氨基酸组成、疏水区、亲水区、可以计算给出

22、蛋白质序列的氨基酸组成、疏水区、亲水区、跨膜区、等电点分析、跨膜区、等电点分析、AmphiphilicityAmphiphilicity分析、信号肽分析等等分析、信号肽分析等等8.5 8.5 蛋白质序列的基本性质分析蛋白质序列的基本性质分析蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等COILSCOILS将输入序列与数据库中将输入序列与数据库中coiled-coilscoiled-coils比较产生

23、相似性分值。通过比较这个分值比较产生相似性分值。通过比较这个分值与球蛋白,卷曲螺旋蛋白的分值的分布,可以计算提交序列将会采取的卷曲螺旋构与球蛋白,卷曲螺旋蛋白的分值的分布,可以计算提交序列将会采取的卷曲螺旋构象的概率分值。象的概率分值。SignalPSignalP( (http:/www.cbs.dtu.dk/services/SignalPhttp:/www.cbs.dtu.dk/services/SignalP/ /) ) 可以对革兰氏阳可以对革兰氏阳性菌,革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析性菌,革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析TMHMM和TMpred ( (

24、http:/www.cbs.dtu.dkhttp:/www.cbs.dtu.dk/services/TMHMM/services/TMHMM/) )用来预测用来预测跨膜螺旋。跨膜螺旋。insulin亚细胞定位与亚细胞定位与PSORTBPSORTB 蛋白质必须在一定的亚细胞器上才能正确行使其功能。同时也只有在蛋白质必须在一定的亚细胞器上才能正确行使其功能。同时也只有在相同或相近的亚细胞位置上蛋白质间才会有相互作用。亚细胞位置异相同或相近的亚细胞位置上蛋白质间才会有相互作用。亚细胞位置异常的蛋白质通常还会引起如癌症、老年痴呆症等疾病。常的蛋白质通常还会引起如癌症、老年痴呆症等疾病。蛋白质磷酸化位点

25、与蛋白质磷酸化位点与DISPHOSDISPHOS 蛋白质的翻译后修饰包括糖基化、磷酸化、蛋白质降解、蛋白质的翻译后修饰包括糖基化、磷酸化、蛋白质降解、S S硝酸化、精氨酸硝酸化、精氨酸甲基化和甲基化和ADPADP核糖基化等等,是蛋白质行使正常生理功能所必需的。众多蛋核糖基化等等,是蛋白质行使正常生理功能所必需的。众多蛋白质翻译后修饰方式中磷酸化是最常见、最重要的一种共价修饰方式白质翻译后修饰方式中磷酸化是最常见、最重要的一种共价修饰方式8.6 8.6 蛋白质序列的功能注释蛋白质序列的功能注释随着二维凝胶电泳等实验技术的发展等蛋白质芯片上的蛋白质组数据随着二维凝胶电泳等实验技术的发展等蛋白质芯片

26、上的蛋白质组数据也在大量被获取。然而目前对这些新基因的基因产物和蛋白质功能的也在大量被获取。然而目前对这些新基因的基因产物和蛋白质功能的了解却相对落后。了解却相对落后。功能注释的根本目标是建立基因型功能注释的根本目标是建立基因型(genotype)与表型与表型(phenotype)以以及与环境间的相互作用与联系为致病基因筛选、药物靶标筛选、基因及与环境间的相互作用与联系为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。表达谱数据分析、建立调控网络等提供关键信息。 蛋白质功能的描述蛋白质功能的描述蛋白质功能是一个多层次且具有复杂体系的概念蛋白质功能是一个多层次且具有复

27、杂体系的概念(multilevel and (multilevel and hierarchical)hierarchical),完整的蛋白质功能注释需从生化、细胞、组织、发育,完整的蛋白质功能注释需从生化、细胞、组织、发育进化、生理上分别进行描述进化、生理上分别进行描述分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能molecular functionmolecular function:蛋白质的特殊绑定位点、催化活性和构象变化等:蛋白质的特殊绑定位点、催化活性和构象变化等cellular functioncellular function:一定细胞环境下代谢途径、信号级联的参与情况的:一定细胞环境下代谢途径、信号级联的参与情况的phonotypic functionphonotypic function:生物体内的表型,如是否患有疾病及其疾病病理等:生物体内的表型,如是否患有疾病及其疾病病理等由于由于Gene Ontology ConsortiumGene Ontology Consortium的工作,的工作,GOGO注释已成为目前功能功能注释已成为目前功能功能注释的事实标准,通常的功能注释都会提供注释的事实标准,通常的功能注释都会提供GOGO分类号分类号 蛋白质注释方法蛋白质注释方法前蛋白质序列的功能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论