蛋白质序列分析_第1页
蛋白质序列分析_第2页
蛋白质序列分析_第3页
蛋白质序列分析_第4页
蛋白质序列分析_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章第九章 蛋白质序列分析蛋白质序列分析 ( (protein sequence analysis) 一、简介(一、简介(introduction) 二、蛋白质数据库二、蛋白质数据库 (protein databases) 三、蛋白质序列分析三、蛋白质序列分析 (protein sequence analysis) Why protein analysis?v人类基因组工程:人类基因组工程:从蛋白质和从蛋白质和DNA序列中得出有意义的生物信息序列中得出有意义的生物信息、知识(、知识(bioinformatics)。)。确定基因的位置和功能,观察蛋白质之间的反确定基因的位置和功能,观察蛋白质之

2、间的反应,蛋白质的功能结构。应,蛋白质的功能结构。v提出问题:提出问题:与大型生物数据集的分析密切相关与大型生物数据集的分析密切相关存储和查询大型基因、蛋白质数据库存储和查询大型基因、蛋白质数据库Function unknown for 40% of human proteins Non-redundant growth of sequences during 1988-2004 ( black line ) & the corresponding growth in the number of structures ( pink dots ).80070060050040030020

3、01001988 2004 .to be able to understand the words in a sequence sentence that form a particular protein structure .isnt so glamorous.but means we can recognise words that form characteristic patterns(模式)(模式), even if we dont know the precise syntax to build complete protein sentencesvIn investigatin

4、g the meaning of sequences, two distinct analytical approaches have emergedpattern recognition (模式识别)(模式识别)is used to detect similarity between sequences or structures & hence to infer related functionsab initio prediction (从头预测)(从头预测)is used to deduce structure, & to infer function, directl

5、y from sequencevThese methods are quite different!pattern recognition methods demand that some characteristic has been seen before & housed in a dbprediction methods remove the need for template dbs, because deductions are made directly from sequencevWhat is the function of this structure?What i

6、s the function of this sequence?What is the function of this motif?the fold provides a scaffold, which can be decorated in different ways by different sequences to confer different functions knowing the fold & function allows us to rationalise how the structure effects its function at the molecu

7、lar levelvPrediction methods dont work because we dont fully understand the Folding Problemwe cant read the language sequences use to create their foldsvBut, with sequence analysis techniques, we can try to find similarities between new sequences & those in dbswhose structures & functions we

8、 hope have been elucidatedvThis is straightforward at high levels of identity, but below 50% it is difficult to establish relationships reliablyvAnalyses can be pursued with decreasing certainty towards the Twilight Zone20% identity, where results may look plausible to the eye, but are no longer sta

9、tistically significant 一、简介(一、简介(introduction) 二、蛋白质数据库二、蛋白质数据库 (protein databases) 三、蛋白质序列分析三、蛋白质序列分析 (protein sequence analysis) 蛋白质数据库的功能蛋白质数据库的功能(protein database function) 对数据的注释(对数据的注释(annotation)功能)功能 对数据的检索(对数据的检索(search)功能)功能 对数据的生物信息分析(对数据的生物信息分析(bioinformatics analysis)功能)功能 蛋白质数据库分类蛋白质数据

10、库分类 蛋白质序列数据库蛋白质序列数据库(protein sequence database):以蛋白质的序列为主,并赋予相应的注释,如以蛋白质的序列为主,并赋予相应的注释,如 PIRPIR、SWISS-PROTSWISS-PROT、NCBINCBI。 蛋白质模体及结构域数据库蛋白质模体及结构域数据库(protein motif and domain database): 收集蛋白质的保守结构域和功能收集蛋白质的保守结构域和功能域的特征序列,如域的特征序列,如 PROSITEPROSITE、PfamPfam。 蛋白质结构数据库蛋白质结构数据库(protein structure databas

11、e): 主要以蛋白质的结构测量数据为主,如主要以蛋白质的结构测量数据为主,如 PDB PDB 等。等。 蛋白质分类数据库蛋白质分类数据库(protein classification database):):包含有以序列比较为基础的序列分类数包含有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库,如据库以及以结构比较为基础的结构分类数据库,如 SCOPSCOP、CATHCATH、FSSP FSSP 等。等。 1.1.蛋白质序列数据库蛋白质序列数据库PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据

12、库。的蛋白质序列数据库。 PIR-PSD的序列来自于将的序列来自于将GenBank/EMBL/DDBJ 三大数据库的编码序列的翻译而成的蛋三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。白质序列、发表的文献中的序列和用户直接提交的序列。iProClass 数据库是用于描述蛋白质家族之间的关系以及结构数据库是用于描述蛋白质家族之间的关系以及结构/功功能特征的综合资源,收录了包括能特征的综合资源,收录了包括SWISS-PROT和和PIR数据库的数据库的30万多条蛋白质序列,包括超家族、蛋白质家族、功能域、结构模万多条蛋白质序列,包括超家族、蛋白质家族、功能域、结

13、构模体、翻译后修饰位点。体、翻译后修饰位点。 PIR(protein information resource) 蛋白质信息资源数据库蛋白质信息资源数据库 / / SWISS-PROT/TrEMBL database 瑞士蛋白质数据库瑞士蛋白质数据库 SWISS-PROT 数据库是经注释的蛋白质数据数据库是经注释的蛋白质数据库,由蛋白质序列条目构成。每个条目包含库,由蛋白质序列条目构成。每个条目包含蛋白质序列、引用文献信息、分类学信息、注蛋白质序列、引用文献信

14、息、分类学信息、注释等。注释中包括蛋白质的功能、转录后修饰释等。注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、位点、特殊位点和区域、二级结构、四级结构、与其它序列的相似性等信息。与其它序列的相似性等信息。/ 2. 2.蛋白质结构数据库蛋白质结构数据库 PDB (Protein Database Bank) /pdb/PDB 的结构由以下信息组成:序列信息;原的结构由以下信息组成:序列信息;原子坐标;分子结晶条件;通过多种方法计算的子坐标;分子结晶条件;通过多种方法计算的三位结构近似值;衍生的几何数据;

15、结构因数;三位结构近似值;衍生的几何数据;结构因数;三位结构立体图象;与其它数据资源的链接。三位结构立体图象;与其它数据资源的链接。 /pdb/3.3.蛋白质家族及结构域数据库蛋白质家族及结构域数据库 PROSITE 数据库数据库是基于对是基于对蛋白质家族中同源序蛋白质家族中同源序列多重序列比对列多重序列比对得到的得到的保守性区域保守性区域,这些区域通,这些区域通常与生物学功能有关,例如酶的活性位点、配体常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。或金属结合位点等。PROSITE(Database of protein families an

16、d domains ) /prosite/prosite 一、简介(一、简介(introduction) 二、蛋白质数据库二、蛋白质数据库 (protein databases) 三、蛋白质序列分析三、蛋白质序列分析 (protein sequence analysis) 蛋白质序列分析蛋白质序列分析 (protein sequence analysis) (一)蛋白质序列信息的获取(一)蛋白质序列信息的获取 protein sequence collection(二)蛋白质序列分析(二)蛋白质序列分析 prote

17、in sequence analysis Direct sequencing, 直接测序直接测序 e.g.用质谱仪测序 Translating DNA sequence, 翻译编码的翻译编码的DNADNA序列序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框 Search database, 在数据库中搜索在数据库中搜索3 methods for collecting protein sequence data:(一)蛋白质序列信息的获取(一)蛋白质序列信息的获取 protein sequence collection Method 1: Direct sequencing,

18、直接测序直接测序 e.g. Protein Sequencing and Identification by Mass Spectrometry,即用质谱仪测序即用质谱仪测序Masses of Amino Acid ResiduesBreaking Protein into Peptides and Peptides into Fragment IonsvProteases, e.g. trypsin(胰蛋白酶), break protein into peptides.vA Tandem Mass Spectrometer(串联式质谱仪) further breaks the peptide

19、s down into fragment ions and measures the mass of each piece.N- and C-terminal PeptidesN-terminal peptidesC-terminal peptides415 486 30115457 71185332429Tandem Mass SpectrometryRelative AbundanceS#: 1708 RT: 54.47 AV: 1 NL: 5.27E6T: + c d Full ms2 638.00 165.00 - 1925.002004006008001000120014001600

20、18002000m/z05101520253035404550556065707580859095100Relative Abundance850.3687.3588.1851.4425.0949.4326.0524.9589.21048.6397.1226.91049.6489.1629.0Scan 1708LCS#: 1707 RT: 54.44 AV: 1 NL: 2.41E7F: + c Full ms 300.00 - 2000.00200400600800100012001400160018002000m/z0510152025303540455055606570758085909

21、5100Relative Abundance638.0801.0638.91173.8872.31275.3687.6944.71884.51742.11212.0783.31048.31413.91617.7Scan 1707MSMS/MSIonSourceMS-1collisioncellMS-2多肽片段指纹图谱多肽片段指纹图谱(PFF) 步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定 代表方法: LC-ESI-MS/MS 2D-LC-MS/MS(shotgun) Method 2 Translating DNA se

22、quence, 翻译翻译编码的编码的DNADNA序列序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。网址:/gorf/gorf.htmlMethod 3: Search database, 即即在数据库中在数据库中搜索搜索e.g. PIR-PSD database: /pirwww SWISS-PROT/TrEMBL database /swissprot(二)蛋白质序列分析(二)蛋白质序列分析 protein sequence analysisLEVEL OF FUNCTION

23、 INFORMATION IN PROTEIN SEQUENCESSUPERFAMILYFAMILYDOMAINMOTIFSITERESIDUESECONDARY STRUCTURE3D STRUCTURE相似性搜索(或同源搜索)相似性搜索(或同源搜索)(similarity search/homology search)模体搜索和结构域定位模体搜索和结构域定位(motif and domain locationmotif and domain location)多重序列比对多重序列比对(multiple sequence alignmentmultiple sequence alignmen

24、t) 同源模建同源模建(homology modellinghomology modelling)蛋白质序列分析的策略蛋白质序列分析的策略ORF翻译实验数据蛋白质理化性质和一级结构数据库搜索结构域匹配已知结构的同源蛋白?三维结构模型可用的折叠模型?同源建模有二级结构预测无串线法有从头预测无1. 蛋白质序列的基本性质分析蛋白质序列的基本性质分析蛋白质序列的基本性质分析是蛋白质蛋白质序列的基本性质分析是蛋白质序列分析的基础序列分析的基础,主要包括理化性质的主要包括理化性质的分析分析,疏水性分析疏水性分析,跨膜区分析跨膜区分析,信号肽信号肽分析分析,Coil区分析及结构功能域分析等区分析及结构功能域

25、分析等方面方面.1.1 蛋白质理化性质的分析蛋白质理化性质的分析/protparam/1.2 蛋白质疏水性分析蛋白质疏水性分析/cgi-bin/protscale/protscale.pl1.3 蛋白质跨膜区分析蛋白质跨膜区分析典型的跨膜螺旋区主要是由典型的跨膜螺旋区主要是由2030个个氨基酸氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成;等)组成;亲水残基往往出现在疏水残基之间,对功能有重要的作用;亲水残基往往出现在疏水残基之间,对功能有重要的作用;基于亲基于亲/疏水量和蛋白质跨膜区每个氨基酸的统

26、计学分布偏好性。疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。DAShttp:/www.sbc.su.se/miklos/DAS/用Dense Alignment Surface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOPhttp:/www.enzim.hu/hmmtop/由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUIhttp:/bp.nuap.nagoya-u.ac.jp/sosui/由Nagoya大学开发一个具有图形显示跨膜区的程序TMAPhttp:/bioinfo.limbo.ifm.liu.se/tmap/基于多序列比对来预测跨膜区的程序TMH

27、MMhttp:/www.cbs.dtu.dk/services/TMHMM-2.0基于HMM方法的蛋白质跨膜区预测工具TMpred/software/TMPRED_form.html基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPredhttp:/bioweb.pasteur.fr/seqanal/interfaces/toppred.html是一个位于法国的蛋白质拓扑结构预测程序4950u 由由24个个 螺旋组成螺旋组成u 蛋白质亚单位之间的结合结构蛋白质亚单位之间的结合结构u 二级和三级结构之间的结构二级和三级结构之间的结

28、构在在“Primary structure analysis”栏栏目选择目选择“Paircoil”分析软件分析软件在在Paircoil主页主页粘贴序列粘贴序列分析结果分析结果(文字文字和和图图)1.4 预测蛋白质的预测蛋白质的coiled coil位点位点1.5 蛋白质信号肽分析蛋白质信号肽分析http:/www.cbs.dtu.dk/services/SignalP/2. 蛋白质的序列比对蛋白质的序列比对2.1 蛋白质序列与数据库的比对基检索蛋白质序列与数据库的比对基检索Protein blast/Blast.cgi?PROGRAM=b

29、lastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthomeFASTA: http:/www.ebi.ac.uk/Tools/sss/fasta/2.2 蛋白质多序列比对蛋白质多序列比对ClustalW2http:/www.ebi.ac.uk/Tools/msa/clustalw2/Clustal Omegahttp:/www.ebi.ac.uk/Tools/msa/clustalo/BioEdit2.3 根据蛋白质序列构建进化树根据蛋白质序列构建进化树

30、ClustalW2http:/www.ebi.ac.uk/Tools/msa/clustalw2/Clustal Omegahttp:/www.ebi.ac.uk/Tools/msa/clustalo/v软件:Treeview, BioEdit 59CDD/sites/entrez?db=cdd通过比较目标序列和一组位置特异性打分矩阵进行RPS-BLAST来确定目标序列中的保守结构域HAMAP/sprot/hamap/families.html通过专家预测系统产生的微生物家族同源蛋白数据InterProPfam

31、http:/pfam.sanger.ac.uk/每个蛋白家族包含了多序列比对、profile-HMMs和注释文件ProDomhttp:/prodom.prabi.fr/从SWISS-PROT/TrEMBL数据库中的非片段蛋白序列数据构成,每条记录包含一个同源结构域多重比对和家族保守一致性序列SMARThttp:/smart.embl-heidelberg.de/由EMBL建立,集成了大部分已知蛋白功能域数据,注释包括了功能类型、三维结构、分类信息TIGRFAMs/TIGRFAMs/由TIGR实验室维护的蛋白质家族和结构域数据库PRINTShttp:/umbe

32、r.sbs.man.ac.uk/dbbrowser/PRINTS/蛋白质模体指纹数据库,提供了FingerPRINTScan、FPScan和GRAPHScan等指纹识别工具DOMOhttp:/ L O C K S + 数 据 库 和PRINTS数据库中收集了生物功能高度保守的高特异性蛋白序列UniProthttp:/www.ebi.ac.uk/uniprot/整合Swiss-Prot、TrEMBL和PIR数据库中有关的蛋白序列和功能信息PROSITEhttp:/www.expasy.ch/prosite/有关蛋白质家族和结构域的数据库HAMAPhttp:/www.expasy.ch/sprot

33、/hamap/有关微生物蛋白质组自动、人工注释的高质量数据库Pfamhttp:/pfam.sanger.ac.uk/收集了大量的覆盖众多蛋白质结构域的多序列比对数据和隐马尔科夫模型PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/蛋白质指纹图谱数据库,提供识别蛋白质家族的保守模序ProDomhttp:/prodes.toulouse.inra.fr/prodom/current/html/home.php基于PSI-BLAST的同源蛋白结构域数据库SMARThttp:/smart.embl-heidelberg.de/用于鉴定和注释可移动结构域

34、并分析其结构TIGRFAMS/TIGRFAMs/index.shtml基于隐马尔科夫模型搜索蛋白质家族的工具PIRSF/iproclass/提供从超家族到亚家族多层次蛋白质分类系统网Superfamilyhttp:/supfam.cs.bris.ac.uk/SUPERFAMILY/对所有完成基因组测序的蛋白质,基于SCOP数据库的结构和功能注释Gene3Dhttp:/gene3d.biochem.ucl.ac.uk/Gene3D/描述全基因组蛋白质家族和结构域PANTERhttp:/www.pantherdb.

35、org/根据家族功能特异性区分蛋白家族和亚家族,基于规范的术语和代谢途径确定更精确功能6466保守区位置保守区位置结构域位置结构域位置结构域位置结构域位置AC号,家族名称号,家族名称家族蛋白信息家族蛋白信息其他数据库中的收录情况其他数据库中的收录情况相关的其他家族相关的其他家族条目类型条目类型GO术语注释术语注释说明说明结构链接结构链接数据库链接数据库链接该家族蛋白在不该家族蛋白在不同种类生物体中同种类生物体中出现情况出现情况其他家族与该其他家族与该家族的重叠情家族的重叠情况况70基于序列同源比对,对于序列的序列模拟比较有效,最常用的方法 CPHmodels “穿”入已知的各种蛋白质折叠骨架内

36、,适于对蛋白质核心结构进行预测,计算量大THREADER3D-PSSM基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTRROSSETA根据已知蛋白质结构推测未知蛋白质结构根据已知蛋白质结构推测未知蛋白质结构BLAST 检索检索在蛋白质结构数据库(在蛋白质结构数据库(PDB)中检索同源蛋白质的结构中检索同源蛋白质的结构7273 与已有晶体结构的蛋白质序列比对 序列相似度30% 序列相似度30%,结合功能,蛋白质一级序列、二级结构或结构域信息 Whatcheck 程序 Ramachandran plot计算检验7475PDB/pdb/ho

37、me/home.do主要的蛋白质三维结构数据库MMDB/Structure/MMDB/mmdb.shtmlNCBI维护的蛋白质结构数据库Psdb/deerfiel/PSdb/从PDB和NRL-3D数据库中衍生出的数据库,含二级结构和三维结构信息3DinSighthttp:/gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html整合了结构、性质(氨基酸组成、热力学参数等)、生物学功能(突变点,相互作用等)的综合数据库FSSPhttp:/www.ebi.a

38、c.uk/dali/fssp/根据结构比对的蛋白质结构分类数据库SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/蛋白质结构分类数据库,将已知结构蛋白进行有层次地分类CATH/latest/index.html另一个有名的蛋白质结构和结构域主要结构分类库MODBASE/modbase-cgi/index.cgi用同源比对法生成的模型结构数据库Enzyme Structurehttp:/www.ebi.ac.uk/thornton-srv/databases/enzymes/从PDB数据库中

39、整理已知结构的酶蛋白数据库HSSPhttp:/www.sander.ebi.ac.uk/hssp/根据同源性到处的蛋白质结构数据库76PSI-BLAST/BLAST/位置特异性叠代BLAST,可用来搜索远源家族序列FASTA3http:/www.ebi.ac.uk/fasta33/位于EBI的序列比对工具SSEARCHhttp:/rs.fr/bin/ssearch-guess.cgi采用Smith/Waterman法来进行序列比对ClustalWhttp:/www.ebi.ac.uk/Tools/clustalw/index.html多序列比

40、对工具,位于EBIT-Coffeehttp:/www.ebi.ac.uk/t-coffee/用多种方法(如ClustalW、DIalign等)来构建多序列比对Multalinhttp:/bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html一个老牌的多序列比对工具Dalihttp:/www.ebi.ac.uk/dali/三维结构比对网络服务器VAST/Structure/VAST/vast.shtml基于向量并列分析算法的三维结构比对工具SAM-T99http:/www.soe.ucsc

41、.edu/research/compbio/sam.html用HMM法搜索蛋白质远源同源序列77SWISS-MODEL/完整建模程序,采用同源性鉴定来确定模板蛋白,用户也可以自定义模板进行分析CPHmodelshttp:/www.cbs.dtu.dk/services/CPHmodels/基于神经网络的同源建模工具,用户只需提交序列,无高级选项EsyPred3Dhttp:/www.fundp.ac.be/urbm/bioinfo/esypred/采用神经网络来提高同源建模准确性的预测工具3Djigsawhttp:/www.bmm.icnet.uk/servers/3djigsaw/根据同源已知结构蛋白来建模的预测工具MODELLER/modeller/一个广泛使用的同源建模软件,需要用户对脚本有一定的了解3D-PSSMhttp:/www.sbg.bio.ic.ac.uk/3dpssm/index2.html第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器Fuguehttp:/www-cryst.bioc.cam.ac.uk/fugue/以序列结构比对搜索数据库来预测蛋白质折叠HHpredhttp:/toolkit.tuebingen.mpg.de/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论