蛋白质结构分析原理及工具-文献综述_第1页
蛋白质结构分析原理及工具-文献综述_第2页
蛋白质结构分析原理及工具-文献综述_第3页
蛋白质结构分析原理及工具-文献综述_第4页
蛋白质结构分析原理及工具-文献综述_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质结构分析原理及工具(南京农业大学生命科学学院 生命基地111班)摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词:蛋白质;结构预测;跨膜域;保守结构域1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能1。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一 常用蛋白质数据库数据库说明链接蛋白序列数据库GenPeptTranslations of GenBank coding nucleotide entries/Genbank/PIRInternational protein database/RefSeqCurated, non-redundant with expert annotation/RefSeq/UniProt/SwissProtReviewed, manually annotated entries/help/uniprotkbUniProt/TrEMBLAutomatically classified and annotated entries/help/uniprotkb蛋白质分类数据库CATHProteins classified based on class, architecture, topology and homology/SCOPStructural classification of proteinshttp:/scop.mrc-lmb.cam.ac.uk/scopProtClustDBProteins classified based on sequence similarity/proteinclusters蛋白质结构数据库PDBResolved 3D biomolecular structures/pdb网址可能有更新氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵2、JTT模型3。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具表二 成对序列相似性比对搜索工具工具说明链接BLASTBasic local alignment search tool/Blast.cgiFASTAGlobal alignment search tool;http:/www.ebi.ac.uk/Tools/fasta33/GGSEARCHGlobal alignment search toolhttp:/www.ebi.ac.uk/Tools/fasta33/index.html?program=GGSEARCHSSEARCH-ProteinLocal alignment search tool against proteinshttp:/www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH网址可能有更新2 蛋白质一级结构分析(含保守结构域)蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构4。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的5, 6。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signature databases)”。“基序(Motifs)”通常指没有间隔的多序列队列,通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹(fingerprint)”。使用它们的优势是可以检测远距离的序列关系7。基序的典型例子是位置加权矩阵(position-specific score matrix,PSSM)。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式(sequence patterns)”的共同序列结果。“序列谱(sequence profiles)”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs)即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。表三 常用蛋白质特征数据库数据库特征类型外部来源网络链接BLOCKSBlocks/blocks/CDDHMM,MSAPfam,SMART,COGs,ProtClustDB/Structure/cdd/cdd.shtmlGene3DHMMCATHhttp:/gene3d.biochem.ucl.ac.uk/Gene3D/InterProIntegrated signature types of its member databasesGene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART,SUPERFAMLY,TIGRFAMshttp:/www.ebi.ac.uk/interpro/PfamHMM,MSAUniProtKB,GenPept,metagenomicsdatasetshttp:/pfam.sanger.ac.uk/PRINTSFringerprintshttp:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.phpProDomUniProtKB,SCOPhttp:/prodom.prabi.fr/prodom/current/html/home.phpPROSITEPatterns,profilesUniProtKB/SWISS-PROT/prosite/SBASEBLOCKS,Pfam,PRINTS,ProDom,PROSITEhttp:/hydra.icgeb.trieste.it/sbase/SMARTHMMhttp:/smart.embl.de/SUPERFAMILYHMMSCOP/SUPERFAMILY/MSA:多序列比对;CDD:保守结构域数据库值得一提的是,CDD数据库包含了蛋白质保守结构域分析。上述数据库都有自带的搜索引擎供搜索,它们采用的算法也不尽相同,此处不再列举。3 蛋白质二级结构分析蛋白质的二级结构是由氨基酸骨架间的氢键决定的,通常有三种形态,螺旋(H),链(E)和卷曲(C)。为了从蛋白质原子的结构中获得更多的信息,蛋白质二级结构字典(DPSS)定义了蛋白质二级结构的八种状态:三种螺旋,H (-helix)、G (310-helix) 和 I (-helix),链两种,E (extended strand in parallel and/or anti-parallel -strand conformation) 和 B (-bridge),三种卷曲,S (bend)、T (turn) 和 C (coil)。预测二级结构的第一步是搜索PDB数据库寻找与查询蛋白质同源的蛋白质的实验三维结构,例如FDM(Fragment Database Mining)算法首先会对PDB数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的形成结构的倾向,GOR算法采用这种方式,但现在的GOR算法通过贝叶斯统计等方法改进。CDM算法(Consensus Data Mining)结合了FDM和GOR的优势。还有很多方法各有其特点:PSIPRED,PSSM等。更现代的方法利用了最新的机器学习技术例如SVMs(Support Vector Machines)和NNs(Neural Networks)。还有一些方法还考虑了氨基酸残基的相对溶解度(RSA)。表四列举了常用的蛋白质二级结构在线预测工具。表四 蛋白质二级结构在线预测工具工具说明网络链接CDMFDM + GOR/cdm/FDMPDB mining for structural fragments/cdm/GORInformation theory, Bayesian statistics, PSSM profiles/cdm/JpredHMM and PSSM profiles; NNs; RSApbio.dundee.ac.uk/www-jpred/PHDMultiple sequence alignments; NNs/PORTERPSSM profiles; NNshttp:/distill.ucd.ie/porter/PSIPREDPSSM profiles; NNshttp:/bioinf.cs.ucl.ac.uk/psipred/SABLEPSSM profiles; NNs; RSA/SSproPSSM profiles; NNs and SVMs; RSA; 8-state prediction/baldig/scratch/5 蛋白质跨膜结构域分析跨膜(TM)蛋白跨过整个脂膜8,通常被分为两类-helical TM (AHTM) 和 TM -barrel (TMB) proteins。AHTM定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域有极性的环链接而成的螺旋。对TMB蛋白的了解还不多,它们的跨膜域为反向平行的桶装链通道9。通过实验的方法(X-ray和NMR等)来决定TM蛋白的结构,相比较于球状蛋白,解析的TM蛋白3D结构非常有限。因此,人们开发了很多的方法用来预测蛋白质的跨膜结构域。这些方法中的大部分都只根据序列来识别跨膜结构。表五列举了常用的在线跨膜结构域预测工具。表五 在线跨膜结构域预测工具工具方法预测的结构网络链接DAS-TMfilterDASAHTMhttp:/mendel.imp.ac.at/sat/DAS/DAS.htmlMINNOURSA/SSAHTM and TMB/PRED-TMMBHMMTMBhttp:/bioinformatics.biol.uoa.gr/ PRED-TMBB/input.jspPRED-TMRHydrophobicity profileAHTM and TMBhttp:/athina.biol.uoa.gr/PRED-TMR/input.htmlSOSUIHydropathy scaleAHTMhttp:/bp.nuap.nagoya-u.ac.jp/sosui/sosui_submit.htmlTMBETA-NETAmino acid composition; NNsTMBhttp:/psfs.cbrc.jp/tmbeta-net/TMB-Huntk-NN algorithmTMBhttp:/bmbpcu36.leeds.ac.uk/andy/betaBarrel/AACompPred/aaTMB_Hunt.cgiTMMODHMM profileAHTM/website/servers/TMMOD/scripts/frame.php?p=submitTSEGTandem clusters of membrane proteinsAHTM and TMBhttp:/www.genome.ad.jp/SIT/tsegdir/ tseg_exe.html6 蛋白质三维结构分析蛋白质的三维结构通常比其一级结构更加保守。目前最可靠的蛋白质三维结构预测方法是同源建模法。同源建模通常有三步:1选择模板,2目标模板分析,3三维模型的构建。有些同源建模法专注于同源建模的某些特定步骤,例如CPHmodels和Domain Fishing专注于模板的选择;ESyPred3D和Geno3D专注于目标模板的分析。SWISS-MODEL是一个高度自动化的同源重组建模综合服务10,其他的在线同源重组建模工具如表六所示表六 在线同源重组建模工具工具说明网络链接CPHmodelsPSSM profile-based search for templateshttp:/www.cbs.dtu.dk/services/CPHmodels/Domain FishingDomain splithttp:/www.bmm.icnet.uk/servers/3djigsaw/dom_fishESyPred3DTarget-template alignment generated by different programshttp:/www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/Geno3DTarget-template alignment using PSI-BLASThttp:/geno3d-pbil.ibcp.frSWISS-MODELIntegrated service/workspace/TASSER-LiteIterative threading of the PDB for template selection; structure assembly/skolnick/webservice/tasserlite/index.html蛋白质三维结构预测还有其他的方法和工具例如折叠识别法和从头计算法11,这里不再列举。7 结论本文列举了一系列对生物学有用的蛋白质生物信息学工具,但是,随着越来越多的物种被测序,越来越多的蛋白质功能被注释以及更多的蛋白质三维结构被解析,生物信息学的分析方法会更多,也会更准确。最后只得一提的是,生物性息学分析目前只能作为辅助工具,作为实验前的初步筛选,而其分析结果并不能作为准确的结论,准确结论的得出还有赖于实验的验证。参考文献:1 Fitch WM. Homology - a personal view on some of the problems. Trends Genet 2000;16:227-31.2 Henikoff S, Henikoff JG. Amino-Acid Substitution Matrices from Protein Blocks. P Natl Acad Sci USA 1992;89:10915-9.3 Jones DT, Taylor WR, Thornton JM. The Rapid Generation of Mutation Data Matrices from Protein Sequences. Comput Appl Biosci 1992;8:275-82.4 Paliakasis CD, Michalopoulos I, Kossida S. Web-based tools for protein classification. Methods in molecular biology 2008;428:349-67.5 Ponting CP, Russell RR. The natural history of prot

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论