




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多序列比对,主要内容,多序列比对的定义介绍多序列比对数据库介绍如何手动方式输入一组蛋白或核酸序列进行多重比对,多序列比对的目的和定义,多序列比对的目的;通过序列的相似性检索得到许多相关的相似序列,将这些序列做一个总体的比对,以观察它们在序列结构上的异同,以回答相关的生物学问题。多序列比对就是将2条以上可能有系统进化关系的序列进行比对。一个多重比对就是一组可以部分或整体对齐的蛋白质或核酸序列(3个或以上)。相同或相似的氨基酸残基排在同一列上,这些对齐的残基在进化意义上是同源的:来自共同的祖先。在三维结构中,对齐的残基也倾向于占据对应的位置。,可以根据下面特征来确定是否对齐某些氨基酸残基,一些高度保守的残基(如参与形成二硫键的半胱氨酸)形成保守膜体(motif),如跨膜结构域和免疫蛋白结构域蛋白质二级结构的保守特征,如参与形成alpha螺旋、beta片层和可变区的残基。显示出一致插入或缺失模式的区域。,多序列比对的典型应用,大多数蛋白质家族中有远源的成员,与两两比对相比,多序列比对能够更敏感地发现同源关系。在检查某次数据库搜索结果时(如BLAST),多重比对形式的结果能更容易显示保守残基和模体。构建系统进化树的一个最关键的步骤就是多序列比对。当一个物种的基因组被完整测序,数据分析的一个主要部分是注释所有基因产物所归属的蛋白家族。数据库搜索进行高效的多重比对,将每一个新蛋白(或基因)与其它所有家族的蛋白质进行比较很多基因的调节区含有转录因子结合的共有序列。,多序列比对方法,ExactmethodsProgressive(ClustalW)Iterative(MUSCLE)Consistency(ProbCons)Structure-based(Expresso),多序列比对方法,Exactmethods:dynamicprogrammingInsteadofthe2-DdynamicprogrammingmatrixintheNeedleman-Wunschtechnique,thinkabouta3-D,4-Dorhigherordermatrix.Exactmethodsgiveoptimalalignmentsbutarenotfeasibleintimeorspaceformorethan10sequences.Stillanextremelyactivefield.,多序列比对的渐近比对方法,在目前发展的众多多序列比对方法中,最常用的是来自FengandDoolittle(1987)的渐近比对。之所以称为渐近比对,是因为这种方法需要先对所有的序列计算两两比对的分值,然后从关系最近的一对序列开始,逐步加入其它序列。Examples:CLUSTALW,MUSCLE,Multiplesequencealignment:methods,ExampleofMSAusingClustalW:twodatasetsFivedistantlyrelatedlipocalins(humantoE.coli)FivecloselyrelatedRBPsWhenyoudothis,obtainthesequencesofinterestintheFASTAformat!(YoucansavetheminaWorddocument),Page321,TheinputforClustalW:agroupofsequences(DNAorprotein)intheFASTAformat,GetsequencesfromEntrezProtein(orHomoloGene),YoucandisplaysequencesfromEntrezProteininthefastaformat,UseClustalWtodoaprogressiveMSA,http:/www2.ebi.ac.uk/clustalw/,Fig.10.1Page321,Feng-DoolittleMSAoccursin3stages,1利用NeedlemanandWunschs的动态规划算法对所有序列进行两两比对。2计算距离矩阵,建立辅助导向树3根据导向树中的位置关系建立多重比对。,Page321,ProgressiveMSAstage1of3:generateglobalpairwisealignments,Fig.10.2Page323,fivedistantlyrelatedlipocalins,bestscore,ProgressiveMSAstage1of3:generateglobalpairwisealignments,StartofPairwisealignmentsAligning.Sequences(1:2)Aligned.Score:84Sequences(1:3)Aligned.Score:84Sequences(1:4)Aligned.Score:91Sequences(1:5)Aligned.Score:92Sequences(2:3)Aligned.Score:99Sequences(2:4)Aligned.Score:86Sequences(2:5)Aligned.Score:85Sequences(3:4)Aligned.Score:85Sequences(3:5)Aligned.Score:84Sequences(4:5)Aligned.Score:96,Fig.10.4Page325,fivecloselyrelatedlipocalins,bestscore,Numberofpairwisealignmentsneeded,Fornsequences,(n-1)(n)/2For5sequences,(4)(5)/2=10,Page322,Feng-Doolittlestage2:guidetree,将相似分数转化为距离分数用树来表示序列之间的距离使用UPGMA(definedinthephylogenylecture)ClustalW给出了关于导向树描述的句法导向树不是系统进化树,Page323,ProgressiveMSAstage2of3:generateaguidetreecalculatedfromthedistancematrix,Fig.10.2Page323,1,2,3,5,4,ProgressiveMSAstage2of3:generateguidetree,(gi|5803139|ref|NP_006735.1|:0.04284,(gi|6174963|sp|Q00724|RETB_MOUS:0.00075,gi|132407|sp|P04916|RETB_RAT:0.00423):0.10542):0.01900,gi|89271|pir|A39486:0.01924,gi|132403|sp|P18902|RETB_BOVIN:0.01902);,Fig.10.4Page325,fivecloselyrelatedlipocalins,Feng-Doolittlestage3:progressivealignment,根据导向树中的位置关系建立多重比对先选择距离最近的一个两两比对,接着在此基础上加入下一个最近序列形成三重比对或加入下一个最近的两两比对重复此过程直到用完所有序列规则:“一旦是空白,永远是空白.”,Page324,ProgressiveMSAstage3of3:progressivelyalignthesequencesfollowingthebranchorderofthetree,Fig.10.3Page324,ProgressiveMSAstage3of3:CLUSTALXoutput,NotethatyoucandownloadCLUSTALXlocally,ratherthanusingaweb-basedprogram!,ClustalWalignmentof5closelyrelatedlipocalins,CLUSTALW(1.82)multiplesequencealignmentgi|89271|pir|A39486MEWVWALVLLAALGSAQAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP50gi|132403|sp|P18902|RETB_BOVIN-ERDCRVSSFRVKENFDKARFAGTWYAMAKKDP32gi|5803139|ref|NP_006735.1|MKWVWALLLLAAW-AAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP48gi|6174963|sp|Q00724|RETB_MOUSMEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP50gi|132407|sp|P04916|RETB_RATMEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP50*:*:*gi|89271|pir|A39486EGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED100gi|132403|sp|P18902|RETB_BOVINEGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED82gi|5803139|ref|NP_006735.1|EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED98gi|6174963|sp|Q00724|RETB_MOUSEGLFLQDNIIAEFSVDEKGHMSATAKGRVRLLSNWEVCADMVGTFTDTED100gi|132407|sp|P04916|RETB_RATEGLFLQDNIIAEFSVDEKGHMSATAKGRVRLLSNWEVCADMVGTFTDTED100*:*.*:*.*:*gi|89271|pir|A39486PAKFKMKYWGVASFLQKGNDDHWIIDTDYDTYAAQYSCRLQNLDGTCADS150gi|132403|sp|P18902|RETB_BOVINPAKFKMKYWGVASFLQKGNDDHWIIDTDYETFAVQYSCRLLNLDGTCADS132gi|5803139|ref|NP_006735.1|PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS148gi|6174963|sp|Q00724|RETB_MOUSPAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS150gi|132407|sp|P04916|RETB_RATPAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS150*:*:*:*:*,Fig.10.5Page326,*asterisksindicateidentityinacolumn,ProgressiveMSAstage3of3:progressivelyalignthesequencesfollowingthebranchorderofthetree:Ordermatters,THELASTFATCATTHEFASTCATTHEVERYFASTCATTHEFATCAT,THELASTFATCATTHEFASTCAT-,THELASTFA-TCATTHEFASTCA-T-THEVERYFASTCAT,THELASTFA-TCATTHEFASTCA-T-THEVERYFASTCATTHE-FA-TCAT,AdaptedfromC.Notredame,Pharmacogenomics2002,ProgressiveMSAstage3of3:progressivelyalignthesequencesfollowingthebranchorderofthetree:Ordermatters,THEFATCATTHEFASTCATTHEVERYFASTCATTHELASTFATCAT,THEFA-TCATTHEFASTCAT,THE-FA-TCATTHE-FASTCATTHEVERYFASTCAT,THE-FA-TCATTHE-FASTCATTHEVERYFASTCATTHELASTFA-TCAT,AdaptedfromC.Notredame,Pharmacogenomics2002,两种多序列比对的程序,Text-basedorquery-basedsearches:CDD,Pfam(profileHMMs),PROSITE,2还可以用手动方式对输入的一组蛋白质或核酸序列产生多重比对。,Muscle,ClustalW,ClustalX,1多序列比对数据库,可以用文本或者任意序列进行搜索,Page329,BLOCKSCDDPfamSMARTDOMO(GappedMSA)INTERPROiProClassMetaFAMPRINTSPRODOM(PSI-BLAST)PROSITE,多序列比对数据库,TheseUseHMMs,Pfam是综合的蛋白质家族数据库之一,可以用文本(关键字,蛋白质名等)或序列数据进行搜索。Pfam由两个数据库组成。Pfam-A是手工编辑、多重比对形式的蛋白质家族集合。对于每一个家族,Pfam提供了4种特征:注释、种子比对、profileHMM、完全比对。完全比对可能很大,Pfam前20个家族的完全比对都含有超过2500个序列。种子比对含有较少数量的代表序列。除了由专家手工编辑的Pfam-A外,Pfam-B是从ProDom数据库自动产生的。Pfam-B的数据质量、注释的完全程度都不如Pfam-A,但是Pfam-B可以作为一个有用的补充。,Pfam:基于profileHMM的蛋白质家族数据库,PFAM(proteinfamily)database:http:/pfam.sanger.ac.uk/,Fig.10.11Page331,PFAM(proteinfamily)textsearchresult,Fig.10.12Page334,PFAMGCGMSFformat,Fig.10.13Page335,Pfam(proteinfamily)database,PFAMJalViewviewer,Fig.10.14Page336,PFAMJalViewviewer,Fig.10.15Page336,PFAMJalViewviewer:principalcomponentsanalysis(PCA),Fig.10.16Page337,Fig.10.17Page337,SMART,SMART:简单分子构架研究工具(thesimplemoleculararchitectureresearchtool)http:/smart.embl-heidelberg.de/,SMART:SimpleModularArchitectureResearchTool(emphasisoncellsignaling)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业蛋糕试题及答案
- 小学语文四年级上册猫教学课件
- 化学专业安全试题及答案
- 厨房专业试题及答案
- 档案专业客观试题及答案
- 湖南省邵阳市2025-2026学年高一上学期9月拔尖创新班联考化学试题(含答案)
- 2026届山东济南高三上学期摸底考试数学试题+答案
- 法语专业试题题库及答案
- 旗袍活动线上方案策划
- 互联网金融运营方案研究与实践
- 2025年新西师大版数学三年级上册全册教学课件
- 2025年证券从业资格考试金融市场基础知识押题及答案
- (正式版)DB1509∕T 0003-2023 《奶绵羊产奶性能测定技术规程》
- 舞蹈老师自我介绍课件
- 2025年吉林省教育系统校级后备干部选拔考试题及答案
- 社区安全知识培训资料课件
- 托盘运输知识培训内容课件
- 徐学义基础地质调查课件
- 2025主题教育应知应会知识题库及答案
- 无人机航空安全知识培训课件
- 2024年春季云南省高中学业水平合格性考试化学试卷真题(含答案)
评论
0/150
提交评论