生物信息学课件-L9_第1页
生物信息学课件-L9_第2页
生物信息学课件-L9_第3页
生物信息学课件-L9_第4页
生物信息学课件-L9_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PreviouslecutureResourceofproteindatabase:checkthelistinExPASy.(sequencesandannotation,functionalregionofsequences,PPI,structure)AnalysisToolsthroughwebserver:alsocheckthelistinExPASyandNAR

web-serverissueUsingproteinsequenceforanalysisandpredictionForproteinfamily,useblastorthefunctionalregionanalysisPhysicalproperties,basiccharacters,TMpredictionLocalization,TargetP,SignalP,andWolfPSORTFunction,comprehensiveanalysisthroughdifferentviewsGeneOntology,usebiologicalprocess,cellularcomponentandmolecularfunctiontodescribeagene.1Lect9PhylogeneticAnalysis

凌毅2GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis

(系统发生分析)Nomenclature/terminology(术语)oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingamodelofevolution

substitution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware3Whatisevolution?物竞天择,适者生存,优胜劣汰4OntheOriginofSpeciesByMeansofNaturalSelection5ToDarwin,

thestruggleforexistenceinducesanaturalselection.Offspringaredissimilarfromtheirparents(thatis,variabilityexists),and

individualsthataremorefitforagivenenvironmentareselectedfor.Inthisway,overlongperiodsoftime,speciesevolve.Groupsoforganismschangeovertimesothatdescendantsdifferstructurallyandfunctionallyfromtheirancestors.CharlesDarwin(1809-1882)自然选择意义下的物种起源Evolution,phylogeny

andphylogeneticanalysisAtthemolecularlevel,evolutionisaprocessofmutationwithselection.

分子水平上,进化是一种伴随着突变的自然选择过程。(突变造成的遗传物质改变并没有方向性,只是产生了种群中的生物多样性.只有那些能够适应变化了的生存条件的个体才能存活并繁衍下来.也就是说,突变造成的遗传多样性是自然选择的源动力.)Phylogenyistheinferenceofevolutionaryrelationships.

系统发生/发育即根据某种特征对各物种的进化关系进行推断。Phylogeneticanalysisisthestudyoftheevolutionaryhistoryoflivingorganismsusingtree-likediagramstorepresentpedigreesoftheseorganisms.

系统发育分析是以分枝树状图的形式来研究物种〔特征〕之间的进化关系与进化历史。6Term简而言之,系统发育分析就是一种分类方法,它是按照进化时间的顺序将不同物种的亲源关系进行分类。GoalsofmolecularphylogenyPhylogenycananswerquestionssuchas:Howmanygenesarerelatedtomyfavoritegene?Howrelatedarewhales,dolphins&porpoisestocows?WhereandwhendidHIVorothervirusesoriginate?Whatisthehistoryoflifeonearth?Wastheextinctquaggamorelikeazebraorahorse?Wasthequagga(nowextinct)morelikeazebraorahorse?生物学经典分类方法以人类为例Superkindom(超界〕:Eukaryota(真核超界)Kindom(界):Metazoa(后生动物界)Phylum(门):Chordata(脊索动物门)Class(纲):Mammalia(哺乳动物纲)Order(目):Primata(灵长目)Family(科):Hominidae(人科)Genus(属):Homo(人属)Species(种):sapiens(现代人种)9系统发育分析使用的“特征〞经典系统发育学主要是物种的表型特征(形态学特征)如生物体的大小、颜色、触角个数生理/生化或行为习性特征化石!(包含形态特征与变异时间)缺点表型一般与多个遗传因素相关,结果会产生偏差化石样品难寻分子系统发生学利用从遗传物质中提取的信息作为特征即利用核酸或蛋白质序列〔molecularfossil!)优点数量大,获取容易10Themoresimilarcharactersyouhave,the

morerelatedyouare.However,characterscanbeuniqueandnon-unique,sowe’dbetterusemorecharactersforanalysis11MolecularphylogeneticsThestudyofevolutionaryrelationshipsofgenesandotherbiologicalmacromoleculesbyanalyzingmutationsatvariouspositionsintheirsequencesanddevelopinghypothesesabouttheevolutionaryrelatednessofthebiomolecules.

分子系统发生学即是通过对序列多个位点突变情况的分析来研究和推断基因或其它生物大分子之间的进化关系。研究前题:参与分析的序列必须同源。即拥有共同的祖先,只是随着时间的推移才发生变化。系统发育的差异是二分叉的〔bifurcating〕,即在每一个分歧点上一个父分支〔parentbranch〕被分成两个子分支〔daughterbranches〕。也就是说,序列在每一个点的进化都是相对独立的。12TermGoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis

(系统发生分析)Nomenclature/terminology(术语)oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingamodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware13Nomenclature/terminology1、Ortholog(s),paralog(s)andxenolog(s)直系、旁系及交叉同源2、Branch(es),taxon(taxa)/Operationaltaxonomicunits(OTUs),node(s),root,clade/monophyleticgroup

分支,分类/可操作分类单元,节点,树根,进化枝/单系类群(单源进化类型)3、Parentbranch,daughterbranch,sistertaxa,Lineage,paraphyletic

父分支,子分支,姊妹分类,世系(家系),并系类群(并系进化类型)4、Treetopology,bifurcationandmultifurcation,dichotomyvs.polytomy

树状拓朴,二分叉与多分叉,二叉图与多分支图5、Rooted,unrooted,outgroup

有根(树),无根(树),外群6、Molecularclock

分子钟7、Genetreesandspeciestrees

基因树与物种树8、Phylogramvs.cladogram

系统发育图与进化分支图9、Newickformatfortrees14Term同源物的三种形式Orthologs直系同源物,是在物种形成事件中从一个祖先序列进化形成的,常具有相似的功能或结构。Paralogs旁系同源物,指在某个物种中由于基因复制事件而产生的同源序列。旁系同源物可能具有不同但却相关的功能。Xenologs交叉同源物,是由于基因在两个物种之间的横向转移〔lateraltransfer〕而造成的同源。交叉同源物一般在两个物种中具有相似的功能,但这种相关性与进化无关。Atypicalbifurcatingphylogenetictree16ABCDEBranchesPresent-dayspeciesorsequences–

现在的物种或序列〔属/种群/个体等分类单元〕Taxon(taxa),OTUs

分类/可操作分类单元,

terminalnodesInternalnodes

内部节点Aninferredancestorofextanttaxa.

推断得到的现存分类的祖先Rootnode,root

根节点Thecommonancestorofallmembersofthetree.Clades

monophyletics

进化枝/单系类群21分支:Allthelinesinthetree.一个分支只连接相邻的两个节点。Agroupoftaxonconsistsofasinglecommonancestorandallitsdescendants.

包含来源于同一个共同祖先的一组分类(包括所有的后代)Consistsofnodesandbranches.Anyway,nodeisataxonomicunit,itlocatesinthebifurcatingbranchpoint.Atypicalbifurcatingphylogenetictree17ABCDE21单系类群中,每两个下层分类拥有一个唯一的共同祖先,这两个分类被称作姊妹分类。rootLineage世系(家系):thebranchpathdepictinganancestor-descendantrelationshiponatree

能够描述祖先与后代之间关系的分支路径Inatree,ifagroupoftaxoncontainsitsmostrecentcommonancestorbutdoesnotcontainallthedescendantsofthatancestor,theyareparaphyleticgroup.并系类群.

具有一个共同祖先的局部后代(而非全部).

例:AandB,orB,CandDSo,branchrootto2istheparentbranch,ofbranch2toAand2to1.Thelattertwobranchesarecalleddaughterbranches.And,Aand1aresistertaxon.Treetopology18Thebranchpatterninatreeiscalledtreetopology树状拓朴.

Polytomy多分支图:thephylegenywithmutifurcatingbranches.

造成多分法的可能性:1)在进化中,一个祖先分类同时产生的后代超过两个;2〕未完全解析的系统发育情况,即不能清晰地确定二分叉的顺序。Dichotomy二叉图:

allbranchesbifurcateonaphylogenetictree.

Inthiscase,eachancestordividesandgivesrisestotwodescendants.当一个内局部支只有两个直接的线性后代〔分支〕,这个节点是二分叉内部节点。而二分叉的图称为二叉图或叉状分支图。其中任一个分支都直接分裂成两个子分支。假设一棵树存在着包含两个以上直接后代的节点,就称为多分支树。Examplesofmultifurcation:failuretoresolvethebranchingorderofsomemetazoansandprotostomesRokasA.etal.,AnimalEvolutionandtheMolecularSignatureofRadiationsCompressedinTime,Science310:1933,23December2005,Fig.1.Treeroots20pastpresent12345678945871236Rootedtree,showsthecommonancestorofallspecies/genesintheevolutionarypath.

有根树中所有的序列都具有一个共同的祖先〔根节点〕。从根节点到所有的节点都有唯一的进化路径。Unrootedtree

并不知道共同祖先的位置,只是显示各个分类之间的相互关系。无根树中不显示进化路径的方向。Obviously,arootedtreeismoreinformativethananunrootedone.Outgrouprooting21pastpresent1123459Outgroup(usedtoplacetheroot)7810root6Anunrootedtreecanberootedusinganoutgroup(外群,thatis,a

taxonknowntobehomologousbutdistantlyrelatedfromallothertaxa).45871236Unrootedtree外群的选择对进化分析影响较大,即要选择同源序列,又要保证外群序列与分析序列组之间的差异比分析序列组之间的序列差异更显著。Molecularclock分子钟假说认为对于每一个给定的基因〔或蛋白质〕,其分子进化速率是大致恒定的。因此进化中突变的数量多少与进化时间成正比。根据这一假说,人们可以根据进化树中分支的长度来推算不同物种序列发生分化的时间。22Gene/proteintreesvs.

Speciestrees23Molecularevolutionarystudiescanbecomplicated

bythefact

thatbothspeciesandgenesevolve.speciationusuallyoccurswhenaspeciesbecomes

reproductivelyisolated.Inaspeciestree,each

internalnoderepresentsaspeciationevent.

分子进化研究由于同时包含了物种的进化和基因的进化而变得复杂起来。一般新物种出现在祖先形成生殖隔离以后。在物种树中,一个内部节点代表一个物种形成事件。Genes(andproteins)mayduplicateorotherwiseevolve

beforeorafteranygivenspeciationevent.Thetopology

ofagene(orprotein)basedtreemaydifferfromthe

topologyofaspeciestree.

基因树的内部节点代表一个祖先基因分化为两个新的独特基因序列的事件。然而基因或蛋白质在物种形成事件以前或以后都可以发生复制,因此基因或蛋白质树的拓朴结构与物种树的拓朴结构可能不同。物种树的系统发育分析需要对分析物种的多个家族的基因/蛋白树进行综合评判后才能获得。24species1species2speciationevent

物种形成事件Speciestreesversusgene/proteintreespastpresent25species1species2speciationeventSpeciestreesversusgene/proteintreesGeneduplicationEvents基因复制事件OTUsGenes/Proteins特定基因的进化途径与相应物种的进化途径不必完全一致。Phylogramandcladogram

系统发育图与进化分支图26RectangularPhylogramRectangularCladogramSlantedCladogramDifference:phylogramisscaled(有刻度比例的),butcladogramnot.Inaphylogram,thebranchlengthsrepresenttheamountofevolutionarydivergence.Sothephylogramcouldshowingboththeevolutionaryrelationshipsandinformationabouttherelativedivergencetimeofthebranches.

系统发育图不仅能够显示出各个分类单元之间的进化关系,还能够给出各个分支相对的分化时间。NomeaningtotheSpacing(间隔)betweenthetaxa,ortotheorderinwhichtheyappearfromtoptobottom.TaxonATaxonBTaxonCTaxonETaxonDThisdimensioneithercanhavenoscale(for‘cladograms’,进化分支图),Orcanbeproportionaltogeneticdistanceoramountofchange(for‘phylograms系统分支图),orcanbeproportionaltotime(for‘ultrametrictrees’ortrueevolutionarytrees).ThesesaythatBandCaremorecloselyrelatedtoeachotherthaneitheristoA,andthatA,B,andCformacladethatisasistergrouptothecladecomposedofDandE.Ifthetreehasatimescale,thenDandEarethemostcloselyrelated.Phylogram(valuesareproportionaltobranchlengths)系统发生图,分支的长度与改变是成比例的。有标度。但考虑到视觉问题分支的权重值并不是全部显现出来。相对位置较近的分类拥有较强的进化相关性。Cladogram(valuesarenotproportionaltobranchlengths)进化分支图,无标度,分支长度与改变数值不成比例,但可以看清所有分支的权值。Rectangularphylogram(valuesareproportionaltobranchlengths)Rectangularcladogram(valuesarenotproportionaltobranchlengths)Thesefourtreesdisplaythesamedataindifferentformats.Newickformat32Whyfindingatruetreeisdifficult33Therearethreepossibleunrootedtreesforfourtaxa(A,B,C,D)ACBDTree1ABCDTree2ABDCTree3ABCThreetaxahasoneunrootedtree对二叉无根树来说…Numbersoftrees35Number Numberof NumberofofOTUs rootedtrees unrootedtrees2 1 13 3 14 15 35 105 1510 34,459,425 2,027,025208x1021

2x1020随着分类个数的增加可能的树形数量以指数形式增长。因此,知道构建发育树可能存在的树的数目非常重要。Enumeratingtrees(枚举树)36Cavalii-SforzaandEdwards(1967)derivedthenumberofpossibleunrootedtrees(NU)fornOTUs(n

>3): NU=

Thenumberofbifurcatingrootedtrees

(NR) NR=For10OTUs(e.g.10DNAorproteinsequences),thenumberofpossiblerootedtreesis

34million,andthenumberofunrootedtreesis

2million.Manytree-makingalgorithmscanexhaustivelyexamineeverypossibletreeforuptotentotwelvesequences.

(2n-5)!2n-3(n-3)!(2n-3)!2n-2(n-2)!GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis

(系统发生分析)Nomenclature/terminology(术语)oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingadistancemodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware37Step1.selectingsequences在系统发育研究中序列的选择取决于序列中的特征及研究的目的。当研究非常近缘的物种时,可能会使用比蛋白质序列变化多得多的核酸序列,如对同一种群中不同个体的进化进行分析时,常使用线粒体DNA的非编码区域。当研究进化距离较远的物种时,可以选用进化较慢的核酸序列(如核糖体RNA)或蛋白质序列当进化关系非常远时〔如比较细菌与真核生物〕,那么可能会使用保守的蛋白质序列进行分析38某些情况下,研究DNA能够比研究蛋白质获得更丰富的信息蛋白质编码区域的DNA可发生同义(synonymous)或非同义替换(nonsynonymoussubstitution)。因此,有些DNA水平的变化不会反映到蛋白质序列上。当同义替换率(dS)大于非同义替换率(dN),时,DNA可能发生了阴性选择或称净化选择。即对相应的氨基酸序列改变进行了限制。这种选择发生在蛋白质的结构和/或功能是临界的和不能发生替换的时候。当非同义替换率大于同义替换率时,发生了阳性选择。举一个例子是进行自我复制后的基因在自然选择的压力下为了能承担新的功能从而进化的较快。39Synonymoussubstitutions(nucleotidesinred)andnonsynonymoussubstitutions(redarrowheads)inglobins人和马的RBP编码蛋白局部核苷酸比对情况,其中可观察到的错配是3个,但参考其祖先序列并分析这两个序列,事实上此区域内的突变事件远不止三个。

除了同义及非同义替换的情况外,核酸序列中的突变还分为可观察到的及不可观察到的两种.DNA中可获得更丰富的信息II与假设的原始祖先序列相比,除了单核苷酸替换,连续性替换及巧合性替换三种突变外,平行的、趋同的、回复的突变都不能被直接观察到。因此,在计算两条序列的进化距离时,要在可观察到的替换根底上进行调整。大多数情况下使用蛋白质序列Unlessthesequencesarealmostidentical,itiseasiertokeepworkingattheproteinlevel.ThismaynotbeasaccurateasworkingwithDNAsequences,but,inmostcases,youcanexpecttheresultstobereasonablygood.Oneachcolumn,proteinshave20states(aminoacids)insteadofonlyfourforDNA,sothereisastrongerphylogeneticsignal.43TipsforsequencesselectioninmakingaphylogenetictreeAvoidsequencefragmentsItwillmakeMSAandtreereconstructionmethodsverysick.Ifyouhavetodoso,atleastusethesamefragmentforallthesequences.AvoidXenologsAvoidrecombinantsequencesSomeproteinsresultfromthecombinationofseveralproteins.Thisiscommoninviruses.Suchproteinshavetwoormoreancestors,andstandardtreemethodsarenotequippedtorepresentthiskindofrelationship.AvoidlargecomplexfamiliesVerylargefamiliesthatcontainvariousdomainsandrepeatscanbeverytrickytoanalyze.Trytoworkonsmaller,moreuniformsubsets.Addanoutgrouptoyourdataset44Step2.multiplesequencealignment45Thefundamentalbasisofaphylogenetictreeis

amultiplesequencealignment.Onlythecorrectalignmentproducescorrectphylogeneicinferencebecausealignedpositionsareassumedtobegenealogicallyrelated.

(Ifthereisamisalignment,orifanonhomologoussequenceisincludedinthealignment,itwillstillbepossibletogenerateatree.–meaningless!)进行多序列比对时,要注意46[1]Confirmthatallsequencesarehomologous[2]Adjustgapcreationandextensionpenaltiesasneededto

optimizethealignment[3]Restrictphylogeneticanalysistoregionsofthemultiple

sequencealignmentforwhichdataareavailableforall

taxa(deletecolumnshavingincompletedata).[4]Manyexpertsrecommendthatyoudeleteanycolumnofanalignmentthatcontainsgaps(evenifthegapoccurs

inonlyonetaxon)

toreconstructphylogenytree.1、仔细检查所有参加多重比对的序列,确保其中所有的序列都是同源的。〔方法:判断序列之间的距离,PairWisealignment,BLAST,观察E值的大小及比对区域的长短。〕如果发现非同源序列,应将其从多重比对中移除。2、某些序列的完整性不可知时,omrbp(虹鳟鱼〕和btrtb〔牛〕的RBP序列没有起始的蛋氨酸。在系统分析时应严格限制多重比对在每一研究对象中都可获得的那局部序列中。3、此多序列比对中,有些位点的变化将4种鱼类与其他物种分隔开来。箭头3、6、8、11,而有些位点鱼和两栖类是一致的,如箭头7,10。Considerthealignmentof13orthologousofretinol-bindingproteinsStep3.choosingasubstitutionmodelorevolutionarymodel衡量序列间差异的最简单方法是比照对结果中的发生的替换进行计数。然而,比对中可观测到的替换数量并不能真实表达进化中实际发生的替换数量〔比方平行、趋同及回复突变的结果〕。使得对序列间的真实进化距离的估计产生偏差。--非同源相似的影响48Homologyvs.HomoplasyHomologymeansthesimilarityduetothecommonancestor.Homoplasy(非同源相似),ontheotherhand,meanssimilarityduetoconvergentevolution,butindependentorigins.49TermNucleotidesubstitutionmodelThestatisticalmodelsusedtocorrecthomoplasyarecalledsubstitutionmodelsorevolutionarymodels.警告:只适用于那些处于适度相似范围内的序列。如果序列比对在某个位点发生了过多的替换〔对于多数差异序列来说事实如此〕使该位点的变化趋于饱合时,进化差异就超越了统计模型所能校正的范围,从而得不到真实的进化距离。50NucleotidesubstitutionmodelJukes-Cantormodel(1969)此模型只适用于那些适度近缘的序列分析:ifalignmentABis20nucleotideslongand6pairsarefoundtobedifferent:可观测的距离p=0.3,修正后的DAB=0.38然而一但p=0.75,那么修正后的DAB会导致无穷大。51DAB=(-)ln(1–pAB)3443D:A,B两个序列之间的进化距离;

p:可观测到的序列差异,由可观测到的替换数与序列比对全长的比率计算得到。Typesofnucleotidesubstitution52AGCTtransitiontransitiontransversiontransversionInpractice,thetransitionrateistypicallygreaterthanthetransversionrate.IntheJukes–Cantormodel,allnucleotideshaveequalsubstitutionrates(α).NucleotidesubstitutionmodelIIKimuramodel(assumesa≠b,transitionrate≠transversionrate)53AGTCbbbbaadAB=-(1/2)ln(1-2pti-ptv)-(1/4)ln(1-2ptv)

dAB:序列AB之间的进化距离;

pti:观察到的转换频率;

ptv:

观察到的颠换频率。MoresophisticatedandmorerealisticmodelwhencomparedwithJukes-Cantormodel.ProteinsubstitutionmodelsPAMorJTTaminoacidsubstitutionmatrixProteinequivalentsofJukes-CantorandKimuramodelsKimuramodelforcorrectingmultiplesubstitutionsinproteindistancesdAB=-ln(1-p-0.2p2〕pistheobservedpairwisedistancebetweentwosequences.54Among-SiteVariations上述公式的计算中都假定了不同位点的进化是以相同的速率进行的。--与真实情况不符DNA序列中编码区内的核酸替换率与非编码区不同DNA序列中的第三位密码子突变要快于其他两位密码子蛋白质序列中由于功能/结构的约束使得某些氨基酸残基变化较少位点间的差异进化速率〔among-siterateheterogeneity〕要求再对上述进化距离的计算模型进行参数上的调整。55Step4.TreebuildingmethodDistance-based(基于距离)methods使用距离打分矩阵,此类方法消耗的计算时间较少。方法包括:UPGMA(非加权成对/分组算术平均值)、neighbor-joining(邻接法)Character-based(基于字符特征)methods统计序列中字符的变化数目方法包括:maximumparsimony(MP,最大简约)、maximumlikelihood(ML,最大似然)MP分析即搜索可观测到的氨基酸〔或核酸〕变化具有最少数目替换方式的系统树途径。56ThistreeshowsRBPorthologsin13species.commoncarpzebrafishrainbowtroutteleostAfricanclawedfrogchickenmouseratrabbitcowpighorsehuman10changesFishRBPorthologsOthervertebrateRBPorthologsDistance-basedtree在基于距离的建树方法中,我们可计算多重序列比对中每一对蛋白质序列的氨基酸相似百分比。如果两个序列关系很近,那么在树上的位置也会非常靠近。而那些进化距离较远的序列那么会被放置上树上相隔较远的位置。直觉上,我们可从水平角度考察图中的序列,并在整个序列范围内计算进化距离。Character-basedtree:基于字符特征的建树方法是从一个垂直的角度来分析多重序列比对结果的。在每一列氨基酸的排列形式中,哪一种排列方法是解释进化最简单或最简约的方法?将鱼类放置在离其他蛋白质序列很远的进化树位置上通过对图中像箭头3、6、8、11等的位点考察后的结果。UPGMA:adistance-basedclusteringtree-buildingmethod60UPGMAisUnweightedPairGroupMethodusingArithmeticmean12345此方法假定所有的蛋白质序列〔分类单元〕都是以同样的固定速率发生改变与进化,所以它们到树根的距离是等同的。61Tree-buildingmethods:UPGMAStep1:Givenadistancematrix,computethepairwisedistancesofalltheproteins.Getreadytoputthenumbers1-5atthebottomofyournewtree.1234562Tree-buildingmethods:UPGMAStep2:Findthetwoproteinswiththesmallestpairwisedistance.Clusterthem.12345126一个新节点通过其女儿节点来定义.并且它被放置在进化树1/2d12处。随后的步骤中1、2节点被去除并用聚类6〔1,2的祖先节点〕来代替。63Tree-buildingmethods:UPGMAStep3:Doitagain.Findthenexttwoproteinswiththesmallestpairwisedistance.Clusterthem.1234512645764Tree-buildingmethods:UPGMAStep4:Keepgoing.Cluster.1234512645738循环往复前进,直到每一个新的聚类都被重新定义。65Tree-buildingmethods:UPGMAStep4:Lastcluster!Thisisyourtree.12345126457389当只剩下两类时,树根节点被放置在树的1/2d的位置。UPGMA的距离计算66合并AC后的距离矩阵MB(AC)=(MBA+MBC)/2=(8+9)/2=8.5MD(AC)=(MDA+MDC)/2=(12+11)/2=11.5根据给定的距离矩阵或实际观测67合并〔AC〕B后的距离矩阵M(ABC)D=(MAD+MBD+MCD)/3=(12+14+11)/3=12.3368ABCDA0B8.50C78.50D12.3312.3312.33069OriginaldistancematrixFinaldistancematrixofthetreeaccordingtotheUPGMAmethodUPGMA方法总结70Asimpleapproachformakingtrees.AnUPGMAtreeisalwaysrooted.Anassumptionofthealgorithmisthatthemolecularclockisconstantforsequencesinthetree.Ifthereareunequalsubstitutionrates,thetreemaybewrong(mostofthetime).WhileUPGMAissimple,itislessaccuratethantheneighbor-joiningapproach(describednext).Neighbor-joining

:anotherdistance-basedclusteringtree-buildingmethod71NJ并不像UPGMA那样假设每个分类到树根的距离都完全相同。它在建树前先使用了一个距离转换步骤来校正序列间不同的进化速率。d’AB=dAB–½*(rA+rB)d’AB–转换后序列A与B间的距离dAB–序列A与B间的实际进化距离rA/rB是指A〔或B〕与其它所有分类单元的距离总和

r的通用表达式为:ri=∑dij,r’i=ri/n-2其中,r’i用来确定某个分类单元i与其最近节点间的距离当待分析的序列数量为n时,假设序列A和B形成了一个为U的节点,那么

A到U的距离为dAU=[dAB+(r‘A–r’B)]/272Tree-buildingmethods:NeighborjoiningNJ法先将待分析的所有分类单元〔序列〕与一个单节点组成一个星状树结构,再根据上页的距离校正公式计算校正后的各序列间的距离,选择距离最短的两个序列进行合并并首先脱离星状结构。新节点再与其它节点一起计算新的n-1个分类单元的距离,合并距离最小的两个分类。这样不断重复下去,直到所有的内部节点都被合并。这一过程被称为stardecomposition.NJ方法总结NJ法产生的是无根树〔unrootedtree〕,需要参加外群来确定树根的位置NJ法基于最小进化原理,是ME方法的简化版。它将每一步聚类得到的进化距离总和最小化。在进行大量序列的进化分析时NJ法非常有效。是基于距离数据重建系统发育树最有效的方法之一。73Exampleofaneighbor-joiningtree:phylogeneticanalysisof13RBPsOtherDistance-basedClusteringmethodsOptimality-basedmethods(基于最优化的方法〕基于距离的聚类方法只产生一棵树,而基于最优化的方法那么可以比较所有可能的树形拓朴结构并选择一棵最符合实际进化距离矩阵的树。由于要找最优化的树,此种方法最大的缺陷在于数据量的限制及运算速度缓慢。Fitch-Margoliash〔FM〕Minimumevolution(ME,最小进化方法)75MP:acharacter-basedtreebuildingmethod最大简约法的主要思想:拥有最短可能分支长度的进化树将是最好的系统发育树。根据这一理论,我们将寻找最简约即字符特征变化次数最少的进化树。步骤确定信息位点。如果某一个序列位点恒定不变,那么它不是信息位点。简约信息位点上,不同的字符特征必须各自至少在两个序列〔分类单元〕中出现。对构建每一棵树所需要发生的字符特征改变进行计数,寻找改变数最少的树〔或树群〕。当序列数少于12条时,一般采用穷尽法遍历所有可能的树形,当序列大于12条时,那么多采用启发式的算法以降低搜索的复杂度。7677Asanexampleoftree-buildingusingmaximumparsimony,considerthesefourtaxa: AAG AAA GGA AGAHowmighttheyhaveevolvedfromacommonancestorsuchasAAA?78AAGAAAGGAAGAAAAAAA11AGAAAGAGAAAAGGAAAAAAA12AAAAAGGGAAAAAGAAAAAAA11AAA12Tree-buildingmethods:MaximumparsimonyCost=3Cost=4Cost=41Inmaximumparsimony,choosethetree(s)withthelowestcost(shortestbranchlengths).AAG

AAA

GGA

AGA简约算法中的问题:

longbranchattraction79Forsomephylogenetictrees,particularlythosebasedonmaximumparsimony,theartifactoflong-branchattractionmayoccur.

Branchlengthsoftendepictthenumberofsubstitutionsthatoccurbetweentwotaxa.Parsimonyassumesalltaxaevolveatthesamerate,andallcharacterscontributethesameamountofinformation.

分支长度描述了两个分类之间出现的替换情况.简约法假定所有的分类都是以一个相同的速率来进化的,并且所有的字符特征的改变对总信息量改变的奉献也是相同的。Rapidlyevolvingtaxamaybeplacedonthesamebranch,notbecausetheyarerelated,butbecausetheybothhavemanysubstitutions.

在进化树上一些分类存在于同一分支中并不是因为它们之间的亲缘关系较近,而是因为它们发现的替换较多(即进化速度较快)。因此,在遇到趋同进化或进化速率不同时,MP法的建树结果并不理想。长枝吸引会使系统分析产生错误80真实的进化树包含了一个比其他分类进化速率快很多的分类。2、3有共同祖先,但推论得到的树中,由于2被一个含有长进化分支的外围集团所吸引,在树中被放置在与其他分类分开的位置上。Step5.Evaluatingtree评估系统发育树准确性的标准在于它是否具有一致性、有效性及稳健性。评估可以针对一种建树方法或者一个特定的系统发育树通常我们使用自举法〔bootstrapping)和折刀法〔jackknifing〕来检测系统树的稳健性。81Bootstrapping

method82Bootstrapping(自举法)isacommonlyusedapproachtomeasuringtherobustnessofatreetopology.Givenabranchingorder,howconsistentlydoes

analgorithmfindthatbranchingorderinarandomlypermuted(序列改变)versionoftheoriginaldataset?Tobootstrap,makeanartificialdatasetobtainedbyrandomlysamplingcolumnsfromyourmultiplesequencealignment.Makethedatasetthesamesizeastheoriginal.Do100(to1,000)bootstrapreplicates.Observethepercentofcasesinwhichtheassignmentofcladesintheoriginaltreeissupportedbythebootstrapreplicates.>70%isconsideredsignificant.In61%ofthebootstrapresamplings,ssrbpandbtrbp(pigandcowRBP)formedadistinctclade.In39%ofthecases,anotherproteinjoinedtheclade(e.g.ecrbp),oroneofthesetwosequencesjoinedanotherclade.GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis

(系统发生分析)Nomenclature/terminology(术语)oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingadistancemodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware84Treebuildingsoftware85Regardlessofwhetheryouusedistance-orcharacter-basedmethodsforbuildingatree,thestartingpointisamultiplesequencealignment.ReadSeqisaconvenientweb-basedprogramthattranslatesmultiplesequencealignmentsintoformatscomp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论