




已阅读5页,还剩169页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分子进化与系统发育分析,生物信息学,1,内容提要,分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用MEGA分子进化树分析软件,2,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,分子进化研究的目的,3,系统发育树是什么?,对一组实际对象的世系关系的描述(如基因,物种等)。,4,祖先节点/树根,内部节点/分歧点,该分支可能的祖先结点,分支/世系,末端节点,A,B,C,D,E,代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等,系统发育树:术语,5,A,B,C,D,E,F,G,树只代表分支的拓扑结构,F,G,C,D,E,A,B,6,分子进化研究的基础(假设),核苷酸和氨基酸序列中含有生物进化历史的全部信息。,7,在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,1965),分子进化研究的基础(理论),8,虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。,分子进化研究的基础(实际),9,从一个分歧数据可以推测其他,序列分歧度,分歧时间,x,分子钟理论,10,速率恒定的证据:血色素,11,中性理论,“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。”否认自然选择在生物进化中的作用,认为生物大分子的进化的主要因素是机会和突变压力,12,进化及遗传模型,1、序列有指定的来源并且正确无误。2、序列是同源的,而序列不是“paralog“的混合物。3、序列比对中,不同序列的同一个位点都是同源的4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。5、样本足以解决感兴趣的问题。,13,进化及遗传模型,6、样本序列之间的差异代表了感兴趣的宽组。7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。8、样本序列是随机进化的。9、序列中的所有位点的进化都是随机的。10、序列中的每一个位点的进化都是独立的。,14,直系同源(orthologs):同源的基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。,直系同源与旁系同源,15,paralogs,orthologs,16,paralogs,orthologs,ErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$seefrontmatter2002ElsevierScienceLtd.Allrightsreserved.,17,以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,18,趋同进化的基因(Convergentevolution)通过不同的进化途径获得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths),19,异源基因或水平转移基因(xenologousorhorizontallytransferredgenes)由某一个水平基因转移事件而得到的同源序列,20,Bacterium1,Bacterium3,Bacterium2,Eukaryote1,Eukaryote4,Eukaryote3,Eukaryote2,Bacterium1,Bacterium3,Bacterium2,Eukaryote1,Eukaryote4,Eukaryote3,Eukaryote2,Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息,2.进化分支图,进化树,Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。,21,archaea,archaea,eukaryote,eukaryote,eukaryote,eukaryote,通过外围支来确定树根,archaea,bacteriaoutgroup,根,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,有根树,外围支,无根树,有根树,外围支,22,无根树和有根树:潜在的数目,#Taxa无根树有根树,31343155151056105945794510,395303.58X10362.04X1038,Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解,23,4.基因树,物种树,Weoftenassumethatgenetreesgiveusspeciestrees,a,b,c,A,B,D,Genetree,Speciestree,24,系统发育树重建分析步骤,多序列比对(自动比对,手工比对),建立取代模型(建树方法),建立进化树,进化树评估,25,1.最大简约法(maximumparsimony,MP)2.距离法(distance)3.最大似然法(maximumlikelihood,ML),系统发育树重建的基本方法,26,最大简约法(MP),1.理论基础为奥卡姆剃刀(Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树2.在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树3.优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果,27,1.信息位点,必须在至少2个taxa中具有相同的序列性状2.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点,信息位点(Sitesareinformative),28,29,上例,1.Position5,7,9为信息位点2.基于position5的三个MP树:Tree1长度1,Tree2dimensionsntax=12;taxlabelsLemur_cattaTarsius_syrichta;end;begincharacters;dimensionsnchar=898;formatmissing=?gap=-matchchar=.interleavedatatype=dna;optionsgapmode=missing;matrixLemur_cattaAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiensAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPanAAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobatesAAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATT,83,beginassumptions;charsetcoding=2-457660-896;charsetnoncoding=1458-659897-898;charset1stpos=2-4573660-8963;charset2ndpos=3-4573661-8963;charset3rdpos=4-4573662-.3;exsetcoding=noncoding;exsetnoncoding=coding;usertype2_1=4weightstransversions2timestransitionsacgta.212c2.21g12.2t212.;usertype3_1=4weightstransversions3timestransitionsacgta.313c3.31g13.3t313.;taxsethominoids=Homo_sapiensPanGorillaPongoHylobates;end;beginpaup;constraintsch=(Homo_sapiens,Pan);constraintschg=(Homo_sapiens,Pan,Gorilla);end;,84,PAUP*的数据格式(Nexus)主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八个数据块。对于一个常规的分析,taxa,characters块是必须的。而分析的命令可以通过菜单操作(mac),或者键盘命令(win,linux),也可以在nexus文件中加入paup命令块,85,1.TAXA块主要是定义所分析的数据(如分子序列)个数,以及这些数据的名称(如物种名称)。2.CHARACTERS块主要是定义数据矩阵(如多序列比对结果)和其他一些相关的信息(如序列特征值,序列有效区域等),PAUP*的Nexus的文件块,86,3.ASSUMPTIONS块定义了对数据的一些设定,如那些特征值是不需考虑的,怎么处理gap这个特征值等,用户自定义的一些数据也放在这块,如自定义的打分矩阵。4.SETS块定义了一系列的数据组,如特征值组,物种组等,这些设置都是为了方便后续的分析。,87,5.TREES块定义了用户自己设定的树。用于后续的分析,如作为限制树等。6.CODONS块定义了遗传密码子的一些信息。如编码的位置(哪些是编码的,密码子的位点等)。7.DISTANCES块定义了一些距离矩阵。,88,8.PAUP块是软件的核心块,所有的分析命令和一些参数设置(90多个命令)都放在这一块。这一块并不是分析输入数据所必须的,这些命令可以写在这一块(文件中),这时载入文件时就开始根据该块的命令进行分析(有点类似dos的批处理过程)。当然也可以通过键盘命令逐一敲入,交互进行分析。批处理的方式在分析过程比较长,耗时比较久的时候是比较有用的。当然在进行处理之前一定要先保证该批处理过程没有问题。,89,一个PAUP*的基本分析实例,1.通过clustalw/clustalx获取一个多序列比对结果(可能要经过人工调整,推荐用bioedit做辅助编辑器)。保存成nexus格式的文件,或者用其他格式转换软件转换成nexus格式。paup*中也有一个tonexus命令可以将其他格式(包括phylip,GCG等格式)的文件转换为nexus格式的文件。,90,2.在PAUP*程序中读入数据(Nexus格式),输入命令的地方,打开文件的窗口,程序自带的测试数据,执行该文件还是编辑该文件?执行文件时将文件数据读入程序,编辑文件则调用一个文本编辑器。如果不是nexus格式,执行时候会出错,然后调用文本编辑器打开。,91,3.数据输入完成,开始分析两个很有用的命令?:显示所有的命令命令?:显示命令的所有参数,92,分析(开始一),1.开始之前打开记录文件?(跟踪整个分析过程)命令:logstartfile=your_log_file_name;停止:logstop;,93,2.设置数据哪些用于分析?如:includecoding/only;excludecoding/only;哪些物种要分析(删除不要的)?如:delete1;或者deletetaxa_nameundelete1;,分析(开始二),94,3.确定建树方法最大简约法?最大似然法?距离法?命令:Setcriterion=parsimony|likelihood|distance;,分析(建树一),95,4.确定其他参数Set?查看其他参数的设置,改为自己所需要的设置。如:setmaxtree=10000increase=noautoclose=yes;,分析(建树二),96,5.确定搜索方法(对于距离法不适用)穷尽法:alltrees分支跳跃查找:bandb启发式搜索:hsearch其他:puzzle(只在likelihood时有效),分析(建树三),97,6.开始搜索树之前(设置各个建树方法的参数)距离法:dset如:dsetdistance=tamneinegbrlen=allow最大简约法:pset如psetcollapse=nogapmode=newstate最大似然法:lset如:lsetnst=6clock=yes,分析(建树四),98,7.再次确认参数是否要设置外围群(outgroup)?如outgroup1,2;或者outgrouptaxa_set;其他参数?,分析(建树五),99,7.开始搜索树距离法:NJ,UPGMA最大简约法,最大似然法Hsearch?参数是否要更改?如:hsearchandseq=randomswap=spr,分析(建树六),100,8.进化树的评估选择评估方法?Bootstrap(自展法)用的最多,是对进化树重新取样的评估方法,可以对距离法,简约法,似然法以及衍生出的任何其他方法构建的进化树进行评估。其分析结果是一组数字,这个数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。,分析(树评估一),101,分析(树评估二),未经过bootstrap的树,Bootstrap后的树,102,BOOTSTRAPoptions/heuristic-search-options|branch-and-bound-search-options;使用分支限制或者是启发式搜索的方法进行bootstrap分析。参数:BSEED=integer-value随机数种子。NREPS=integer-valuebootstrap重复的次数,默认值为100。SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA搜索方式CONLEVEL=integer-valuebootstrap重复次数的最低比率,默认为50。KEEPALL=YES|NOWTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONALNCHAR=CURRENT|number-of-characters每次重复采样的数目。GRPFREQ=YES|NO显示bootstrap分割频率TREEFILE=bootstrap-tree-file-name树的文件FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIGBRLENS=YES|NO分支的长度*REPLACE=YES|NOCUTOFFPCT=integer-value定义显示的最低bootstrap分割频率。Examplebootstrapnreps=200treefile=boot.tresearch=heuristic/addseq=random;,分析(树评估三),PAUP*中的bootstrap命令,103,对折分析(jackknife)跟bootstrap类似,只是在对原始数据取样的时候不会取重复的数据位点。因为它重复取样的时候是在原始数据中除去一个或者多个比对位点。对折分析得出的结果和bootstrap是一样的。命令和参数都类似,用的比bootstrap少很多。,分析(树评估四),104,JACKKNIFEoptions/heuristic-search-options|branchand-bound-search-options;对折分析PCTDELETE=real-value每个对折分析循环中删除的dataset百分数JSEED=integer-value随机数种子NREPS=integer-value对折循环次数SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA树的搜索方法(NJ和UPGMA仅在最优规则为distance时才可用)RESAMPLE=NORMAL|JACCONLEVEL=integer-valueboostrap中出现的最小比例(最为保留group),默认为50,即50KEEPALL=YES|NO低于conlevel的树,若与一致树兼容,也保留WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONALGRPFREQ=YES|NO显示对折分区频率TREEFILE=tree-file-nameFORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG*REPLACE=YES|NOCUTOFFPCT=integer-value对折频率表中显示的最小频率。ExampleJACKKNIFEnreps=200treefile=tree.tresearch=heuristic/addseq=random,分析(树评估五),PAUP*中的jackknife命令,105,KHtest和SHtest用来测试一个特定的次优化的ml或者mp拓扑结构同最优化的拓扑结构相比是否显著不同(通常用来做Hypothesistest)。PAUP*中这两个测试是作为pscores和lscores的一个参数,默认关闭,需要进行这两个测试的时候,要打开该参数。Pscore中有KHtest,不支持SHtestLscore中有KHtest和SHtest,分析(树评估六),106,如:Pscoresall/khtest=normal;Lscoresall/khtest=normalshtest=rell;测试得出的结果是返回一个显著性差异系数(P值)。,分析(树评估七),107,其他测试随机测试:permute不一致的长度差异测试:hompart,分析(树评估八),108,分析结束之前,1.保存分析结果Savetrees根据要求将内存中的树保存到文件如:savetreesfile=tree.trebrlens=yessavebootp=bothfrom=1to=2;2.停止记录文件Logstop;,109,退出,3.如果要进行下一项分析,想让原来改过的参数全部变回默认设置命令:factory所有参数恢复默认设置4.确定要退出后命令:quit,110,一些有用的命令,1.Treeinfo查看内存中树的情况(多少个?有根还是无根?)。2.clear清除内存中所有的树。3.showtree查看内存中的树(默认显示第一个树,可以加入参数)如:showtreeall;showtree2,3;4.gettrees从树文件中读取树到内存中,111,5.dscores,pscores,lscores计算树的距离,简约性,相似性分值。6.ingroup/outgroup取消和设定外围群7.Contree根据一定的规则求解一致树8.Deroottrees将有根树转换为无根树9.Roottrees根据当前设定的outgroup将无根树转换为有根树,112,10.Filter根据设定的规则筛选树。11.详细的命令请参考paup*软件的commandreference。,113,Paup块的一个例子,beginpaup;Logstarfile=log.txt;setcriterion=likelihoodautoclose=yesmaxtrees=10000increase=no;lsetnst=6rmatrix=estimatebasefreq=estimatepinv=estimaterates=gammashape=estimate;hsearchaddseq=randomnreps=100;bootstrapnreps=1000search=heuristicbrlens=yes;savetreesfile=tree.tresavebootp=bothfrom=1to=1;logstop;quit;end;,114,构建进化树实例MEGA3.1,软件安装,启动程序,Alignment,转入fasta格式文件,比对,保存比对后文件为扩展名meg的格式,关闭软件窗口按钮,点phylogeny菜单,选构建树的方式,完成构建,115,116,117,118,119,120,121,122,123,生物信息学,第六章分子进化与系统发育分析,124,生物学家:Wehaveadream,1.TreeofLife:重建所有生物的进化历史并以系统树的形式加以描述,125,梦想走进现实:How?,1.最理想的方法:化石!然而零散、不完整,2.比较形态学和比较生理学:确定大致的进化框架。然而,细节存在巨多的争议,126,第三种方案:分子进化,1.1964年,LinusPauling提出分子进化理论;2.DNA物种分类;2.大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测;3.进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?,134,(1)TreeofLife:16SrRNA,135,OutofAfrica,53个人的线粒体基因组(16,587bp),人类迁移的路线,136,(2)同源性分析-功能相似性,Ortholog(直系同源物):两个基因通过物种形成的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。Paralog(旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。Xenolog(异同源物):由某一个水平基因转移事件而得到的同源序列。Convergentevolution:通过不同的进化途径获得相似的功能,或者,功能替代物。,137,paralogs,orthologs,138,异同源物,139,基因的趋同进化通过不同的进化过程获得保守的功能,140,趋同进化:Langur,食叶猴,RNASE:纤维素分解、消化,141,同源关系的分析,1.直系同源物的确定:ReciprocalBestHits;2.旁系同源物的确定:BLAST,序列比对及数据库搜索,至少存在一个共有的功能结构域;3.整体分析/蛋白质家族分析:系统发育树的构建;,142,ReciprocalBestHits,?,直系同源物:ReciprocalBestHits,143,(3)HIVprotease:高突变性,Ka/Ks1,强的正选择压力,具有很高的可突变性,144,本章内容提要,1.密码子偏好及相应分析;2.氨基酸序列的进化演变;3.DNA序列的进化演变;4.同义与非同义的核苷酸替代;5.系统发育树的构建;6.分子钟与线性树;7.MEGA软件的使用;,145,第一节密码子偏好及相应分析,1.密码子(codon):在随机或者无自然选择的情况下,各个密码子出现频率将大致相等。2.密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致;3.可能的原因:密码子对应的同功tRNA丰度的不同。,146,标准密码子,147,大肠杆菌RNA聚合酶,148,大肠杆菌RNA聚合酶(2),1.密码子偏好非常明显;例如2.同为编码Phe的同义密码子UUU和UUC,二者出现的次数显著不等,UUU(15次),UUC(44次);3.再如:编码Arg的四个密码子CGU
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 微波辅助预压技术对传送带承载层密实度提升的传热-力学耦合效应分析
- 微型化传感器在电动汽车车载诊断系统中抗振动可靠性提升方案
- 钣金产品生产周期优化方案
- 循环经济视角下剪毛绒废旧制品化学解聚技术的产业化可行性研究
- 循环经济背景下塑料配件化学回收技术的产业化瓶颈
- 建筑领域前盖后档式幕墙系统风荷载动态响应研究
- 废弃物热解气体的催化净化技术对环保型干燥设备能效的增益研究
- 工业设计维度人体工学与便携性的非线性矛盾解析
- 工业级三氟苯胺纯度标准与药物应用安全性的量化关联
- 广东省深圳2025年八年级下学期英语月考试卷附答案
- 腹腔热灌注护理课件
- 宣传思想文化试题及答案
- 消防装备维护保养课件
- 乡村调解员课件
- 2025初中语文新教材培训
- 精神科木僵患者的护理
- 体重管理宣教课件
- 美术培训学期课件
- 厂房居间协议书范本
- 市场摆渡车管理制度
- 联想集团绩效管理制度
评论
0/150
提交评论