




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分子系统发育分析,毛理凯,2,本课目录,总括多序列比对构建系统树系统发生软件,3,一、总括,4,系统发生学(phylogenetics),亦称系统学,种系发生学,种系发生系统学(phylogeneticsystematics)在希腊文中phylon=tribe,race(种系)genesis=birth研究生物群体(如:物种,种群)之间的进化关系,5,相关概念,phylogenetictaxonomy(系统发生分类学)是系统学的一个分支根据进化相关度对生物群体分类phylogeny(=phylogenesis系统发生)生物群体的产生和进化分子系统学(molecularphylogenetics)将核酸,氨基酸序列作为进化特征,6,系统发生树(phylogenetictree),也叫系统树,进化树(evolutionarytree),生命树(treeoflife)对物种之间的进化关系的一种描述,这些物种被认为有共同祖先,叶,节点,关系,时间,7,有根树和无根树,有根树(rootedtree)有共同祖先无根树(unrootedtree)树空间(treespace)从已知序列可以产生许多系统树来自几何,8,无根树和有根树的关系(1),从一棵有根树总可以产生一棵无根树而从无根树产生有根树需要额外的数据,9,无根树和有根树的关系(2),一棵无根树可以产生多棵有根树,10,WilliHennig(1913-1976),德国生物学家,被认为是系统发生学和分类学(cladistics;也叫cladogram)的奠基人据已知资料来看,他的观点并不是最早被阐述属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述可以认为是系统发生学的集大成者,11,历史上的系统树,海克尔(ErnstHaeckel)首次制成了当时所有已知生物的系统树(1834-1919)著名的德国生物学家,哲学家,医生,教授,艺术家创建了重演论(recapitulationtheory)命名了许多生物学术语(如:门,系统发生,生态学,原生生物)和几千物种出版了著名的KunstformenderNatur(ArtformsofNature),12,可能是最早的系统树,C.Darwin,1837,13,特征选取的变迁,经典系统发生学主要是比较大的物理或表型特征如生物体的大小,颜色,牙齿个数,行为特征缺点:不易量化(连续),难以选取合适特征现代系统发生学分子水平:核酸或氨基酸序列优点:易量化(离散),易获取,适于自动化,更本质例子:(现代人起源)通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”),14,系统发生学研究方法,目的在树空间中寻找正确的系统树分析步骤多(重)序列比对(multiplesequencealignment,MSA)构建系统树评价结果,15,三种构建系统树中使用的搜索算法,穷尽法搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树分支约束方法根据一定的约束条件将搜索空间限制在一定范围内启发式或经验性方法(heuristic)根据目前的搜索情况指导下一步的搜索方向根据先验知识或一定的指导性规则压缩搜索空间,16,两类数据:距离和离散特征,距离描述序列之间的差别(遗传距离)一般用距离矩阵(distancematrix)表示距离往往由序列比对产生(如错配的比例)离散特征二态特征(如:DNA序列上的某个位点是否剪切位点)多态特征(如:某一位点可能的碱基有A,T,G,C),17,两大类构建系统树的算法,基于距离的构建方法(distance-matrixmethods)邻近归并法(或称邻接法,neighbor-joining)非加权组平均法(UPGMA)Fitch-Margoliash法最小进化方法基于离散特征的构建方法最大简约法(MP)进化简约法(EP)最大似然法(ML)相容性方法,18,注意:系统树的限制,有人认为生物的系统关系不一定是树状的系统树不一定代表进化历史有很多干扰分析的因素噪音(noisy)水平基因转移(horizontalgenetransfer;网状)杂交,重组等(网状)用不同基因或蛋白产生的树往往不同已经灭绝的物种只能作为叶节点,19,二、多序列比对,20,例子,多物种核糖体Rplp0蛋白比对,ClustalW生成(颜色表示氨基酸保守性),21,多序列比对方法,动态规划(dynamicprogramming)慢,耗内存改进:使用“sumofpairs”目标函数渐进法(progressivemethod;或称分级法hierarchical,建树法tree)迭代法(iterativemethod)基序法(motiffinding;或称轮廓分析法profileanalysis)来自计算科学的算法HMM,GA,SA星形比对,树形比对,22,动态规划法,是两两比对所用动态规划方法的直接扩展步骤用两两比对的方法比对所有的序列对建立n维矩阵(n为序列个数)产生多序列比对优点理论上适用于任意多个序列保证能得到较好结果缺点耗费大量时间,内存实际上很少用于多于3个序列的比对,23,逐对加和法(sumofpairs,SP),步骤进行所有两两比对,并给每个比对打分将所有的得分相加找到最优多序列比对,使得总得分(目标函数objectivefunction)最高例子对于这个蛋白多序列(3个)比对,求总分已知得分(K,R)=3,间隔罚分为-12,KR,(-12)+(-12)+3=-21,24,Clustal,可能是使用最广的多序列比对软件算法用Needleman-Wunsch全局算法做所有两两比对得到距离矩阵,从而产生引导树(guidetree;利用UPGMA,见后;得到dnd文件)渐进式比对(先处理距离最近的2个序列,再加次最近的;得到aln文件)两个主要形式ClustalW(命令行)ClustalX(图形用户界面GUI)适用于Windows,MacOS,Unix/Linux,25,Clustal的输入输出文件格式,输出PHYLIPClustalNBRF/PIRGCG/MSFGDENEXUS,输入FASTAClustalNBRF/PIRGCC/MSFGDEEMBL/SwissprotGCG9RSF,26,ClustalW比对多序列(1)主页,http:/www.ebi.ac.uk/clustalw/,这里将输入比对的多个序列,27,ClustalW(2)获取FASTA格式的序列,拷贝这些部分,选择格式,拷贝这些部分,拷贝这些部分,或将这里改为Text,更易拷贝,28,ClustalW(3)将多个序列输入,将多个序列粘贴到此,点此比对,29,ClustalW(4)比对结果(1)基本信息,引导树文件,多序列比对文件,30,ClustalW(5)比对结果(2)比对图,31,ClustalW(6)比对结果(3)引导树,32,MSA数据库,Pfam(profileHMMlibrary)SMARTCDD(HMM;NCBIDART;=Pfam+SMART)BLOCKS(HMM)PRINTSPROSITEPopSetDOMO(GappedMSA)PRODOM(PSI-BLAST)MetaFAMINTERPROiProClass,33,MSA软件(维基的列表),34,其他MSA软件,Opal(Bioinformatics23(13);2007/7/1;免费)aligningalignmentsMurlet(Bioinformatics23(13);2007/7/1;开源)forRNASQUINT(Bioinformatics23(12);2007/6/1)Probalign(Bioinformatics22(22)PileUp(全局渐进)PIMA(局部渐进)BaliBase(比较MSA算法),AMASCINEMAHMMTMatch-BoxMusca,35,MSA算法比较,全局(global)算法往往优于局部(local)算法迭代(iterative)算法(如PRRP,SAGA)往往优于渐进式(progressive)算法(如Clustal)(arecentreview)RecentEvolutionsofMultipleSequenceAlignmentAlgorithms.CdricNotredame.PLoSComputationalBiology.3(8).2007,36,三、构建系统树,37,非加权分组平均法,UPGMA(UnweightedPairGroupMethodwithArithmeticmean)算法(基于距离)使每个物种自成一类执行下列循环寻找最小距离的两个类,建立一个新的聚类连接这两个类形成新节点在距离矩阵中删除这两个类相应的行和列,为新类加入新的行和列(非加权)重复循环,直到仅剩一个类思想跟连锁聚类方法、渐进法类似是一种改进了的邻近归并法,38,最大简约法(1),MaximumParsimony(MP)思想:最好的树应该用最少的进化上的变化来解释数据基于离散特征的方法枝长来自该枝进化上变化的数目有时会存在多棵最大简约树,39,最大简约法(2),计算量太大考虑部分位点信息位点(informativesites)若在某个位点上至少有两个等位基因,而每个等位基因至少存在于两条序列,该位点称为信息位点,序列1234567891AAGAGTGCA2AGCCGTGCG3AGATATCCA4AGAGATCCG*,位点,40,最大简约法(3)“长枝吸引”,LongBranchAttraction(LBA)若两个物种的变异率较大,导致:长枝可能存在共同变异结果:若这些变异多于那些能区别它们共同祖先的变异,MP将产生错误的树,41,评价结果,问题整棵树和它的组成部分(分支)的置信度是多少?这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少?方法自举检验(bootstrap)参数检验,42,全基因组的系统发生分析,基于多棵系统发生树的方法基于基因内容的方法基于蛋白质折叠结构的方法基于基因次序的方法基于连接的直向同源蛋白的方法基于代谢途径(pathway)的方法,43,四、系统发生软件,44,JoeFelsensteinslistofPhylogenyPrograms(最全的列表),/phylip/software.html,45,JFslist(简介;包含309种软件),三种分类依据软件所使用的方法软件使用的系统软件所分析的数据其他列表最近加入的软件最近更新的软件以前列出但已经不再发行的软件等待加入的软件不被列出的软件其他系统发生软件的列表,46,JFslist(所有软件按方法分类),General-purposepackages一般目的11Parsimonyprograms简约法37Distancematrixmethods距离矩阵65Computationofdistances计算距离58MaximumlikelihoodandBayesianmethods最大似然、贝叶斯77Quartetsmethods四重奏11Artificial-intelligenceandgeneticalgorithmsmethods人工智能、遗传算法4Invariants(orEvolutionaryParsimony)methods不变量/进化简约4Interactivetreemanipulation24Lookingforhybridizationorrecombinationevents19Bootstrappingandothermeasuresofsupport63Compatibilityanalysis9Consensustrees,subtrees,supertrees,distancesbetweentrees22Tree-basedalignment20Geneduplicationandgenomicanalysis6Biogeographicanalysisandhost-parasitecomparison8Comparativemethodanalysis26Simulationoftreesordata21Examinationofshapesoftrees13Clocks,datingandstratigraphy32ModelSelection12Descriptionorpredictionofdatafromtrees9Treeplotting/drawing38Sequencemanagement/jobsubmission20Teachingaboutphylogenies4(方法后数字为该分类的软件个数),47,JFslist(一般目的软件),PHYLIPPAUP*MEGAPhylo_winARBDAMBEPALBionumericsMesquitePaupUpBIRCH,48,JFslist(软件按数据分类),MicrosatellitedataRSTCALCPOPTREEMicrosatPopulationsMSAYCDMANetworkIM,49,JFslist(按数据分类),RAPDs,RFLPs,orAFLPstfpgaRAPDistanceFingerprintingIIInformatixSoftwareGelComparIIBionumericsWinbootREAPRESTSITEMVSPDENDRONPhyltoolsNetworkBIRCH,50,JFslist(按数据分类),Continuousquantitativ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025国际汉语教师证书考试写作与教案设计试卷含答案
- 战略管理咨询服务方案
- 萨克斯营销方案
- 尚创咨询解决方案
- 山西省文化活动方案策划
- 镇海路面平整施工方案
- 绿色建筑及绿色施工方案
- 纤维素回收技术与应用-洞察及研究
- 供应链转型咨询方案
- 女性艺术家与男性艺术家的比较研究-洞察及研究
- 2025面向机器学习的数据标注规范
- YY/T 0339-2024呼吸道用吸引导管
- 围手术期高血压专家管理共识
- 外科患者疼痛护理与管理
- 租金延迟缴纳申请书
- DL-T 2563-2022 分布式能源自动发电控制与自动电压控制系统测试技术规范
- 食堂工作人员培训内容
- 骨折康复护理的常见问题和处理方法
- 泛影葡胺在消化道造影中的应用
- 2022年11月四川省凉山州中级人民法院逐级遴选4名法官笔试题库含答案解析
- 两江三镇说武汉智慧树知到答案章节测试2023年武汉纺织大学
评论
0/150
提交评论