分子进化和系统发生_第1页
分子进化和系统发生_第2页
分子进化和系统发生_第3页
分子进化和系统发生_第4页
分子进化和系统发生_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分子生态学第五章分子进化和系统发生,Orangutan,Gorilla,Chimpanzee,Human,分子进化(molecularevolution):生物在分子水平上的进化,即核酸和蛋白质等生物大分子在生物传代过程中的演变。特点进化速率的相对恒定性进化速率的不均衡性(或保守性),分子进化的概念,生物大分子在相当长的时间内速率进化保持稳定以相同的同源生物大分子在不同生物中进化速率大致相同,进化速率的相对恒定性,分子进化速率:蛋白质或核酸等大分子中的氨基酸或核苷酸在单位时间内的替换率,以年为单位,可表示为:K=d/2tNK:分子进化速率d:生物大分子发生氨基酸或核苷酸替换的数目N:生物大分子总的氨基酸或核苷酸的数目t:进化分歧时间,X:ACTGATCGAA-TTCAGATTTCAGGA25Y:ACAGATCGCAGTGC-GCTTGCAGGA25,已知两条序列的分歧时间t=20Mad=7N=25(比对后的序列长度)K=d/2tN=7/(22010625)=710-9,进化速率恒定性的实例,血红蛋白链:7种动物以及人两两之间的血红蛋白链氨基酸差异数与物种分歧时间呈线性相关关系,即进化速率大致相同。,进化速率的相对恒定性指的是以年为单位的进化速率即每年每个位点的替换数,而不是以生物的世代为单位的进化速率即每代每个位点的替换数以世代为单位世代时间长的生物进化速率慢世代时间短的生物进化速率快,进化速率恒定性说明生物大分子的进化不可能是由自然选择引起的,如果是由自然选择引起的,替换率应该随着选择系数的改变而改变适合度和选择系数Darwinianfitness(W):某个基因型的繁殖能力=后代数量/具有该基因型的亲本数量Selectivecoefficient(S):该基因型受到的选择压力=1-w,选择作用,Genotype,G1G1G1G2G2G2,Unpollutedtree,Pollutedtree,进化速率的不均衡性,功能不同的生物大分子具有不同的进化速率功能上重要的大分子或大分子的局部比较保守,在进化速率上明显低于那些功能上不重要的大分子或大分子局部,蛋白水平上进化速率不均衡性的体现,不同蛋白一般进化速率不等,同一蛋白不同区域进化速度不等,核酸水平上进化速率不均衡性的体现,非编码区进化速率高于编码区密码子中的同义替换比变义替换发生的频率高;内含子内的碱基替换速率明显高于外显子;外显子内部功能不重要的部分进化速率一般快于功能不重要的部分;假基因进化速率也较快。,进化速率的不均衡性说明功能上重要的生物大分子的进化并非是完全随机的,而是存在着某种的制约因素或控制机制(选择压),中性突变理论的提出,1968年,日本遗传学家木村资生(MotooKimura)在Nature杂志发表了“论分子水平上的进化速率”的评述,根据不少核苷酸和氨基酸的替换并不影响生物大分子的生物学功能的事实,提出了生物进化在分子水平上的“中性理论”;次年,美国学者金和朱克斯(J.K.King&T.H.Jukes)在Science杂志上刊出“非达尔文主义的进化”一文,呼应木村资生的观点。,中性突变理论的主要内容,在分子水平上,多数(不是全部)突变是选择中性或非常接近选择中性的,不影响个体的适合度中性突变在生物群体中通过一代又一代的遗传漂变被随机消除或固定保留,从而形成进化性的结果,因而进化的动力是遗传漂变,中性突变理论的主要论据,分子层次上的大多数变异是选择中性的在生物基因组中,非编码的DNA占绝大部分同义突变不改变蛋白功能的异义突变不影响适合度的异义突变自然界中广泛存在“过量”的遗传多态性多态性是突变和遗传漂变平衡的结果不是适应性进化的结果,按群体遗传学的数学模式计算出来的自然选择代价过高,不符合实际情况。根据自然选择学说,不利突变占很大比例,使群体的适合度总量下降,造成种群数量不断减少。分子进化速率恒定,即进化速率与种群大小、世代寿命和物种的生殖力均无关,也不受环境因素所影响。中性学说对此能作出既简明又合理的解释。,假设种群数量为N的一个二倍体群体中,每个配子每代的突变率为,则每代将产生2N个新突变。假设一个突变最终被固定的概率为,则每代每位点的突变替换数(进化速率)为:K=2N由于群体中有2N个配子,在随机交配的情况下,每个配子中的突变被遗传的机会都相同,即=1/2N于是2N个突变中仅有个被保留,即:K=可见,在中性突变情况下,进化速率是一个恒定值且等于其突变率。,功能越重要的大分子保守性越强功能重要的大分子中的突变大多数是有害的,少量是中性的,有害突变在进化过程中被快速清除(负选择Negative或PurifyingSelection),导致其进化速率减慢功能重要的大分子中极少数突变是有益的,有益突变增加个体适合度,在进化过程中会被快速固定(正选择PositiveSelection),导致进化速率加快,蛋白编码序列选择压力评估,Ka/KsKa:non-synonymousmutationKs:synonymousmutationKa/Ks1positiveselection,自然选择理论个体和种群表现型、种群进化的规律自然选择,相互补充,中性理论生物大分子分子水平的进化规律遗传漂变,系统发生树(phylogenetictree):描述任何生物实体之间系统发生关系假说的树状图,也可以叫做进化树(evolutionarytree)。,系统发生和系统发生树,系统发生(或系统演化、系统发育phylogeny):是指任何生物实体(基因、个体、种群、物种或种上高级阶元)的起源和演化(进化)关系。,系统发生树的要素,拓扑结构(Topology):即树的分枝型式,ABCDE,外部节点:称为操作分类单元,可以是基因、个体、种群、物种或种上高级阶元,内部节点:代表进化事件发生的位置,或分类单元进化历程中的祖先,分支和支长,100,95,100,75,节点支持度,一种拓扑结构可以有多种表现型式,=,=,=,=,Bifurcation,Trifurcation,一个节点与大于3个以上的分枝相连接称为多歧分枝(polytomy):表示该分支的系统发生关系未完全解析。,系统发生树的类型,无根树(unrootedtree):只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。,有根树(rootedtree):反应了树上物种或者基因进化的时间顺序,通过分析有根树的长度,可以了解不同的物种或者基因以什么方式和速率进化。,OUT(4),OUT数目与可能的有根数和无根树数目之间的关系,UnrootedTree(3),RootedTree(15),A,C,B,D,A,D,C,B,OUT数目与可能的有根数和无根树数目之间的关系,系统发生分析一般要求构建一颗有根树,但是构建系统发生树的计算机软件通常产生的是无根树,因此需要对其进行准确的赋根以转换为有根树。最常用的方法是利用外群(outgroup)来确定树根。外群选择:与内群具有较近的系统发生关系,但是要比内群分类单元相互之间的系统发生关系远。,系统发生树的类型,未标度树(unscaledtree):各分枝的长度不表示遗传变异的量,但在有根树中,节点的位置仍可以与相对分歧时间相对应。,标度树(scaledtree):各分枝的长度代表遗传变异的量。NJ:遗传距离MP、ML和BI:碱基替换数,构建系统发生树的理论基础,生物进化论生物共祖地球上的一切生命形式,不管是现存的还是灭绝了的,都有一个可以追溯到30亿年以前生存的共同祖先。亲缘关系越近的物种相似程度越高。,每个生物个体都有自己的直接祖先,遗传物质DNA在从祖先到后代的遗传过程中伴随着突变。大多数遗传变异发生在不同的位点上,并且能够在进化过程中保留下来。越早期发生的核苷酸替换在所有后代中分布越广;越近期发生的核苷酸替换,分布越局限于近期分歧的类群中。越早发生分歧的DNA序列,累积的核苷酸替换越多,相似性越低。,基本假设,构建系统发生树的步骤,获得同源DNA数据,序列比对,选择构建系统发生树的方法和核苷酸替换模型,构建系统发生树及其可靠性评估,获得同源DNA数据,测序GenBank,OUT要有代表性多基因(或多位点)同源性,直系同源(Orthologs)vs旁系同源(Paralogs),直系同源:由共同的祖先基因进化而产生的同源基因。旁系同源:由基因复制而产生的同源基因。直系和旁系同源是两个不同的进化事件,用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程,基因树和物种树,物种树:代表一个物种或群体进化历史的系统发生树,各个节点代表物种发生分歧(生殖隔离)的时间或事件基因树:由来自各个物种的一个基因构建的系统发生树,各个节点代表基因分离的时间基因树不完全等同于物种树,基因或DNA片段的选择,根据研究对象之间的亲缘关系远近选择进化速率适中的基因或DNA片段亲缘关系近选择进化速率快的基因或DNA片段亲缘关系远选择进化速率慢的基因或DNA片段,DNA序列比对,目的:找出同源序列演化过程中的同源位点。重要性:只有正确的比对结果才会能推出正确的系统发生。空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位,ATGAGGTTGTTTTCATATATGAGGTT-TTCATAT,DNA序列比对,程序自动比对(Clustal,Muscle等)手工校正,编码蛋白基因序列,ATGAGGTTGTTTTCATATATGAGGTT-TTCATAT,ATGAGGTTGTTTTCATATATGAGGTTT-TCATAT,编码tRNA和rRNA基因的序列,tRNA二级结构,rRNA二级结构,基于距离(distances)数据的方法:UPGMA非加权分组平均法(unweightedpairgroupmethodwitharithmeticmeans)Fitch-Margoliash法ME最小进化方法(minimumevolution)NJ邻接法(neighborjoiningmethod)基于特征(characters)数据的方法:MP最大简约法(maximumparsimonymethod)ML最大似然法(maximumlikelihoodmethod)BI贝叶斯推断法(Bayesianinference),构建系统发生树的方法,基于距离数据的方法,根据一定的假设(核苷酸替换模型)推导出分类单元两两之间的遗传距离,构建遗传距离矩阵。根据遗传距离矩阵,依次将分类单元聚类,从而构建出系统发生树。,遗传距离的计算,未校正的遗传距离(p-distance)P=nd/nn为比对后的序列长度;nd为序列之间的差异位点数。,因为在序列的同一位点可能发生过不止一次的变化,大多数观察到的替换数都会显著低估真正替换的数目如在第7位点,一条序列观察到G,另一条为A,实际上存在多种变化的可能,GA(单一替换)GCA(多重替换)CG,CA(并发替换),模型校正的遗传距离:利用数学模型将多重替换、回复突变、平行突变等因素考虑进去,能够更准确地估算遗传距离。,Kimura双参数模型:假设转换和颠换的几率不同,假设转换和颠换的几率不同,4种碱基出现的频率不同,假设每种替换的几率都不同,4种碱基出现的频率不同,邻接法(Neighbor-JoiningMethod,NJ),通过确定距离最近(或相邻)的成对分类单元来构建系统树的方法,最优树的标准是其分支长度总和(S,即总的距离)最小,最优树标准,如图A和B是相邻的,A和C则不是;A和B组成一个新的分类单元(AB)后,(AB)与C又成为相邻的,1,2,3,4,5,6,6,2,3,2,3,5,4,.,5,6,3,1,2,4,5,6,.,5,2,1,4,5,6,1,2,6,2,4,1,3,1,3,6,2,4,5,1,3,4,5,1,3,6,4,5,2,1,3,6,4,1,3,6,4,2,5,优点:算法简单,速度快缺点:将序列数据转化成距离数据的过程中不可避免地会丢失部分进化信息,最大简约法(maximumparsimony,MP),根据信息位点提供的各序列间的替换情况,在所有可能的拓扑结构中筛选替换数最小的那个拓扑结构,作为最优树的方法。理论基础:奥卡姆哲学原则,即解释一个过程的最好理论是所需假设数目最少的那一个。,S1:ACTS2:ACAS3:GTTS4:GTA,ACT,GTT,GTT,GTA,ACA,GTA,2,2,MPscore=5,1,ACA,ACT,GTA,GTT,ACA,ACT,3,1,3,MPscore=7,ACT,ACA,GTT,GTA,ACA,GTA,1,2,1,MPscore=4,OptimalMPtree,在MP法中对构建系统发生树提供了有用信息的位点称为信息位点信息位点至少存在2种不同的碱基(或氨基),并且每种碱基(或氨基)至少出现两次,优点:不需要引入假设(替代模型)。当分析的序列较长,相似度较高的时候,最大简约法能够推导获得一个很好的进化树。缺点:在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。,最大似然法(maximumlikelihood,ML),基于统计学算法的构树方法原理:以一个特定的核苷酸替代模型(需要明确选择一个核苷酸替代模型)分析一组既定的序列数据,使获得的每一个拓扑结构的似然率均为最大,再挑出似然率值最大的拓扑结构作为最终树。最大似然法假设每个核苷酸位点都是独立进化的,并分别计算每个位点的对数似然值,所有位点似然值相乘就得到进化树的对数似然值。,1.计算特定进化树上每个位点的似然值2.计算该树的似然值(每个位点的似然值的乘积)3.比较所有可能进化树的似然值4.似然值最高的进化树即为最优树,系统发生树的可靠性评估,自展法(Bootstrap):放回式抽样统计法。即通过对初始数据集多次重复有放回抽样形成一系列新的数据集,然后利用新的数据集构建多个进化树,用来检查给定树的分枝可信度。,Originaldataset,Replicate1,Replicate2,Replicate3Etc,Step1:Re-samplethesequencewithreplacement,新的序列和原序列等长有些“列”可能被多次使用,有些可能没有被使用,Replicate1,Replicate2,Replicate3Etc,Step2:Buildtrees,Step3:Buildconsensustreewithbootstrappingvalue,贝叶斯推断法(Bayesianinference,BI),也是基于统计学算法的构树方法,与最大似然法(指定树的结构和进化模型,计算序列数据的概率,从而推断出对应的进化树)正好相反,是由给定的序列数据,计算进化树和进化模型的概率。贝叶斯推断法首先涉及两个基本概念:树的先验概率和后验概率。,树的先验概率:是指对系统树未进行任何观测时的概率,具体来说就是认为所有系统树都相同的可能性树的后验概率:是指通过观测,系统树的条件概率,即在给定的序列数据条件下,某进化树正确的概率,因而后验概率最大的系统树为最优树,贝叶斯推断法同样需要预先确定核苷酸替代模型参数不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,利用MEGA6.0构建系统发生树,数据输入格式FASTA格式,系统发生学的应用,系统分类学生物的起源和扩散保护生物学确定病原体的传播途径,Species:Pantherapardus,Genus:Panthera,Family:Felidae,Order:Carnivora,Class:Mammalia,Phylum:Chordata,Kingdom:Animalia,Archaea,Eukarya,Bacteria,系统分类学,分类系统按等级划分为界、门、纲、目、科、属、种7个阶元达尔文:每个阶元中分类单元的划分要能够反映出它的进化历史,各个分类单元可以通过进化关系互相联系在一起,系统发生分类学(支序分类学)认为一个分类单元应该包括一个共同祖先的所有已知的后裔,即单系群(monophyleticgroup)。由单系群组成的分类单元才是生物学上有意义的、真正的自然类群。,现在的分类系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论