生物信息学概论第三章替换模式_第1页
生物信息学概论第三章替换模式_第2页
生物信息学概论第三章替换模式_第3页
生物信息学概论第三章替换模式_第4页
生物信息学概论第三章替换模式_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学概论第三章替换模式第1页,课件共38页,创作于2023年2月分析已经发生的替换数目和性质,对于分子进化的研究有很重要的意义.这种分析也为生物信息学的研究人员致力于识别和刻画具有重要功能的基因部分提供了强有力的线索。第2页,课件共38页,创作于2023年2月本章内容基因内的替换模式估算替换数目基因间进化率的变化分子时钟细胞器的进化第3页,课件共38页,创作于2023年2月3.1基因内的替换模式基因突变:一种核苷酸替换成另一种,以及插入/删除事件有利的中性的不利的有利的变化实际上只占少数核苷酸序列的某些变化对一个生物体的影响比其他因素更大第4页,课件共38页,创作于2023年2月3.1.1突变率r=K/(2T)r:替换速率(突变率)K:来源于同一祖先的两个序列之间的替换数量T:分叉时间如果不同物种间的进化率是相似的,在没有其他证据的情况下,通过替换速率(突变率),可以推测进化事件发生的时间。比较基因内和基因间的替换速率(突变率)常用来确定不同基因组区域的作用第5页,课件共38页,创作于2023年2月3.1.2功能约束自然选择能够杜绝导致生物体生存和繁衍能力下降的基因变化那些能够引起蛋白质催化性能及结构特征变化的基因变化,会更加受制于自然选择。十分重要的基因部分被认为受功能约束控制,它们在进化过程中趋向于非常缓慢的变化另外一些不会对氨基酸序列或表达方式造成影响的基因变化,很少受到自然选择的纠正,因此这种类型的变化速度相对较快第6页,课件共38页,创作于2023年2月大量分析证实,基因不同部分的变化速度确实千差万别,而这些速度正反映了不同部分受功能约束的程度基因区域类别人类/基因区域长度替换的平均数量标准方差替换速率(个替换/位点/10亿年)所有非编码序列91367.914.13.33所有编码序列44169.216.71.585’端侧翼序列30096.019.63.395’UT509.03.01.86内含子13141.88.13.483’UT13233.011.53.003’端侧翼序列30076.314.33.60人、鼠、兔、牛的类β球蛋白基因各部分的差异第7页,课件共38页,创作于2023年2月由上表中,可以揭示的一个普遍规律:

内含子和两端侧翼序列的替换积累速度最快其次是能转录而不能翻译的序列最慢的是编码序列

来源与β球蛋白基因的数据,一个核苷酸序列每一百万年只发生0.35%的改变,对于人类来说这种改变是非常缓慢的,但是比之分子的进化又是相当迅速的第8页,课件共38页,创作于2023年2月3.1.3同义和异义替换

同义替换:改变核苷酸编码序列,但不影响蛋白质的氨基酸序列的替换甘氨酸(GGG,GGA,GGU,GGC)

异义替换:改变核苷酸编码序列,同时影响蛋白质的氨基酸序列的替换甘氨酸(GGG)->丙氨酸(GCG)经过详细分析可以发现,基因的编码序列发生同义替换的概率几乎是异义替换的3倍第9页,课件共38页,创作于2023年2月并非三联密码子上的所有位置都会发生异义替换。事实上,三联密码子中的核苷酸可分为3类:

非简并位点:该位点的变异都是导致替换

双重简并位点:该位点有两种不同的核苷酸翻译成同一种氨基酸,另外两种不同的核苷酸则翻译成不同的氨基酸

四重简并位点:这一位点上无论是什么,都不会影响该密码子的翻译例:分类例子非简并位点苯丙氨酸(UUU)

亮氨酸(CUU)

异亮氨酸(AUU)

缬氨酸(GUU)双重简并位点天冬氨酸(GAU,GAC)

谷氨酸(GAA,GAG)四重简并位点甘氨酸(GGG,GGA,GGU,GGC)第10页,课件共38页,创作于2023年2月如果自然选择在出现改变蛋白质功能的变异的时候就起作用,那么很显然,处于四重简并位点的核苷酸替换的积累最为迅速,而处于非简并位点的替换积累最为缓慢位点类型位点数目/bp替换数目替换速率(个替换/位点/10亿年)非简并位点302170.56二重简并位点60101.67四重简并位点85202.35人、兔类β球蛋白基因编码序列里各种位点的替换率第11页,课件共38页,创作于2023年2月3.1.4插入删除情况和伪基因

在有转录活性的基因中,插入删除很难发生。原因在于插入删除会改变阅读框。DNA和修复酶经过亿万年的进化,已形成合理的机制,一般会使插入删除比简单的碱基替换发生的概率小10倍复制一条完整的基因可能形成很多复制品,其中一个提供原基因的必要功能,而其他的复制则积累了不受自然选择的替换

某个不断变化的复制品会出现一些新的重要功能,于是这个基因就变得对生物体的适应性非常重要

更多时候复制出来的基因会成为伪基因,因为变异使得这样的基因丧失了功能,失去了转录的活性。这些基因序列的替换积累速率相当高,略高于同一物种的基因的3’端侧翼序列第12页,课件共38页,创作于2023年2月3.1.5替换和突变虽然一个基因核苷酸序列的每一位都可能发生变化,然而人们没有观察到所有可能的变异,但这个问题却使人们发现了分子进化研究中突变和替换这两个词在使用上有趣的数字差异。

突变:是指DNA的复制和修复过程中出现错误而导致的核苷酸序列的改变

替换:是指了某个层次上经过自然选择过滤后的突变同义(和伪基因)的替换速率Ks,通常被认为能较好反映出基因突变时实际速率;而异义替换速率Ka则不然,因为他们逃脱不了自然选择第13页,课件共38页,创作于2023年2月3.1.6等位基因与固定绝大多数自然界现存的生物种群包含着大量的基因变异,从而形成等位基因。一个物种某个基因的不同版本被称之为等位基因。

-举个例子,人平均每200个碱基对中就有一个不同于其他人。等位基因的差异变化很广,从不会产生影响到产生严重后果。各种等位基因相对频率的改变就是进化的基础新的等位基因以非常低的频率出现:q=1/2N

N是这个种群中具有繁殖活性的二倍体的数量

危及生物体生存和繁殖的突变,会在自然选择中,从基因库里扫地出门,这种突变频率最终降为0如果等位基因优势突出,其频率就渐渐接近于1,即该等位基因被固定第14页,课件共38页,创作于2023年2月

个体之间发现的许多变异的优势或劣势都不明显,在本质上是选择中性的。

基因任何中性变异被固定的概率是q

这里q为该等位基因的相对频率基因任何中性变异最终从种群中消失的可能性为1-q,尽管基因新变异的固定概率可能很小,中性突变却能在种群中维持很长的时间,固定新的中性突变的平均时间实际上相当于繁衍4N代所经历的时间第15页,课件共38页,创作于2023年2月3.2估算替换数目一般来讲,从两个序列的比对中获得的替换数目(K)是任何分子进化分析中最重要的一个变量(信息)。如果一种最优的比对表明两个序列之间只有相对较少的替换,那么只有简单地数一下替换个数就可以确定K值。然而,在核苷酸序列被用来做分析研究之前,T.Jukes和C.Cantor就认识到如果序列之间的差异很大,那么用序列比对,就可能会严重地低估序列在最近的共同祖先之后发生的替换数目第16页,课件共38页,创作于2023年2月第17页,课件共38页,创作于2023年2月3.2.1Jukes-Cantor模型在替换经常出现的地方,某些位点就可能会发生多次替换Juke-Cantor假设每个核苷酸都有可能转变成其他任何一个核苷酸,基于这一假设,他们建立了一个数学模型假设每个核苷酸都有可能转变成其他任何一个核苷酸,概率为α。如果基因中某个位点在时刻t0为C,那么在时刻t1仍然是C的概率就是PC(1)=1-3α第18页,课件共38页,创作于2023年2月在t2时刻是C的概率为:PC(2)=(1-3α)

PC(1)+α[1-PC(1)]。在tk时刻是C的概率为:PC(k)=(1-3α)

PC(k-1)+α[1-PC(k-1)] =α+(1-4α)PC(k-1)。…任意时间t时刻,位点为C的概率为(即非替换位点概率)PC(t)=1/4+(3/4e-4αt)估计替换数目的公式为:K=-3/4ln[1-(4/3(p))]第19页,课件共38页,创作于2023年2月这里p就是数出来的两个序列间的不同核苷酸的分数(错配位点与所有位点之间的比值,p<1)。该方程完全符合以下观点:

当两序列间只有少数错配时,p就会很小,且任意一位点上发生多重替换的概率也很小

当两序列间错配数目很大时,实际替换数目将大于直接计数得到的结果pKK=pK=-3/4ln[1-(4/3(p))]第20页,课件共38页,创作于2023年2月3.2.2转换和颠换ATCG胞嘧啶腺嘌呤胸腺嘧啶鸟嘌呤转换(transition)嘌呤嘌呤嘧啶嘧啶颠换(transvertion)嘌呤嘧啶嘧啶嘌呤在大多数DNA片段中,转换出现的概率高于颠换出现的概率嘌呤:含氮碱基有两个环状结构嘧啶:含氮碱基有一个环状结构第21页,课件共38页,创作于2023年2月3.2.3Kimura的双参数模型该模型考虑了转换和颠换的不同速率。假定转换一律以α速率进行,颠换一律以β速率进行。如果基因中某个位点在时刻t0为C,那么在时刻t1该位点保持C的概率是PCC(1)=1-α-2β第22页,课件共38页,创作于2023年2月类似Jukes-Cantor模型,将上式展开后,得到,PCC(1)=1/4+(1/4)e-4β

+

(1/2)e-2(α+β)Jukes-Cantor模型和Kimura的双参数模型的对称性说明四个核苷酸在t0和任何时刻都以一样的概率存在(PGG(t)

=PAA(t)

=PTT(t)

=PCC(t)

)就像Jukes-Cantor单参数模型,展开后的方程以及换成另外3个核苷酸得到的方程,是当两个序列间的不同核苷酸个数已知的时候估算替换的真实数目的一个很有用的公式,如下所示:K=1/2ln[1/(1-2P-Q)]+1/4ln[1/(1-2Q)]P是序列中转换的核苷酸的分数,Q是颠换的核苷酸的分数。如果不区分转换和颠换(也就是说p=P+Q),这个方程就简化成了Jukes-Cantor公式第23页,课件共38页,创作于2023年2月3.2.4多参数模型20世纪80年代以来,已经产生出大量的序列数据,对这些数据的分析结果表明:Kimua关于核苷酸以两种速度变异的假设,与Jukes-Cantor关于所有的核苷酸转变为其他3种的概率都是相同的假设一样,都过于简单既然存在4种核苷酸,每一个都可以转变为另外3个之一,因此就应该有12种可能的替换每种突变类型的概率如下表所示,有了这些参数,就可以建立更复杂的12参数模型由于GC含量会引起替换速率的差异,于是引进第13个参数来弥补这个偏差第24页,课件共38页,创作于2023年2月人类基因组的Alu-Y(Sb)序列的核苷酸替换的相对频率替换前替换后ATCG各行总计A-4.04.69.818.4-(1.5)(1.7)(3.6)(6.7)T3.3-10.42.716.4(1.2)-(3.8)(1.0)(6.0)C7.217.0-6.231.1(5.0)(33.2)-(4.5)(42.6)G23.64.66.0-34.2(37.7)(3.2)(3.7)-(44.7)各列总计34.126.321.09.0

(44.0)(37.8)(9.2)(18.7)

第25页,课件共38页,创作于2023年2月3.2.5蛋白质序列间的替换两个蛋白质序列间的不同氨基酸的比例(p)可根据下式简单推算:p=n/L

n代表各种氨基酸在两个序列间相差的数量,L是在序列比对中能够观测到位点的个数要精确的计算两个或更多的蛋白质氨基酸序列间发生替换的数目,一般来讲比估算非编码DNA序列的替换数目要困难。与DNA序列一样,回复突变会导致严重地低估替换数目一个氨基酸转变为另一个氨基酸的替换路径的长度也不总是一致的,比如CCU->CUC只要经历一个突变过程,而CCU->AUC要经历两个氨基酸替换对蛋白质功能的作用各有不同,而且会随着周围氨基酸的不同而变化,这会令问题更加复杂解决这个问题的一个方法就是利用经验数据来衡量每一种氨基酸的替换模式第26页,课件共38页,创作于2023年2月3.3基因间进化率的变化基因内不同部分的进化率有着很明显的差异,同样,我们发现基因间的进化率也是各不相同的。如果排除统计因素,进化率的差别应归咎于两个因素突变频率的差异自然选择对位置的影响程度同义替换率的差异远远不及异义替换率的差异尽管基因内某些部位比其他区域更容易发生偶然的突变,但同义替换率的差别很少超过两倍,而异义替换率却有将近200倍的差异。和基因内替换率的差别类似,基因间替换率的差别也主要由自然选择在不同的位置的差异产生第27页,课件共38页,创作于2023年2月例:组蛋白与阿朴蛋白替换率差异组蛋白带正电,是所有真核细胞中都存在的DNA结合蛋白组蛋白上几乎所有氨基酸都与特定的带负电的DNA残基直接发生相互作用因此,组蛋白氨基酸序列发生任何变化,都会影响它和DNA的反应能力组蛋白是进化最慢的已知蛋白种类的一种阿朴蛋白负责运载脊椎动物血液里的脂质,并与之发生非特异性作用它们的脂结合域主要由疏水氨基酸组成,任何疏水氨基酸在阿朴蛋白中的功能都是差不多的,它们在脂结合域中的互换不会产生太大的影响因此阿朴蛋白能快速积累异义替换第28页,课件共38页,创作于2023年2月尽管许多基因内氨基酸的替换基本上是有害的,我们也必须指出有些基因群内的变化是适应自然选择且必要的比如,人体的白细胞抗原基因(HLA)就在进化的压力下改变着。因此HLA位点内的异义替换率就远高于它的同义替换率HLA位点包含一个庞大的多基因家族,其蛋白质产物和识别外来抗原的免疫功能相关,大约90%的人从其父母继承不同形式的HLA基因。200个人中大约会有15~30个不同的等位基因如此高程度的多样性之所以受到自然选择的青睐,是因为在不同的免疫系统下,易被单个病毒感染的个体数量可能会大大减少。宿主们迫于压力必须维持免疫系统的多样性,同时病毒也需要迅速进化。第29页,课件共38页,创作于2023年2月3.4分子时钟在长期的进化过程中,有着相似的功能约束的位点的分子进化速率几乎完全一致。20世纪60年代最早由EmileZuckerkandl和LinusPauling所做的蛋白质序列比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比作分子钟的滴答声分子时钟在不同的蛋白质中运行的速率是不同的,但是两个蛋白质同系物的差异始终和它们独立分化的时间成正比两序列稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地质年代那样,准确测定序列分化发展的时间存在争议:经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不一致;关于分化时间的确定也有不同意见,这些意见对这个假说的核心(即进化率是稳定的)表示质疑第30页,课件共38页,创作于2023年2月3.4.1相对速率检测分子进化研究中运用的大多数分化时间是根据对极不完整的化石记录的解释而得来的,因此它们的准确性值得怀疑。为避免使用这些不准确的时间以防止出现问题,Sarich和Wilson发明了一个简单的测定不同家系中总替换率的方法,此方法可以不依赖分化的具体时间为了测定物种1和物种2的相对(变异)速率,我们假定以另一个不太相关的物种3作为外群或外部参考物种123人猩猩狒狒A第31页,课件共38页,创作于2023年2月假设两物种的替换数目为沿着系统发生树各分支的替换数目的总和,如下式所示:d13=dA1

+dA3d23=dA2+dA3d12

=dA1

+dA2经过简单代数变换,可得到物种1和物种2独立分化后的差异dA1=(d12

+d13-d23)/2dA2=(d12+d23–d13)/2根据定义,物种1和物种2的分化起始时间是相同的,所以分子时钟假设预测dA1和dA2

的值也应该是相等的第32页,课件共38页,创作于2023年2月任意基因的进化速率在家系进化的整个过程中保持稳定是分子时钟假说的前提条件。研究发现,分子时钟随种群的不同而变化。现在发现鼠和兔的替换率大体上是相同的;但是人和猿的分子进化率只有古欧洲猴子的一半事实上,人和鼠同源基因相对进化率的检测表明:啮齿动物基因替换率是灵长目的两倍由于分子时钟的这种不稳定现象,用分子分化的时间来推测共同祖先最后出现的时间就可能出现问题。因此,在做这种推测之前,必须保证所研究的物种应该有相同的时钟,就像啮齿动物一样3.4.2家系中变异率的变化第33页,课件共38页,创作于2023年2月有几种可能的说法对相对进化率检测中发现的进化率的差异进行了解释,比如猴子的繁殖时间比人类短,啮齿类就更短了生殖细胞DNA复制的数量与替换率的关系比与分化时间的关系更为密切产生差异的部分原因也可能是自分化以来两家系间的其他差异,如平均修复效率、新陈代谢率和适应新生态环境的必要条件这些因素都很难用常规方法量化我们知道在分化之前有相似属性,我们也知道它们的差异程度,但是对于在整个进化过程中其他时间二者的差异我们了解的却很少第34页,课件共38页,创作于2023年2月3.5不同细胞器内基因的进化研究对象哺乳动物线粒体DNA(mtDNA):平均长度16000bp植物叶绿体DNA(cpDNA):平均长度120000~220000bp形态较小和异常的遗传模式(哺乳动物中,线粒体是由母亲提供)令人们对它如何积累替换这一问题产生了兴趣线粒体生物的新陈代谢使得线粒体中出现的高浓度诱变剂(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论