第三章--基因与基因组的结构.ppt_第1页
第三章--基因与基因组的结构.ppt_第2页
第三章--基因与基因组的结构.ppt_第3页
第三章--基因与基因组的结构.ppt_第4页
第三章--基因与基因组的结构.ppt_第5页
免费预览已结束,剩余172页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章基因与基因组的结构,3.1基因的概念基因(gene):是原核、真核生物以及病毒的DNA和RNA分子中具有遗传效应的核苷酸序列,是遗传的基本单位。结构基因包括:(编码蛋白质、tRNA、rRNA)调控基因(编码调控蛋白),基因通过对复制、转录和翻译过程进行调控来实现对遗传性状发育的控制。基因还可以发生突变和重组,导致产生有利、中性、有害或致死的变异。,根据不同历史时期的研究水平,基因研究大体上分为三个发展阶段:在20世纪50年代以前,主要从细胞的染色体水平上进行研究,属于基因的染色体遗传学阶段;20世纪50年代之后,主要从DNA大分子水平上进行研究,属于基因的分子生物学阶段;,近20年来,由于重组DNA技术的完善和应用,人们已经改变了从表型到基因型的传统研究基因的途径,而能够直接从克隆目的基因出发,研究基因的功能及其与表型之间的关系,使基因的研究进入了反向生物学阶段。,反向生物学:指利用重组DNA技术和离体定向诱变的方法研究已知结构的基因相应的功能,在体外使基因突变,再导入体内,检测突变的遗传效应即表型的过程。,DNA分子上不同的区域功能不同,并不是所有的序列都具有编码功能。在原核生物中结构基因占整个基因组DNA的大部分。在真核生物中结构基因占整个基因组DNA一小部分。在结构基因之间还含有大量没有编码功能的间隔区。,个基因是否表达是受到邻近编码区域的DNA序列(调节基因)以及结合于其上的蛋白质因子(比如转录因子)控制的。当与蛋白因子结合的DNA序列发生突变时,蛋白质不能识别DNA,结果是被它调控的结构基因不能表达。,所有这些DNA序列,包括表达蛋白质的结构基因和调控序列都构成了生物界复杂的遗传信息。从这个意义上讲,我们可以把遗传单位的概念从基因扩展为转录单位,转录单位包括转录的启动子及其上游的其他调控区域、基因本身和转录的终止序列等。,基因主要位于染色体上,除了染色体DNA外,细菌的质粒、真核生物的叶绿体、线粒体等细胞器都含有一定的DNA序列,其上大部分是具有遗传功能的基因,这些染色体外的DNA称为染色体外遗传物质。,3.1.1基因与DNA分子基因是DNA分子上的功能单位,在染色体或DNA分子上,基因成串排列。,T4噬菌体(T4-phage)为材料的研究发现,遗传信息的交换并非完全发生在基因之间,在基因内部也发生着交换与重组。研究发现基因之间不同位点发生突变可以互补,而基因内不同位点发生突变则不能互补,说明基因是一个整体单位。结论:基因既是遗传的功能单位,同时也是交换单位和突变单位。,T4噬菌体是感染大肠杆菌(E.coli)的一种病毒,在它感染之后不到30min,寄主细胞就会裂解死亡,并释放出约100个左右的子代噬菌体颗粒,这种控制寄主细胞致死效应(快速溶菌)的功能,是由该噬菌体的r区编码的。,深入研究发现r分为两个亚区:rA和rB,它们各产生一种特殊的物质,只有这两种物质同时存在时,才能使寄主菌大肠杆菌K株的细胞溶菌裂解。,用rA或rB的突变型分别单独感染大肠杆菌K株细胞,两种T4噬菌体都不能正常生长;而用两种突变型混合感染K株细胞时,才溶菌裂解,噬菌体正常生长;由此认为:rA和rB是互补的突变型。,单突变体,单突变体,有互补作用野生型,野生型,野生型,反式构型,两个突变发生在基因间(内)互补起情况分析,rA亚区,rB亚区,无互补作用突变型,在rA亚区内发生了突变的T4噬菌体,能与在B亚区发生了突变的T4噬菌体互补;所以rA和rB是两个不同的功能单位。,1955年,Benzer用顺反子(cistron)一词,将这两个亚区分别称为rA顺反子和rB顺反子,即rA基因和rB基因。可见一个顺反子就是一段核苷酸序列,能编码一条完整的多肽链。这种多肽链既可以是一种具有生物活性的蛋白质,又可以与其他多肽链聚合形成复杂的蛋白质。,脱氧核糖,顺反互补测验(cis-transtest)可精确定位两个突变间的关系。两个纯合的亲本突变体杂交时,产生的杂合体后代将遗传两个亲本的突变。两个突变位于同一个基因上,杂合子中就不存在野生型的基因,具有突变的表型(不能互补)。突变位于不同的基因上,杂合子表现为野生型的表型,这种关系称为互补(可以互补)。,杂合子有两种构型顺式构型,两个突变位于同一条染色体上反式构型,两个突变位于同源的两条染色体上上面的互补实验中的杂合子为反式构型。(见下图),单突变体,单突变体,有互补作用野生型,野生型,野生型,反式构型,两个突变发生在基因间可以互补,rA亚区,rB亚区,根据Benzer的计算:在功能DNA中,最小交换单位约为l3个核苷酸。这与DNA单链结构中核苷酸是最小的结构单位的理论极为接近。因此,顺反子中的最小交换单位(交换子)和最小突变单位(突变子),都应该是DNA分子中的一个核苷酸对。,现代分子生物学文献中,顺反子和基因这两个术语是互相通用的。一般而言,个顺反子就是个基因,大约1500个核苷酸。它是由一群突变单位和重组单位组成的线性结构。因此,顺反子的概念表明了基因不是最小单位,它仍然是可分的,但确实是功能单位。,生物体内存在的游离核苷酸多是5-核苷酸,在分子水平上,由于所有生物DNA基本结构都一致,这是它们作为生物体的共性,又由于它们DNA序列上的不同,就形成了千差万别的生物界;因此,来自两种生命形态(比如原核和真核)的基因(DNA)可以相互融合重组;基因的DNA共性是实现基因工程(DNA重组)的重要理论基础之一。,3.1.2基因与多肽链基因的主要编码产物:多肽链、rRNA、tRNA以及小分子RNA,1908年,Garrod在研究人类黑尿病(alkaptonurea)时认为,该病是由于缺乏某种酶催化的代谢所引起的。Beale等应用X-射线诱导处理红色面包霉,获取了大量的营养缺陷突变体,进一步分析发现,这些突变的每一种都是由于单基因缺陷所致。,由此,Beade和Tatum在1941年提出了“一种基因一种酶”假说。认为生物体内发生的每步代谢反应都由一种特殊的酶催化,而这种酶又是其特定基因的编码产物。一旦基因发生突变,由它指导合成的蛋白质也随之发生变化,一般为改性或失活。,当一种蛋白质是由多亚基构成的聚合体时(异源多聚体蛋白质),“一个基因一条多肽链”。“一种基因一种酶”的假说在20世纪中期得到了许多学者的认同。,1957年,英国剑桥Ingrain在对镰形红细胞贫血症的血红蛋白和正常血红蛋白的氨基酸序列进行的对比研究中,第一次用实验证实了基因与蛋白质之间的直接关系。,在O2分压较低环境中,镰形红细胞容易溶血破裂而使血红蛋白计数减少,造成贫血。其本质是其血红蛋白的-链与正常野生型-链之间的第6位氨基酸,由Val取代了Glu所致。,这种贫血病是由基因突变造成的一种分子病,除溶血后发生贫血外,还会堵塞血管形成栓塞,从而伤及多种器官。它的纯合子(通过单倍体形成的纯系双倍体)患者在童年就夭折。现已证实绝大多数异常血红蛋白都是在-链或-链上发生一个氨基酸的取代替换所引起的。,基因的碱基序列与蛋白质分子中氨基酸的序列之间的对应关系是通过遗传密码实现的。,3.2基因的命名有关基因的命名方法现在并没有严格的统一。随着分子生物学的飞速发展。许许多多的基因组都已大规模被测序,更多的基因也不断的被鉴定。因而十分需要一个统一的命名方法。,为便于学习理解,根据现代分子生物学中目前使用最多的方法暂归纳如下:1用三个小写英文斜体字母表示基因的名称,例如涉及乳糖代谢相关的酶基因:lac;涉及亮氨酸代谢相关的酶基因:leu。,2在三个小写英文斜体字母后面加上一个斜体大写字母表示其不同的基因座。全部用正体时表示蛋白产物和表型;例如,对于大肠杆菌和其他细菌,用三个小写字母表示一个操纵子,接着的大写字母表示不同基因座,lac操纵子的基因座:lacZ,lacY,lacA;其表达产物蛋白质则是lacZ,lacY,lacA。,3质粒和其他染色体外成分的命名自然产生的质粒,用三个正体字母表示,第个字母大写,例如:ColE;重组质粒,则在两个大写字母之前加一个p,大写字母表示构建该质粒的研究者或实验室。例如:pSC101,(SC代表StartleyCohen),pMT555,(MT代表Manchestertechnology)。,4果蝇基因命名对突变表型的表示用14个字母代表。例如,基因white(w),tailless(tll),hedgehog(hh);而蛋白质则为White,Tailless,Hedgehog,5酵母基因的命名一般用三个大写斜体字母表示基因的功能,后面的数字表示不同的基因座;例如,啤酒酵母基因GAL4,CDC28;其表达的蛋白质则是:GAL4,CDC28;但也有例外,例如非洲粟酒酵母基因是gal4,cdc2;蛋白质为:Gal4,Cdc2。,6线虫基因的命名用三个小写斜体字母表示突变表型,如存在不止一个基因座,则在连字符后用数字表示,如基因unc-86,ced-9;蛋白UNC-86;CED-9。,7植物基因的命名多数用13个小写英文斜体字母表示。,8脊椎动物基因的命名用描述基因功能的14个小写字母和数字表示其基因功能;例如,基因sey,myc,蛋白Sey,Myc。,9人类基因的命名与脊椎动物相似,但需大写;例如基因是MYC、ENO1,蛋白质则为MYC、ENO1。,3.3真核生物的断裂基因1977年Berget等首先发现,在真核生物基因组中,基因是不连续的,在基因的编码区域内部含有大量的不编码序列,从而隔断了对应于蛋白质的氨基酸序列。这种不连续的基因又称断裂基因或割裂基因(splitgene)。,构成断裂基因的DNA序列被分为两类:基因中编码的序列称为外显子(exon),外显子是基因中对应于信使RNA序列的区域;不编码的间隔序列称为内含子(intron),内含子是在信使RNA被转录后的剪接加工中去除的区域。,断裂基因由一系列交替存在的外显子和内含子构成,基因的两端起始和结束于外显子,对应于其转录产物RNA的5和3末端。如果一个基因具有n个内含子。则相应地含有n+1个外显子。,通过比较mRNA与DNA的分子杂交,研究其结构发现,如果基因中含有内含子,因为其mRNA中没有相应的序列,在所形成的RNA-DNA杂交双链的某一部位就会出现不能配对的单链环,即是内含子。此法还可确定内含子在基因中的位置和大小(图3-1)。,必须从mRNA原初转录产物(hnRNA)中去除内含子序列,以产生一个只由外显子构成的信使RNA(mRNA)。从原初转录产物中除去内含子的过程叫做RNA剪接。经过剪接后,所有的外显子按其在DNA上相同的顺序连接在同一个RNA分子上。,DNA和相应信使RNA结构上的差异(断裂基因存在)在真核生物中普遍存在。但也有一些真核生物的结构基因不含内含子,如在酵母基因组中大部分的基因是不中断的,组蛋白基因和干扰素基因等直接对应于其蛋白质产物。某些低等真核生物的线粒体以及叶绿体基因中也发现有断裂基因。,断裂基因在细菌中较为少见。但在某些原核生物如古细菌和大肠杆菌的噬菌体中也发现了断裂现象。,断裂基因共同的性质:外显子在基因中的排列顺序与它在成熟mRNA产物中的排列顺序相同;每种断裂基因在所有组织中都具有相同的内含子成分;核基因的内含子通常含有无义密码子(nonsensecodon),因此一般没有编码功能;,在内含子上发生的突变不影响蛋白质的结构,所以其突变往往对生物体没有影响;但也有例外,如某些发生在内含子上的突变可通过抑制外显子的相互剪接,从而干扰了正确的信使RNA产生。,利用结构基因的特殊DNA限制片段作为探针,可以检测基因组中与之有亲缘关系的序列;结果表明个基因的外显子常与其他基因的外显子有亲缘关系。,如果一个外显子可与其他基因的外显子片段互补,则表明这两个基因可能起源于共同的祖先。经过无数代的基因扩增及细胞分裂后,在进化过程中逐渐扩大差距,而形成了不同的功能基因。,由于在两个相关基因的内含子之间,其亲缘关系远远不如外显子之间紧密,有些含有相同外显子的基因其内含子的差异还相当大,以至于不能找到序列间的亲缘关系。这是因为在进化过程中,相关基因的内含子比外显子变化快得多。,虽然突变是以相同的频率发生在外显子和内含子上的,但发生在外显子上的突变将使基因编码的产物丧失功能,导致生物体无法生存,经过长期的自然选择这种突变就从外显子中淘汰了;而内含子由于没有来自编码功能的限制,可以自然的累积各种突变,导致它产生了较大的变化。,3.4基因及基因组的大小与C值矛盾由于断裂基因的存在,使人们认识到一个基因比它实际编码蛋白质的序列要大得多。与整个基因相比,真正编码蛋白质的序列很短。因此,基因可能是由一些编码较小的独立蛋白质分区的单位(外显子部分)在进化过程中加合起来的。也有一些比较大的外显子编码不翻译的5和3区域。,GCCAATTATA,基因的大小取决于它所包含的内含子的长度;一些基因的内含子特别长,例如哺乳动物的二氢叶酸还原酶基因含有6个外显子,其mRNA的长度为2.0kb,但它含有极长的内含子,使其基因的总长度长达2531kb。,由于内含子通常比外显子大很多,导致整个基因比其编码区域大很多。而且内含子之间区别也很大,其大小从200个bp左右到上万个bp。在一些极端的例子中,甚至有5060kb的内含子。,比较基因长度和由它们编码的mRNA的长度发现:酵母中mRNA的长度变化范围与其基因大小的变化范围并没有什么不同;哺乳动物中的情况有明显不同,它们的mRNA分子常常不到10kb,基因的大小常常达到100kb。,在所有已知的珠蛋白基因中,断裂都发生在相同的位置上,第一个内含子位于30和31位氨基酸密码子之间,第二个内含子位于104和105位氨基酸密码子之间。通常第个内含子较短,第二个则长很多。,不同珠蛋白基因外显子的长度差别不大,差异的是第二个内含子长度的差异。例如,小鼠的-珠蛋白基因的总长度为850bp,而-珠蛋白基因的长度为1382bp,但二者的mRNA长度却相差不多(-珠蛋白的mRNA为585碱基,而-珠蛋白为620碱基)。,基因的大小还与它所包含内含子的数目有关不同基因,内含子数目变化很大;有些断裂基因含有一个或少数几个内含子,如珠蛋白基因;某些基因含有较多的内含子,例如鸡卵清蛋白基因7个内含子。伴清蛋白基因含有16个内含子。,低等真核生物酿酒酵母中的大多数基因是非断裂的。断裂基因的外显子数目也很少。酵母基因的外显子不超过4个,且很短。真菌基因的外显子少于6个,长度不到5kb。昆虫的外显子也不超过10个。,在哺乳动物中情况则相反,只有极少量的连续排列编码序列,某些种类甚至有几十个外显子。,当基因的长度大到一定程度后,DNA的总量与生物体的复杂性之间开始失去必然的联系。例如,虽然属于同一个门,果蝇细胞的DNA总量较小,而家蝇细胞的DNA总量却是它的6倍。在较高等的真核生物中,基因大小与外显子的大小和数目之间也没有必然联系。,表3.1总结了一些生物体的平均基因大小,当比较不同物种时,可以看出从低等真核生物到高等真核生物的mRNA和其基因的平均大小略有增加,平均外显子数目的明显增加是真核生物基因的一种标志。在哺乳动物、昆虫、鸟类中,基因的平均长度将近是其mRNA长度的5倍。,表3-1不同生物的平均基因大小,已知基因组的总体大小,可粗略估算基因组中基因的数目。目前已知酵母基因组的全序列,其基因全长12068kb,有5885个编码蛋白质的可读框(ORF)。每隔2kb就存在一个编码蛋白质的ORF(平均每个ORF为1.4kb,间隔序列为600bp,即大约70的区域是可阅读框)。,其中约有一半基因是已知的,或与已知基因有关的基因,因此可推测未发现基因(孤儿基因)的数目。由此可大致推出细菌基因组约有2400个基因,酵母为6.0103个,果蝇为9.0103个,哺乳动物高达8104个,(见表3-2)。,表3-2不同生物的基因数目,生物体的一个特征是一个单倍体基因组的DNA含量总是相对恒定的。通常称为该物种的C值。真核生物基因组的C值(C-value):指生物单倍体基因组中的DNA含量,以pg(1pg=10-12g)或bp表示。,不同物种的C值差异很大,最小的支原体只有106bp,而最大的如某些显花植物和两栖动物可达1011bp。,随着生物的进化,生物体的结构和功能越来越复杂,其C值就越大,例如真菌和高等植物同属于真核生物,但后者的C值却大得多。这一点是不难理解的,因为结构和功能越复杂,所需要的基因产物的种类也越多,即需要的基因越多,因而C值越大。图3-2为不同生物种类的C值范围分布。,然而在另一方面,随着进化,生物体复杂性和DNA含量之间的关系变得模糊了,出现了很多令人费解的现象。一些物种基因组大小的变化范围很窄。鸟、爬行动物、哺乳动物各门内基因组大小的范围只有两倍的变化。,但大多数昆虫、两栖动物和植物的情况却不同,在结构、功能很相似的同一类生物中,甚至在亲缘关系十分接近的物种之间,C值可以相差数十倍乃至上百倍。,突出的例子是两栖动物,C值小的低至109bp以下,C值大的则高达1011bp,而哺乳动物的C值均为109bp的数量级。人们很难相信不同的两栖动物,所需基因的数量会有100倍的差别。这种C值与生物进化复杂性不相对应的现象称为C值悖理(Cvalueparadox)。,表3-3个别生物的C值,C值悖理主要表现为:C值不随生物的进化程度和复杂性而增加,如肺鱼的C值为112.2,而人是3.2,与牛相近(表3-3),亲缘关系密切的生物C值相差甚大,如豌豆为14,而蚕豆为2;高等真核生物具有比用于遗传高得多的C值,如人的染色体组DNA含量在理论上包含300万个基因,但有实际用途的基因只有3万个左右。,3.5重叠基因3.5.1原核生物的重叠基因,1976年Barrell等发现,在噬菌体X174单链环形DNA的序列组织上有一个最显著特点,即E基因的237个核苷酸完全包括在含有456个核苷酸的D基因之内。1977年,Sanger又发现B基因的260个核苷酸完全位于含1546个核苷酸的A基因之内。,K基因则跨越在A基因和C基因之间,表明噬菌体X174单链环形DNA含有重叠基因和基因内基因(见图3-3)。这些重叠在一起的基因表达时使用了不同的阅读框,因此,虽然DNA序列相同,但表达的蛋白质不同。,在基因重叠的情况下:共同序列上发生的突变可能影响其中一个基因的功能,也可能影响两个基因。当一个基因包含在另一基因之中时,两个基因使用相同的可读框。小基因可独立地表达一种蛋白质,相当于整个基因表达的蛋白质的一部分。最终结果类似于一个完整的蛋白质发生了部分的断裂。,重叠基因及基因内基因现象的意义:原核生物利用有限的遗传资源表达更多生物功能的能力。,3.5.2真核生物的重叠基因通常情况下真核生物基因组中很少有重叠基因。断裂基因的每个外显子可编码一段氨基酸序列,对应于整个蛋白质分子上的相应部分,而内含子不在最终的蛋白质产物中表达。,但在有些基因当中,内含子和外显子的区分是相对的,并无严格的规定,这与它们表达的途径有一定关系。在一段区域以一种途径表达时作为外显子,而以另一种途径表达时作为内含子。说明一段DNA序列通常可以多种方式发挥作用。在这种选择性产生的两种蛋白质当中,一部分序列相同而其他部分可能不同。,由于选择性剪接使得外显子4序列存在于一个mRNA中,而在另一个mRNA中不存在;在第一种情况下,它被定义为外显子;在第二种mRNA的剪接时,它却被作为外显子3和5之间内含子的一部分而被切除。这种选择性剪接可从一段DNA序列产生有部分重叠序列的多种蛋白质。,3.6基因组每个物种单倍体染色体的数目及其所携带的全部基因称为该物种的基因组(genome)。,3.6.1原核生物的染色体基因组原核生物的染色体基因组是指其环状或线状的双链DNA分子所含有的全部基因;有的原核生物还含有染色体外的质粒基因组。,E.coli染色体基因组(E.colichromosomegenome)是指存在于E.coli染色体上的全部基因。E.coli染色体相对聚集形成致密类核(nucleoid),但无核膜,类核中央由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋。其双链环状的DNA分子约含4.2106bp,相对分子质量为2.67109,约含4000个基因。,功能相关的基因大多集中在一起组成操纵子,其中的结构基因为多顺反子,即数个结构基因串联在一起,由一个共同的调节基因(regulatorgene)所调控。,3.6.2真核生物基因组真核生物基因组(eucaryoticgenome)包括染色体基因组以及细胞质的线粒体和叶绿体基因组等。,1、真核生物染色体基因组(eucaryoticchromosomegenome):指为真核生物单倍体染色体数目及其所包含的一整套基因。存在于细胞核中的染色体DNA为线状双链,分子量较高,并表现C值矛盾。在组成上有单一序列和重复序列、基因之间的间隔序列以及基因内的内含子。,表3-4人类的基因组组成,真核生物基因组可形成单拷贝、寡拷贝、多拷贝,多数属断裂基因,有的还具有转座基因,其基因复制在细胞核中以多复制子形式进行,基因表达可在核、质中分别进行,调控机制比原核细胞复杂,功能相关的基因不构成操纵子。,真核生物基因组与原核基因组相比,其区别可总结如下:真核生物基因组远远大于原核生物基因组;基因组中不编码区域远远多于编码区域;基因组中的DNA与蛋白质结合,形成的染色体存在于细胞核内;大部分基因有内含子,因此基因的编码区域不连续;,存在着重复序列,重复次数从几次到几百万次不等;基因组中以多复制起点的形式复制;转录产物为单顺反子;真核生物基因组与原核相同,也存在着转座因子。,2质粒基因组:指某些细菌的染色体外基因组,大约有几十种。细菌的质粒DNA呈环状或线状的双链结构,约1103300103bp,相对分子质量为1106200106,质粒基因可通过复制、转录、翻译,从而赋予寄主细胞某种性状,许多性状已作为DNA重组技术中的较为成熟的选择标记。,3线粒体基因组(mitochondrialgeno-me,mtDNA):不同生物体中,线粒体的大小,基因排列,转录合成,遗传密码都有所不同。,动物细胞线粒体基因组较小,例如人、鼠、牛都是16.5kb。与核DNA相比,线粒体DNA的所占比例很少,只有不到1%。酵母细胞线粒体基因组很大,酿酒酵母为84kb。正在生长的细胞中线粒体DNA的比例高达18%。植物细胞线粒体DNA的大小差异很大,最小都有100kb。,所有的mtDNA都是双链环状分子,与细菌质粒DNA的结构相似。mtDNA的相对分子质量大约为11032105;,表3-5线粒体中相对于标准遗传密码的改变,4叶绿体基因组(Chloroplastgenome)叶绿体也属于半自主性的细胞器,其自身的基因产物不能完全满足功能上的需要,必须有核基因产物的协同作用(核质互作)。,大多数叶绿体基因产物是类囊体膜的成分或与氧化还原反应有关。有些复合物与线粒体复合物一样,一部分亚基由叶绿体基因组编码而另一部分由核基因组编码。,例如:1,5-二磷酸核酮糖羧化酶-加氧酶(Rubisco)是地球上已知存在量最大的蛋白质,占类囊体可溶性蛋白大约80,叶片可溶性蛋白的50。,Rubisco全酶由8个大亚基(LSU)和8个小亚基组成(SSU),活性中心位于大亚基上,小亚基主要起着调节功能。研究发现,小亚基由核基因编码,大亚基由叶绿体基因组编码。在叶绿体中也有只由一个基因组编码的蛋白质。,在已鉴定了的叶绿体基因中,大约45个基因的产物为RNA,27个基因的产物是与基因表达有关的蛋白,18个基因编码类囊体膜的蛋白质,还有10个基因的产物与光合电子传递功能有关。,叶绿体基因组比较大。在高等植物中通常为140kb,在低等真核生物中高达200kb。叶绿体DNA以双链环状分子的形式存在,与核DNA不同,叶绿体DNA不含5-甲基胞嘧啶,也不与组蛋白结合。,在CsCl密度梯度离心中的浮力密度为1.697g/ml,相当于37%的G+C含量,不同植物在3640之间,低于植物的核DNA,因此,可用氯化铯密度梯度离心法将叶绿体DNA分离。,大多数植物叶绿体DNA都有数万碱基对的两个反向重复序列(IR),IR把环状的DNA分子分隔成两个大小不同的单拷贝区:大单拷贝区78.5kb100kb(LSC),小单拷贝区12kb76kb(SSC)。,IR,IR,所有不同植物叶绿体基因组中的rRNA基因(4.5S,5S,16S,23S)都位于IR区内,其中还含有部分的tRNA基因。,根据叶绿体rRNA基因的数目,可将其分为三种类型:I型,只含单拷贝rRNA基因;II型,含两个拷贝rRNA基因;型,含3个拷贝rRNA基因,仅见于裸藻。II型是大多数高等植物叶绿体基因组的结构。,烟草叶绿体基因组的大致组成如下:有4种rRNA基因,30种tRNA基因,49种蛋白质基因,38种含70个密码子以上的可阅读框架,总共能编码120多条RNA或多肽链。,因为在反向重复序列中有24个基因或ORF是双拷贝的,故烟草叶绿体DNA所含有的基因或可阅读框架总数约为150多个。,蛋白质双向电泳结果显示:叶绿体中总共大约有220多种蛋白质,其中基质中有150多种,其余的存在于类囊体及其他部位。烟草叶绿体基因组最多只能编码80多种蛋白质,因此,叶绿体蛋白质的半数以上是由核基因组编码的,并在细胞质中合成,最后运输到叶绿体中。,有关线粒体与叶绿体基因组结构与功能目前在分子水平上已经研究的比较详细。,3.7真核生物DNA序列组织根据DNA复性动力学研究,真核生物的DNA序列可以分为4种类型:1单拷贝序列又称非重复序列,在一个基因组中只有一个拷贝,真核生物的大多数基因都是单拷贝的。在复性动力学中对应于慢复性组分。,2轻度重复序列在一个基因组中有210个拷贝(有时被视为非重复序列),如组蛋白基因和酵母tRNA基因。在复性动力学中也对应于慢复性组分。,3中度重复序列有十至几百个拷贝,一般是不编码的序列,例如人类基因组中的Alu序列等。,中度重复序列可能在基因表达调控中起重要作用,包括DNA复制的起始、开启或关闭基因的活性、促进或终止转录等。平均长度约300bp。对应于中间复性组分。,4高度重复序列有几百到几百万个拷贝,是一些重复数百次的基因,如rRNA基因和某些tRNA基因,而大多数是重复程度更高的序列,如卫星DNA等。高度重复序列对应于快复性组分。,不同生物中非重复基因占基因组的比例差别很大。原核生物含有完全不重复的DNA,低等真核生物的大部分DNA是非重复的,重复组分不超过20,且基本是中等重复组分。,在动物细胞中,接近一半的基因组DNA是中等或高度重复的组分。植物和两栖动物中的非重复DNA只占基因组的很小一部分,中等和高度重复的组分高达80。,真核生物基因组的序列组织形式千差万别。在一些多倍体植物中没有非重复序列,复性最慢的组分也有23个拷贝。在螃蟹基因组中,没有中等重复的DNA,只有高度重复和非重复DNA。低等真核生物中没有高度重复序列。,3.8基因家族3.8.1基因家族和基因簇基因家族(genefamily)是真核生物基因组中来源相同,结构相似,功能相关的一组基因。,尽管基因家族各成员序列上具有相关性,但相似的程度以及组织方式都有所不同,大部分有功能的家族成员之间相似程度较高,有些则差异很大,甚至还有一些无功能的假基因(pseudo-gene)。,根据DNA序列的同源性,广义的基因家族分为:第一种是家族中各成员的全序列或至少编码序列具有高度的序列同源性。例如rRNA基因家族和组蛋白基因家族。它们的特点是各成员间的序列高度保守;拷贝数高,常有几十个甚至几百个;间隔区域短,且较一致。,第二种基因家族是各成员在编码产物上有大段高度保守的氨基酸序列。但家族成员间总的序列相似性较低。还有一种超基因家族(genesuperfamily),其各基因序列间没有同源性,但其表达产物的功能却相似,它们在整体上有相同的结构特征,如免疫球蛋白家族。,根据基因家族的成员在染色体上分布形式不同:一些成员在特殊的染色体区域上成簇存在叫做基因簇;另一些则广泛分布在整个染色体上,甚至在不同的染色体上叫做散布的基因家族。,基因簇(genecluster):是指基因家族中的各成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域。它们属于同一个祖先的基因扩增产物。,散布的基因家族(interspersedgenefamily):基因家族的成员在染色体上无明显的物理联系,甚至在多条染色体上。,基因簇和散布的基因家族中均包括一些没有生物功能的假基因。通常基因簇内各序列间的同源性大于基因簇间的序列同源性。,3.8.2基因外的DNA重复序列除基因家族外,在染色体上还存在大量无转录活性的重复DNA序列。,有两种组织形式:一种是串联重复的DNA,如卫星DNA,成簇存在于染色体的特定区域。另一种是散布的重复的DNA,分散存在于染色体的各位点上。许多成员是由RNA介导的转座而来的可转移组分,不太稳定,能在基因组的不同位置转移。,1串联重复的DNA串联重复的DNA(卫星DNA)有些高度重复DNA序列的碱基组成和浮力密度与主体DNA不同,在氯化铯密度梯度离心时,可形成相对独立于主DNA带的卫星带。卫星DNA由此得名。,根据重复单位的大小,分为卫星DNA(satelliteDNA)小卫星DNA(minisatelliteDNA)微卫星DNA(microsatelliteDNA)三类,图3-8。,卫星DNA由长串联的重复序列组成,一般对应于染色体上的异染色区域。小卫星DNA由中等大小的串联重复序列组成,位于靠近染色体末端的区域,也有分散存在于核基因组的多个位置上的,一般没有转录活性。其重复单位之间序列差异很大,但基本核心序列为:GGGCAGGAXG,大多数靠近端粒。,另一类小卫星DNA是端粒DNA,主要成分为六核苷酸的串联重复单位TTAGGG,作为一种缓冲成分,在真核生物染色体末端的复制中起重要作用。,微卫星DNA是由更简单的重复单位组成的小序列,分散于基因组中,大多数重复单位是二核苷酸,也有少量三或四核苷酸的重复单位。,2.散布的重复DNA序列在高度分散的重复DNA序列中含有少量的转座元件,根据其大小不同,又分为短分散元件和长分散元件。,人类和哺乳动物基因组中存在的一大类中等重复序列是Alu重复序列家族,每个序列长约300bp,在第170位附近都有AGCT的顺序,可被限制性内切核酸酶AluI切割(AGCT),故而得名。,大约有几十万个Alu家族成员,平均每间隔6kb出现个,故在筛选人类基因中被作为一种标志。人类基因组内相间散布着5105拷贝的Alu序列,占总长度的56。,在一些短周期重复序列中,Alu序列约占到1/21/3。在Alu家族成员中之间虽然有很高的同源性,但也有一定的序列差异,其成员有数千个亚类,每一亚类又有数百拷贝。,虽然Alu家族序列的长度和重复频率更接近高度重复序列,但由于它们广泛分布在非重复序列之间,故不同于高度重复序列那样的串联集中分布。其他哺乳动物中也有类似的序列,如鼠类B1家族。,3.9人类基因组研究进展1986年,著名生物学家、诺贝尔奖获得者Dulbecco在Science上率先提出“人类基因组计划(humangenomeproject,HGP)”,该建议引发了科学界长达3年的激烈争论。,美国政府决定用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论