分子生物学:3-基因和基因组_第1页
分子生物学:3-基因和基因组_第2页
分子生物学:3-基因和基因组_第3页
分子生物学:3-基因和基因组_第4页
分子生物学:3-基因和基因组_第5页
已阅读5页,还剩197页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第3章 基因和基因组化学工业出版社化学工业出版社 生物体内的一切生命活动都直接或间接地在基因的控制之下,人们会越来越多地在深入研究基因结构和功能的基础上,改良物种,控制疾病,提高人类的生活水平和生活质量。因此,基因及其功能的研究,一直是分子生物学的核心内容。 1990年代以来,随着DNA序列测定技术的发展和进步,结构基因组学的发展十分迅速,十多种重要模式生物的基因组全序列测定已经完成。人类基因组的全序列测定已于2003年宣告完成,不同人群DNA序列的多态性研究,个人基因组全序列的测定正在积极推进。结构基因组学和比较基因组学的研究成果,已经和正在推进着生命科学基础研究和应用研究的迅速发展。 同

2、时,功能基因组学的研究也在快速发展,基因及其表达产物的功能研究,正在为疾病控制和新药开发提供越来越多的思路。同时,也为作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。3.1 基因的概念基因的概念 Mendel提出的遗传因子是决定某个遗传性状的抽象符号,1909年丹麦生物学家Johannsen根据希腊文“给予生命”之义,用基因基因(gene)一词代替了Mendel的遗传因子。然而,这里的基因依然是一种与细胞的可见形态结构毫无关系的抽象概念。 Morgan及其助手通过对果蝇的研究发现,一些性状的遗传行为之所以不符合Mendel的独立分配定律,是因为代表这

3、些性状的基因位于同一条染色体上彼此连锁。Morgan将代表某一特定性状的基因,同某一特定的染色体联系起来。基因不再是抽象的符号,而是在染色体上占有一定空间的实体。 但是早期研究曾认为遗传物质是蛋白质,1941年Beadlr和Tatum 研究红色面包霉的营养缺陷突变体,发现每一种突变都同一种酶有关,因而提出一个基因一个酶的学说。Beadlr和Tatum因此而荣获了1958年的诺贝尔生理学或医学奖,但这一学说并未解决基因的化学本质问题。直到1944年,Avery等人通过肺炎链球菌转化实验证明,基因的化学本质是DNA。 在遗传学的早期阶段,基因被看作是在功能、突变和交换方面都不可再分割的遗传单位。1

4、957年Benzer研究发现T4噬菌体感染大肠杆菌后,控制寄主细胞致死效应(快速溶菌)的功能,是由该噬菌体的rII区编码的。深入研究发现rII分为rIIA和rIIB亚区,用rIIA或rIIB的突变型分别单独感染E. coli K菌株,很少发生溶菌裂解。而用两种突变型混合感染时,则发生大量宿主菌的溶菌裂解。即一个突变点在rIIA,另一个突变点在rIIB时,两个噬菌体颗粒才能彼此互补,出现野生型的表型。说明rIIA和rIIB是两个不同的功能单位,Benzer用顺反子顺反子(cistron)一词,将其分别称为rIIA顺反子和rIIB顺反子,认为顺反子就是一段能编码一条完整多肽链的核苷酸序列。 随后分

5、析了几千种rII 的突变,其中有几百个不同的线性排列的突变位点。根据Benzer的计算,在功能DNA中,最小交换单位为13个核苷酸。后来的研究发现,顺反子中的最小交换单位(交换子)和最小突变单位(突变子),均为 DNA分子中的一个核苷酸对。作为功能单位的顺反子,包含多个突变位点和交换位点。 顺反子通过顺反试验确定,如两个位点可以互补,则不属于一个顺反子;如两个位点不可以互补,则属于同一个顺反子。 上图为突变发生在相同基因无互补,下图为突变发生在不同基因,图中蓝条表示基因,红点表示突变位点。 1958年Crick提出中心法则中心法则,认为DNA通过转录和翻译控制蛋白质的合成。1961年Jacob

6、和Monod提出操纵子学说操纵子学说,和结构基因、调节基因、操纵基因等概念。结构基因结构基因(Structure gene)是指为蛋白质或RNA编码的基因,结构基因的突变可导致蛋白质或RNA一级结构的改变。结构基因的5-端非编码区(5-untranslated region, 5-UTR)包括RNA聚合酶的识别和结合位点,被称作启动子(Promoter),以及原核生物mRNA起始密码子上游的核糖体结合位点(ribosome-binding site, RBS),或SD序列(以发现者的名字命名)。真核生物的mRNA不含SD序列,其5-端的帽子结构可以同核糖体相互识别。结构基因的3-非编码区(3-

7、UTR)包括促使转录终止的终止子(terminator)序列,和真核生物的加尾信号等。调节基因调节基因(regulator gene)的功能是产生调控蛋白质,调控结构基因的表达。操纵基因操纵基因(operator gene)的功能是与调控蛋白质结合,控制结构基因的表达。调节基因和操纵基因的突变会影响一个或多个基因的表达活性。 1977年Sanger测定了X174的DNA序列,发现了重叠基因。同年,Jacp发现了与基因序列相似,但不能产生表达产物的假基因。Sharp和Robert发现了真核生物的多数基因的编码区被一些被称作内含子的非编码区分割成了若干个称作外显子的小片段,提出断裂基因的概念。所以

8、,将基因定义为编码序列及其调控区是不全面的。 广义来讲,应当将基因基因定义为,DNA或RNA分子中有特定遗传功能的一段序列。基因主要位于染色体上,此外,细菌的质粒、真核生物的叶绿体、线粒体等细胞器都含有一定的DNA序列,其中大部分是具有遗传功能的基因,这些染色体外的DNA称为染色体外遗传物质。 3.2 基因的类型基因的类型3. 2.1 基因家族和基因簇基因家族和基因簇 基因家族基因家族(gene family)是真核生物基因组中来源相同、结构相似、功能相关的一组基因。基因家族各成员序列上具有相关性,但相似的程度以及组织方式不同。基因家族可能由某一共同祖先基因(ancestral gene)经重

9、复(duplication)和突变产生。 按照基因家族的成员在染色体上的分布,可以将基因家族分成两类。一类是串联重复基因串联重复基因(tandemly repeated genes),成簇的基因家族(clustered gene family),或基因簇基因簇(gene cluster),是基因家族的各成员紧密成簇排列而成的串联重复单位,定位于染色体的特殊区域。从分子进化的角度看,它们可能是同一个祖先基因扩增的产物。在基因簇中,也有一些基因家族的成员中间包含一些间隔序列,但大多数分布在染色体上相对集中的区域。另一类称作分散的基因家族分散的基因家族(interspersed gene famil

10、y),其家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上,各成员在序列上有明显的差别。3.2.1.1 简单的多基因家族简单的多基因家族 家族中各基因的全序列或至少编码序列具有高度的同源性,如rRNA基因家族。真核生物的rRNA基因串联重复排列在一段很长的DNA区域内。重复单位内rRNA基因转录区的序列几近相同,而非转录的间隔序列则有所不同。在低等真核生物如酵母的rRNA基因家族中,28S、18S、5.8S和5S rRNA基因构成一个转录单元,而高等真核生物的5S rRNA基因则单独作为一个基因家族排列在其它部位。每个转录单元重复排列成基因簇,基因之间由可转录的间隔区(TS)分开,各转

11、录单元之间由不可转录的间隔区(NTS)分开(图3-1)。 3.2.1.2 复杂的多基因家族复杂的多基因家族 复杂的多基因家族由几个相关基因构成独立的转录单元,家族间由间隔序列分开。例如,组蛋白基因的5个成员(H1, H2A, H2B, H3, H4)就属于这一类型。人类组蛋白基因分布在第7号染色体,拷贝数为3040个。 3.2.1.3 受发育调控的复杂多基因家族受发育调控的复杂多基因家族 人类珠蛋白基因家族是典型的受发育调控的复杂多基因家族,-珠蛋白基因簇位于16号染色体上,包括1个活化的基因,1个假基因,2个基因,2个假基因和1个未知功能的基因。-珠蛋白基因簇位于第11号染色体上,包括、2、

12、 5个有功能的基因和一个假基因(图3-3)。两个基因编码的蛋白质只有一个氨基酸的差别,即G蛋白质的13位是Gly,而A蛋白质在这个位置上是Ala。在不同的发育阶段,由基因家族和基因家族中的不同基因产物(即亚基)各两个,组成血红蛋白的四聚体。 在人类珠蛋白基因家族中,基因排列的次序与它们在个体发育阶段基因表达的先后次序一致。在家族中,基因在胚胎早期(前8周)表达,胎儿期(8周后)关闭,2和1在胎儿(8周后)和成人期都表达。在家族中,基因排在最前面,在胚胎早期(8周内)表达,之后关闭。G和A基因在胎儿期表达,出生前表达量逐渐衰减,而出生后并不完全关闭,仍然少量表达。基因在胚胎期和成年期都有少量表达

13、。基因在胚胎期开始表达,表达量逐渐增加,是成人阶段表达的主要基因(表3-1)。胚胎期和胎儿期的血红蛋白对氧的亲和力较高,因此,可以从母体血液中获取氧。 16号染色体11号染色体3.2.1.4 超基因家族超基因家族 超家族基因超家族基因(gene superfamily)是指一组由多个基因家族组成的更大的基因家族。在高等真核细胞内,有些基因簇内含有数百个功能相关的基因,它们是由基因扩增后结构上的轻微变化而形成的,在结构上有着不同程序的同源性。这些基因或保持了原始基因的基本功能,或进化产生了某些新功能。目前已发现了很多的超基因家族,典型的例子有免疫球蛋白超基因家族、核受体超基因家族、细胞因子超基因

14、家族等。 免疫球蛋白(immunoglobin, Ig)超基因家族包括2微球蛋白、MHC I类链、II类和链、T细胞受体(TCR)的 链和链、CD4和CD8等与免疫有关的大分子。还有许多与免疫反应无关的蛋白质分子,如IgE受体亚基,神经黏附分子L-1,白细胞介素IL-1和IL-6的受体等。 Superfamily is a set of genes all related by presumed descent from a common ancestor, but now showing considerable variation. Immunoglobulin type and func

15、tion is determined by the heavy chain. J is a joining protein in IgM and IgA; all other Ig types exist as tetramers.FamilyV GenesC GenesManMouseManMouseLambda64Kappa100098Each immunoglobulin family consists of a cluster of V(variable) genes linked to its C(constant) gene(s).The lambda family consist

16、s of V gene segments linked to a small number of J(joinng)-C gene segments.The human and mouse kappa families consist of V gene segments linked to 5 J segments connected to a single C gene segment.A single gene cluster in man contains all the information for heavy-chain gene assembly.Heavy genes are

17、 assembled by sequential joining reactions. First a D(diversity,多样性) segment is joined to a J segment; then a V gene segment is joined to the D segment.The TCR locus contains a small number of functional V gene segments (and also some pseudogenes; not shown), lying upstream of the J-C loci.The two c

18、hains of the T-cell receptor associate with the polypeptides of the CD3 complex. The variable regions of the TCR are exposed on the cell surface. The cytoplasmic domains of the chains of CD3 provide the effector function.The B cell antigen receptor consists of an immunoglobulin tetramer (H2L2) linke

19、d to two copies of the signal-transducing heterodimer (Iga-lgb).The histocompatibility locus of the mouse contains several loci that were originally defined genetically. Each locus contains many genes. Spaces between clusters that have not been connected are indicated by queries.The human major hist

20、ocompatibility locus codes for similar functions to the murine locus, although its detailed organization is different. Genes concerned with nonimmune functions also have been located in this region.Class I and class II histocompatibility antigens have a related structure. Class I antigens consist of

21、 a single polypeptide, with three external domains (1, 2, 3), that interacts with 2 microglobulin. Class II antigens consist of two ( and ) polypeptides, each with two domains ( 1 & 2, 1 & 2) with a similar overall structure.Each class of MHC genes has a characteristic organization, in which exons r

22、epresent individual protein domains3.2.2 假基因假基因 多基因家族中的有些成员DNA序列与有功能的基因相似,但不能表达产生有功能的基因产物,称假基因假基因(pseudogene),常用符号表示,如a1表示与a1相似的假基因。 许多假基因都与亲本基因(parental gene)连锁,且编码区及侧翼序列都具有高度同源性。通过序列比对发现,这类假基因最初是有功能的,由于发生了缺失(deletion)、倒位(inversion)、点突变(point mutation)等,使该基因失去了活性,成为了无功能的假基因。 此外,在真核生物的染色体基因组中还存在着一类加

23、工的假基因(processed pseudogene)。这类假基因不与亲本基因连锁,结构与转录物相似,如没有启动子和内含子,但在基因的3-端有一段连续的腺嘌呤短序列,类似mRNA 3-端的polyA尾巴。这些特征表明,这类假基因很可能是来自加工后的RNA,称作加工的假基因。 Processed pseudogene is an inactive gene copy that lacks introns, contrasted with the interrupted structure of the active gene. Such genes presumably originate by

24、 reverse transcription of mRNA and insertion of a duplex copy into the genome.Pseudogenes could arise by reverse transcription of RNA to give duplex DNAs that become integrated into the genome. 假基因由于存在以下几个原因中的一个或几个,因而没有表达活性: 缺乏有功能的调控区,使其不能进行正常的转录。 虽然能转录,但由于突变或缺失等,引起mRNA加工缺陷而不能翻译。 mRNA的翻译被提前终止。 虽然能翻译

25、,但生成的是无功能的肽链。在真核生物基因组中,假基因的存在比较普遍,如珠蛋白质和珠蛋白质基因簇中都存在12个能与真核基因序列进行分子杂交,但又没有正常功能的DNA区域。 传统的基因概念把基因看作彼此独立的、非重叠的实体。但是,随着DNA测序技术的发展,在一些噬菌体和动物病毒中发现,不同基因的核苷酸序列有时是可以共用的。也就是说,它们的核苷酸序列是彼此重叠的。这种具有独立性但部分序列彼此重叠的基因称重叠基因重叠基因(overlapping genes)或嵌套基嵌套基因因(nested genes)。 近年来的研究发现,重叠基因在真核生物中是广泛存在的。值得注意的是,高等真核生物中既存在大量的非编

26、码序列,又普遍存在重叠基因,其生物学意义目前所知甚少,有待于进一步深入研究。 3.2.3 重叠基因重叠基因3.2.4 移动基因移动基因 移动基因移动基因(movable genes)又称转座因子转座因子(transposable elements)。由于它可以从染色体的一个位置转移到另一个位置,甚至在不同染色体之间转移,因此也称跳跃基因跳跃基因(jumping genes)。 转座(transposition)和易位(translocation)是两个不同的概念。易位是指染色体发生断裂后,通过连接而转移到另一条染色体上。转座则是在转座酶的作用下,转座因子或是直接从原来位置上切离下来,然后插入新

27、的位置,或是染色体上的DNA序列转录成RNA,随后反转录为cDNA,再插入染色体上新的位置。转座因子本身既包含了基因,如编码转座酶的基因,同时又包含了非编码的DNA序列。关于移动基因的详细介绍见第6章。 3.2.5 断裂基因断裂基因3.2.5.1 断裂基因的概念断裂基因的概念 过去人们一直认为,基因是连续不断地排列在一起一段DNA序列。但是对真核生物编码基因的研究发现,在编码序列中间插有非编码的DNA间隔区,这些间隔区称为内含子内含子(intron);而编码区则称为外外显子显子(exon)。含有内含子的基因称为不连续基因或断断裂基因裂基因(split genes)。一个基因的两端起始和结束于外

28、显子,对应于其转录产物RNA的5-端和3-端。如果一个基因具有n个内含子,则相应地具有n+1个外显子。 断裂基因是Roberts和Sharp于1997年在研究腺病毒六邻体外壳蛋白质的mRNA时首先发现的,病毒DNA与它的mRNA进行分子杂交时,在电镜下观察到未与mRNA配对的DNA形成多个突环,称R环。R环的形成说明腺病毒外壳蛋白质的基因具有mRNA中不存在的序列,这些序列就是内含子。 图3-5中的(a)为电子显微镜照片,(b)为对电子显微镜照片进行解释的示意图,(c)为腺病毒六邻体外壳蛋白质基因结构的示意图。后来发现,鸡卵清蛋白质的基因与其mRNA杂交也会出现与其内含子数对应的7个R环。 研

29、究断裂基因的另一个方法是比较基因组DNA和cDNA的限制性核酸内切酶图谱。cDNA是由成熟的mRNA通过逆转录生成的,因而不含内含子。若用相同的限制性核酸内切酶水解基因组DNA和cDNA,在同样的条件下进行凝胶电泳,如果内含子中有限制性核酸内切酶的水解位点,基因组DNA的电泳图谱中就会有相应的条带,而cDNA电泳图谱中的相应条带则会缺失。 研究发现,断裂基因在表达时首先转录成初级转录产物,即前体mRNA,然后经过后加工,除去内含子序列的转录物,成为成熟的mRNA分子。这种删除内含子、连接外显子的过程,称为RNA拼接或剪接。 Comparison of the restriction maps

30、of cDNA and genomic DNA for mouse -globin shows that the gene has two introns that are not present in the cDNA. The exons can be aligned exactly between cDNA and gene. 通过比较cDNA与基因组DNA的限制性核酸内切酶图谱,也可以分析内含子的数量。 The ovalbumin gene, shown here, has introns A to G and exons 1 to 7 and L (L encodes a signa

31、l peptide sequence that targets the protein for export from the cell). About three-quarters of the RNA is removed during processing. Pol II extends the primary transcript well beyond the cleavage and polyadenylation site (“extra RNA”) before terminating transcription. Termination signals for Pol II

32、have not yet been defined.Overview of the processing of a eukaryotic mRNAAn intron is a sequence present in the gene but absent from the mRNA (here shown in terms of the cDNA sequence). The reading frame is indicated by the alternating open and shaded blocks; note that all three possible reading fra

33、mes are blocked by termination codons in the intron.3.2.5.2 断裂基因的分子进化断裂基因的分子进化 在真核生物的进化过程中,断裂基因的比例在逐渐增加。低等真核生物酿酒酵母中的大多数基因是连续的,少数基因含有较短的外显子,其数量不超过4个。真菌基因的外显子少于6个,基因长度不超过5kb。在高等真核生物中,开始出现长基因,蝇类和哺乳动物基因很少小于2kb,大多数长度在5100kb,含有几个到几十个内含子。但当基因的长度大到一定程度后,DNA的复杂性与生物的复杂性之间开始失去对应关系。例如,虽然属于同一个门,家蝇细胞的DNA总量却是果蝇的6倍

34、。在较高等的真核生物中,基因大小主要取决于内含子的长度,与外显子的大小和数目关系不大。动物细胞的内含子一般为80100kb,平均1127bp,有保守的分支点序列及多聚嘧啶区段。植物细胞的内含子较短,一般为802000bp,平均183bp。 DHFR(二氢叶酸还原酶)有一个较大的基因,由6个外显子组成,相对应mRNA长度为2000bp,但是它的DNA序列却十分长,这是由于它的内含子非常长的缘故,在三种哺乳动物中,外显子基本保持一样,内含子的相对位置也不改变,但长度变化却非常大,这就导致了基因长度范围为2531kp。Mammalian genes for DHFR have the same re

35、lative organization of rather short exons and very long introns, but vary extensively in the lengths of corresponding introns. 研究发现,基因与其表达产物蛋白质都是由一些结构元件,即模块装配而成的。大约有半数基因的外显子与蛋白质结构域、亚结构域或结构基序有很好的对应关系。例如,磷酸丙糖异构酶基因有9个外显子,其编码的蛋白质有9个与之对应的结构域(图3-6)。 Immunoglobulin light chains and heavy chains are coded b

36、y genes whose structures (in their expressed forms) correspond with the distinct domains in the protein. Each protein domain corresponds to an exon; introns are numbered 1-5.免疫球蛋白是两条轻链、两条重链组成的四聚体,每类基因都有一系列外显子相应于蛋白不同的结构域。 外显子和蛋白结构域之间并非总是简单的对应关系,有迹象表明,在演化中,外显子的复制和合并也起了相当重要的作用。有一些学者认为最初的蛋白质是相当小的,通过不断的复

37、制、变化、重组而产生了现在各种蛋白质。 另有约半数的基因则找不出外显子与蛋白质结构域的对应关系。这可以解释为,在漫长的进化历程中,由于变异而使这些模块(结构元件)的边界逐渐模糊以至消失了。如乙醇脱氢酶基因有10个外显子,酶催化部位来自第14个和第10个外显子相应肽段构成的结构域。第59个外显子编码的肽段位于催化部位的外围。 可以认为,各种结构基因都是由不同来源的外显子作为模块构成的嵌合体。原初的蛋白质分子或许由更小的模块(相当于二级结构或超二级结构)装配而成,这些模块不一定能有特殊的功能,但几个小模块组合起来就可形成某种有功能的大模块。蛋白质分子通过不断增加相应的新模块而获得多种功能,而这些模

38、块的来源则是新组合到结构基因内的外显子序列。新加入到蛋白质分子中的模块,在分子折叠过程中一般倾向于留在分子表面,对蛋白质分子内部原有的结构影响不大。 在基因的进化中,可能发生外显子的复制,结果在结构基因内出现了重复序列。在鸡的胶原蛋白质基因中,一个54bp的外显子多次重复,某些外显子累积突变,失去编码功能,就可能转化为内含子。 外显子作一种功能模块,可以组装到不同的基因内。因此,在基因进化中,经常发生着外显子在不同基因之间的复制、迁移和吸纳。例如,在多种脱氢酶的基因内,均有几乎相同的与辅酶结合或脱氢酶催化区域功能有关的外显子结构。另一个典型的例子是人类低密度脂蛋白质(low density l

39、ipoprotein, LDL)受体与其他蛋白质之间的关系。LDL受体基因由18个外显子构成,中间的几个外显子也出现在生长因子前体的基因内,其N端的几个外显子也为血蛋白质互补因子C9编码。 The LDL receptor gene consists of 18 exons, some of which are related to EGF precursor and some to the C9 blood complement gene. Triangles mark the positions of introns. Only some of the introns in the reg

40、ion related to EGF precursor are identical in position to those in the EGF gene.LDL(低密度脂蛋白)受体基因的中心部分的一系列外显子和EGF(表皮生长因子)前体基因同源,在其N端的外显子序列和血蛋白补充因子C9的基因同源,这说明LDL基因中一系列不同功能的组份组合而具备了新的功能,而这些组份也存在于别的蛋白中。 产生新基因的另一种方式是某些内含子插入到外显子内,使外显子变得更小,或将内含子切除,使外显子变得更大。例如,珠蛋白超家族包括血红蛋白(hematoglobin)、肌红蛋白(myoglobin)和豆血红蛋白

41、(leghemoglobin),以及其它血红素结合蛋白。血红蛋白分子是由2个-珠蛋白和2个-珠蛋白分子构成的四聚体。肌红蛋白为单体,结构类似于珠蛋白。豆血红蛋白类似于肌红蛋白,可能是珠蛋白相关基因的共同祖先。肌红蛋白和珠蛋白基因内第2外显子负责与血红素结合,而豆血红蛋白不同于珠蛋白和肌红蛋白,它的基因有3个内含子,其中第2内含子把血红素结合域的外显子又分隔成2个外显子。可能的进化途径是,豆血红蛋白丢失内含子,使珠蛋白或肌红蛋白的两个外显子融合成了一个。 Some interrupted genes possess only one or a few introns. The globin ge

42、nes provide an extensively studied example. The two general types of globin gene, and , share a common type of structure. The consistency of the organization of mammalian globin genes is evident from the structure of the generic globin gene summarized in figure. All functional globin genes have an i

43、nterrupted structure with three exons. The lengths indicated in the figure apply to the mammalian -globin genes. 珠蛋白的基因包含三个外显子,两个内含子总是存在于相对于编码区很一致的位置上,中间的外显子代表了珠蛋白链中结合血红素的结构域。活性蛋白是由2个珠蛋白链和2个珠蛋白链组成的四聚体。The exon structure of globin genes corresponds with protein function, but leghemoglobin has an extr

44、a intron in the central domain. 血红蛋白是动物体内结合氧的单聚体蛋白,豆血红蛋白是豆类植物中结合氧的蛋白,它们和别的血红素结合蛋白有着共同的祖先。肌红蛋白,血红蛋白和豆血红蛋白共同组成了球蛋白超家族,它们的基因组成是一个基因家族,也是由共同祖先演化而来的。 血红蛋白是由人类基因组中一个基因所编码的,它和肌红蛋白基因基本上一样,三个外显子结构说明由于基因的演化形成了血红蛋白和球蛋白功能的分离。 豆血红蛋白的基因含有三个内含子,第1个和第3个的位置和球蛋白2个内含子所处位置是相同的。这种惊人的相似说明很多血红素结合蛋白都是通过基因割裂而来的。 在豆血红蛋白中,中心的

45、内含子将相应的球白中心外显子序列分割成两部分,是肌红蛋白的中心外显子由古代的两个外显子合并而来,还是在单一的中心外显子中插入了一段内含子而形成了豆血红蛋白呢?这一问题还有待研究。 The rat insulin gene with one intron evolved by losing an intron from an ancestor with two interruptions. 哺乳动物(除了啮齿类)和鸟类编码胰岛素的基因是由同一基因演化分离而来的。鸡的胰岛素基因有2个内含子,大鼠的其中一个基因与之有相同的结构。这个共同性说明胰岛素最初有2个内含子,而大鼠的另一个基因只含有1个内含子

46、,说明它在演化过程中首先进行复制,然后从一个拷贝中精确地移去了一个内含子。 原始的鱼类只有一种珠蛋白链,硬骨鱼和两栖类有连锁的基因和基因,说明在大约5亿年前, 硬骨鱼进化期间,珠蛋白祖先基因倍增,并变异形成了基因和基因。哺乳类和鸟类是在约3.5亿年前同两栖类分开的,基因和基因的分开应在此之前,也许发生在2.7亿年前(图3-7)。随后,突变引起的趋异进化形成了基因簇和基因簇的各个成员。 和珠蛋白基因间置换位点的差别是3.7%,单位进化时间,即产生1%差异所需的百万年数为10.4,估算趋异的时间为10.43.7百万年,大约在4000万年前。和基因间置换位点的趋异度为9.6%,估算趋异的时间大约在1

47、亿年前(图3-8)。 关于内含子插入或切除的一个复杂例子是肌动蛋白质基因的进化。典型的肌动蛋白基因有一个非翻译的前导区(96%)是连续的,几乎没有一种 s.cerevsiae的基因含4以上外显子。在昆虫和哺乳动物中,情况恰好相反,只有很小部分的基因是连续的(哺乳动物中有6%),昆虫基因含有很少的外显子,一般少于10个,哺乳动物的基因断裂成许多片段,有些会有几十个外显子。一般来说,外显子较短,内含子较长。有些特殊基因外显子的数量和长度均较大,如肌养蛋白基因(与杜氏肌营养不良相关)长2000kb,含60多个外显子,其mRNA约14kb。肌联蛋白(约27000个氨基酸)有178个外显子,其中最长的外

48、显子1.7kb。Yeast genes are small, but genes in flies and mammals have a dispersed distribution extending to very large sizes.The proportions of different sequence components vary in eukaryotic genomes. The absolute content of nonrepetitive DNA increases with genome size, but reaches a plateau at 2109 b

49、p.线虫线虫果蝇果蝇爪蟾爪蟾小鼠小鼠烟草烟草3.4.2.2 真核生物基因组的序列类型真核生物基因组的序列类型(1) 高度重复序列高度重复序列 存在于大多数高等真核生物基因组中,重复频率达106次以上的DNA序列为高度重复序列高度重复序列(highly repetitive sequence),在人类基因组中,高度重复序列占20左右。若将基因组DNA裂解为约104bp长的片段,进行氯化铯密度梯度离心时,原核生物的DNA只出现一个区带,经光学仪器扫瞄,形成一个带峰,表明DNA的碱基分布比较均匀。而真核生物DNA除了一个主要的DNA峰(主峰)外,在旁侧还有一些小峰,被形象地称作卫卫星星DNA(sat

50、ellite DNA)。已知DNA在超速离心时的浮力密度决定于分子中的G-C含量,G-C含量越高,浮力密度越大。若卫星DNA序列的A-T含量较高,则在超速离心时的浮力密度小于主带DNA。例如,小鼠卫星DNA由GAAAAAAACGT, GAAAAATAA等序列构成,其浮力密度为1.690gcm-3,而主峰的密度为1.701 gcm-3,相当于G-C含量平均为42%Mouse DNA is separated into a main band and a satellite by centrifugation through a density gradient of CsCl. 原位分子杂交实验

51、发现,卫星DNA集中在异染色质区,特别是在着丝粒和端粒附近,通常不转录。卫星DNA可能与染色体折叠压缩和配对分离有关,因此,又被称为结构DNA。在科研工作中,卫星DNA能用于DNA指纹图谱分析和生物个体的遗传多态性分析。 研究发现,卫星DNA属于高度重复序列,由于其碱基组成和浮力密度不同于主体DNA,可形成相对独立于主DNA沉降带的区带。但有些高度重复序列的碱基组成与主带DNA相似,在氯化铯密度梯度离心时,不能形成小峰,被称作隐秘的隐秘的卫星卫星DNA(cryptic satellite DNA)。 卫星DNA是由非常短的序列重复多次形成的,因此,也可被称作简单重复序列简单重复序列(simpl

52、e repeat sequence, SRS)。卫星DNA通常有数百万个拷贝,串联成很长的一簇,因此,也可被称作串联重复序列串联重复序列(tandem repetitive sequence, TRS)。果蝇有3种由7bp重复单位构成的卫星DNA,和1种由7bp重复单位构成的隐秘的卫星DNA。卫星DNA II和III是由卫星DNA I通过单碱基置换形成的,卫星DNA I总长度达1.1107bp,占基因组的25%,卫星DNA II和卫星DNA III总长度均为3.6106bp,占基因组的8%。隐秘的卫星DNA与3种卫星DNA的碱基组成差别较大,在基因组中所占的比例不高。小鼠的卫星DNA重复单位的

53、长度为234bp,仔细的序列比对分析发现,这个较长的重复单位可能是9bp的序列通过多次的重复和突变形成的。 The repeating unit of mouse satellite DNA contains two half-repeats, which are aligned to show the identities (in color).The alignment of quarter-repeats identifies homologies between the first and second half of each half-repeat. Positions that

54、are the same in all 4 quarter-repeats are shown in color; identities that extend only through 3 quarter-repeats are indicated by grey letters in the pink area.The alignment of eighth-repeats shows that each quarter-repeat consists of an and a half. The consensus sequence gives the most common base a

55、t each position. The ancestral sequence shows a sequence very closely related to the consensus sequence, which could have been the predecessor to the and units. The existence of an overall consensus sequence is shown by writing the satellite sequence in terms of a 9 bp repeat.The evolution of mouse

56、satellite DNA can be explained by an alternation of saltatory replications and accumulation of mutations.(2) 中度重复序列中度重复序列 中度重复序列中度重复序列(moderately repetitive sequence)在基因组内重复数十次至数十万次,平均长度6105bp,重复程度和长度相差都很大,分散存在于基因组内。中度重复序列中有编码序列,如rRNA基因、tRNA基因和组蛋白基因等,其大量重复的拷贝有利于大量合成这些基因的表达产物,以满足细胞的需要。也有不少非编码序列,如Alu家

57、族、Kpn I序列和可移动DNA成分等。目前认为,大部分非编码的中度重复序列与基因表达的调控有关,它们可能是一些与DNA复制、转录起始和终止有关的酶及蛋白质因子的识别位点。 大多数中度重复序列与其它序列间隔排列,称作分散重分散重复序列复序列(dispersed repetitive sequence)。少数中度重复序列成串排列在一定的区域,称作串联重复序列串联重复序列(tandem repetitive sequence)。 分散重复序列 分散重复序列分为两类,短分散元件短分散元件(short interspersed elements, SINEs)的典型代表是Alu序列,其长度约300bp

58、。如图3-13a所示,Alu序列由两个130bp的串联重复顺序组成,其中一个重复顺序有30bp的插入序列,此插入序列来自7S L RNA,在170bp处有一AluI 的酶切位点(AGCT/TCGA),因此而得名。Alu序列可由RNA聚合酶III转录,属于逆转座子(见第6章),在人类基因组中有约100 万个拷贝,分散存在于基因组内。同种生物的Alu序列有80%的保守性,不同物种间的保守性为50%60%。另一个短分散元件的例子是KpnI家族,其DNA序列能被限制酶KpnI酶切。人类和灵长类动物的DNA被KpnI酶切后,可分离到1.2kb, 1.5kb, 1.8kb和1.9kb的片段,这些属于Kpn

59、I家族的序列约占人类基因组的38。长分散元件长分散元件(long interspersed elements, LINEs) 的典型代表是L1家族,其长度为6500bp左右,在基因组中约6万个拷贝,可由RNA聚合酶II转录,也属于逆转座子。分散重复序列的生物学功能不详,但在基因组学研究中,可以作为分子标记,用于染色体作图。 Alu家族家族 Alu顺序长约300bp,为短的分散因子(short interspersed elements, SINEs),可由RNA多聚酶III转录,属于逆转座子。在基因组中约100 万个拷贝,在170bp处有一AluI 的酶切位点,由两个130bp的串联重复顺序组

60、成,在二聚体的右半部有30bp插入序列,此插入顺序来自7SL RNA。 AluI30bpAlu序列 串联重复序列 串联重复序列包括小卫星DNA和微卫星DNA,编码组蛋白、per-rRNA、5S rRNA及各种tRNA家族的基因,有人将着丝粒序列和端粒序列(卫星DNA)也看作串联重复序列。 小卫星小卫星DNA (minisatellite DNA)一般由15bp左右的串联重复序列组成,多数位于邻近染色体末端的区域,也有一些分散存在于基因组的多个位置上。拷贝数从101000不等,通常为550,一般没有转录活性。由于小卫星序列的拷贝数在群体内差异很大,因此也可被称作可变数串联重复序列可变数串联重复序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论