第9章真核生物基因组_第1页
第9章真核生物基因组_第2页
第9章真核生物基因组_第3页
第9章真核生物基因组_第4页
第9章真核生物基因组_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、真核生物基因组真核生物基因组一 真核生物基因结构1 启动子元件 开放阅读框标志: 由于大量内含子的存在,真核生物中没有发现原核生物具有的显著长度的开放阅读框标志。 RNA聚合酶种类: 与原核生物只使用一种由多种蛋白质聚合而成的RNA聚合酶不同,真核生物至少使用由812种蛋白质组成的3种不同类型的RNA聚合酶。 启动子元件多样性: 每种真核生物RNA聚合酶都能识别一套不同的启动子,并转录不同类型的基因。RNA聚合酶启动子位置启动子的复杂性所转录的基因RNA聚合酶-45至20简单核糖体RNARNA聚合酶上游远端至-25非常复杂蛋白质编码基因RNA聚合酶50至100简单tRNA和其他小RNA3种真核

2、生物RNA聚合酶2 断裂基因内含子和外显子 内含子(intron):已发现真核细胞中至少有8种明显不同的内含子,但只有一种遵循GU-AG规则(GU-AGrule)的内含子与真核细胞蛋白编码基因有关系。 GU-AG规则:所有内含子序列5端起始的两个核苷酸总是5-GU-3,而3端的最后两个碱基总是5-AG-3 。 内含子和外显子的长度: 内含子至少长60bp; 在脊椎动物中外显子长度的变化范围也很广,于1002000bp之间,常见的长约450bp。Eukaryotic Gene 真核基因的内含子/外显子结构和对应的hmRNA转录物经过加工后的mRNA:(a)显示了与酵母内含子的5和3剪接位点相关联

3、的保守序列。每个核苷酸旁的下标数字表示该核苷酸在所有已知酵母基因内含子中的出现频率。(b)剪接体通过配对识别剪接位点,从而产生mRNA以供核糖体翻译之用。 不同生物基因组内含子的特点: 在简单的真核基因组中内含子一般出现得较少(如酵母基因组6000个基因中总共只有239个内含子 95%的人类基因至少有一个内含子,某些单个基因中就具有100个或更多内含子 内含子在给定基因中的位置具有进化保守性,在同源基因的序列比对中内含子经常出现在相同的位置。3 基因的转录真核真核mRNA原始转录体(原始转录体(primary transcripts):):n 简单原始转录体经剪接仅生成一条成熟mRNA和翻译出

4、一条多肽链n 复杂原始转录体在不同的时(不同发育阶段)空(不同组织细胞),同一原始转录体因转录起点、剪接方式或终止点的不同,可产生两种或多种成熟mRNA和多肽链。 例如例如果蝇肌球蛋白重链转录体,在不同发育阶段有三种不同表达产物。相同的降钙素基因相关肽(calcitonin gene related peptide)原始转录体,在甲状腺、脑等不同组织细胞内,因剪接方式不同使其表达产物不同。 1. 不同B细胞的免疫球蛋白原始转录体都是相同的4 转录后加工加帽、剪接和加尾:RNA聚合酶转录物在加工前称为hnRNA(异质RNA),通过加帽(capping)、剪接和多聚腺苷酸化转化成适合核糖体翻译的m

5、RNA。加帽(capping)是指所有发生在hnRNA5末端的化学改变(包括甲基化作用)剪接(splicing)从hnRNA中大批地精确切除大片段的过程多聚腺酸化(polyadenylation)指用一段大约由250个腺嘌呤(A)组成的序列替换hnRNA3端的过程,这段序列不被翻译。可变剪切 大部分真核基因被加工成一种类型的剪接后mRNA,约有20%的人类基因因为可变剪接而产生两种或多种的人类基因因为可变剪接而产生两种或多种mRNA序列序列 有一个人类基因已被证明,相同的原始转录物可以产生64种不同的mRNA 外显子的相互排斥: 小鼠肌钙蛋白T基因的外显子2和3是相互排斥的,外显子2用在平滑肌

6、中,而外显子3用于其他所有组织中 剪接装置: 由多种细胞核内小RNA和一些蛋白组成,不同的细胞类型中可不同RepressorRepressor stops splicing that would otherwise occurActivatorActivator initiates splicing that otherwise wouldnt occurBasic MechanismAlternative splicingWith a few genes, alternative splicing generates more than one mRNA from the primary t

7、ranscript.Exons, or parts of exons, may be skipped.二 重复序列 重复序列是指多拷贝的相同或近似序列的DNA片段。 重复序列一般可以分为两类: 高度重复序列和中度重复序列 串行重复DNA和分散在整个基因组中的重复片段1 高度重复序列:卫星卫星DNA、小、小/微卫星微卫星 重复频度105。 在真核生物基因组中,约有45%60%的DNA中G:C碱基对含量较高,相对浮力密度大,将DNA打碎后,进行密度梯度超离心分离,可见一主峰和12个小峰,这种小峰被看成是主峰的卫星,称为卫星DNA,它是多种短重复序列的混合物。 根据卫星DNA的长度,又可分成3种。卫

8、星DNA(satellite DNA): 其重复序列长度在5 bp 200 bp,串联排列,通常存在着几百万个拷贝,总长度最长可达100 Mb, 它们主要存在于异染色体以及中心粒和端粒附近,通常不转录。小卫星小卫星DNA(mini-satellite DNA):): 重复序列长度在重复序列长度在1570 bp之间,串联排列,总长度在之间,串联排列,总长度在0.5 kb 30 kb 主要分布于常染色体,在人群中有高度的多态性(也即主要分布于常染色体,在人群中有高度的多态性(也即有高度的特异性或拷贝的多态性)。有高度的特异性或拷贝的多态性)。微卫星微卫星DNA(micro-satellite DN

9、A) 由26个核苷酸长的重复序列组成,又称为简单串联重复序列(simple tandem repeats STRs) 以(CA)n、(GT)n、(CAG)n较常见,重复次数多为1560次,总长度一般在400 bp以下。 存在于常染色体,除着丝粒及端粒区域外, 微卫星DNA在染色体的其他区域均广泛均匀分布。很随机地分布在整个基因组中,而不像卫星或小/微卫星那样串联成簇存在 微卫星DNA在基因组中的功能尚不清楚,已知其有自身特异结合蛋白,是一种非常活跃的碱基序列, 且能直接编码蛋白质; 另外,微卫星DNA能参与遗传物质的结构改变,染色体折叠及端粒形成,是基因重排和变异的来源, 通过改变DNA结构或

10、与特异性蛋白质结合而发挥其基因调控作用。 在人类基因组中,由CA重复序列构成的微卫星如5-CACACACACACA-3大约每1万bp出现一次,占整个基因组的0.5%(总共15Mb),而单碱基重复(即5-AAAAAAAA-3)占人类基因组的0.3%微卫星的产生机理 大多认为是DNA复制和修复过程中的复制滑脱复制和修复过程中的复制滑脱( replication slippage ),滑链错配滑链错配(slipped-strand mispairing)或染色体减数分裂时姊妹染色单体不均等交染色体减数分裂时姊妹染色单体不均等交换换的结果。 微卫星DNA的核心序列是高度保守的,而微卫星DNA本身的重复

11、单位变异则是形成多态性的基础,其高度多态性主要表现在核苷酸重复单位数目的多态性和重复序列中核苷酸的替换多态性。 重复单位数目的多态性是由于STR在精子和卵子产生时,以及在生殖细胞减数分裂过程中发生不相等的交叉重组造成的。 由于这种不相等的交叉重组,使STR的长度在每一个个体中有差别,这也是进行DNA指纹分析的基础。 中度重复序列 由较大的片段(由100 bp到几千bp)串联重复组成,分散在整个基因组中,重复频度不等 一般具有种属特异性,可作为DNA标记 有多种类型的中度重复序列,其表达产物常是细胞大量需要的,如rRNA、tRNA和组蛋白等。1、rRNA基因 真核生物的rRNA有28s、18s、

12、5.8s和5s 4种,其中28s、18s和5.8s 3种的编码基因串联排列,组成一个转录单位,在人类基因组中约有300个拷贝,分布在13、14、15、21和22号染色体上。 在每个转录单位的各种rRNA编码基因间都有一个基因间隔区,在28s rRNA基因中还存在插入序列,在转录时一并转录,形成rRNA前体,经转录后加工,切除间隔区,插入序列等加工成3种成熟的rRNA。 5s rRNA基因单独为一个转录单位,在人类基因组中约有2000个拷贝, 位于1号染色体。rRNA基因可以作为一种遗传标志,在分子遗传学中有重要的意义。2、tRNA基因: 每一种tRNA基因的拷贝数有几十到几百个。同一种tRNA

13、基因常常串联在一起排列成基因簇,各个编码tRNA基因之间也有间隔区 有的tRNA基因编码序列中插入有内含子3、Alu家族:家族: 每个长度约300bp,富含CG,因在其第170bp处有一个限制性内切酶Alu I(AGCT)的位点而得名 占人类基因组的3%6%,Alu家族分散于整个基因组的间隔序列中,多位于一些编码基因的5端和3端的远端,个别的也有存在于内含子中。 Alu序列具有种属特异性,其功能可能与hnRNA的加工成熟,DNA复制及转录调节有关。三、基因家族(gene family) 在真核细胞编码蛋白质的基因中,约有25%50%是以单个基因存在于基因组中。而剩余的基因都有2个或2个以上序列

14、相似而又不全相同的基因。 是一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基因经重复和突变产生,这一组基因就称为基因家族,被其编码的同源蛋白称为蛋白质家族,具有相似的功能。 基因家族有大有小,从几个到几十个,少数情况可有几百个,称为超级家族。珠蛋白和组蛋白基因家族是研究得最多的例子。组蛋白基因家族组蛋白基因家族四 移动基因 转座子(transposon) 插入序列(insertion sequence)(末端反向重复中间的编码转座酶基因),转座酶促使对应的转座子以保守(重复拷贝的数目没有变化)或复制(拷贝数增加)的方式从基因组的一个部位插入到另一个部位(转座)。 复合转座子(指I

15、S元件其他基因) Tn3型转座子(一般以复制的方式转座) 可转座的噬菌体(将复制性转座作为它们正常感染周期一部分的病毒) 人类基因组中的DNA转座子数少于1000。 真核转座子mariner长1250bp,最早是在果蝇中发现的,但现在包括人类在内的多种真核生物中都发现了这种转座子。Replicative Transposition; Tn3Element encodes a transposase for transposition, a repressor that regulates the transposase and an antibiotic resistance geneAgai

16、n, the ends of the element are critical for movementReplicative Transposition五 人类基因组n 人类基因组概貌:人类基因组概貌:人类基因组结构大编码蛋白质的结构基因比例极少作为真核生物,人类基因组也具有真核生物基因组的一般结构特点 假基因 CpG岛 甲基化等。 2 假基因根据是否保留相应功能基因的间隔序列(如内含子),分两大类: 保留了间隔序列,称为复制型假基因( duplicated pseudogene),通常因基因的复制修饰,如点突变、插入、缺失和移码突变而导致复制后的基因在转录和翻译时出现异常,丧失正常功能,它

17、与功能基因通常在同一条染色体上,也称非加工假基因(non-processed pseudogene) 。 缺少间隔序列的已加工假基因(processed pseudogene),主要是转录过程中mRNA以cDNA的方式重新整合进入基因组(很可能发生在生殖细胞中),在长期进化选择过程中因为随机突变积累而丧失功能。已加工假基因序列两边有小的侧翼定向重复序列(flanking direct repeat) ,3端多具多聚腺苷酸尾。目前已知人类基因组上的假基因,数目估计约在20 000个以上,呈现极不均一分布。意义:一些在医学中非常重要的人类基因也有假基因,这可能干扰疾病的诊断和治疗,系统和准确地对基

18、因组上假基因进行分类有助于对功能基因的预测和研究。3 DNA甲基化 是哺乳动物DNA最常见的复制后调节方式之一,由甲基转移酶介导,将胞嘧啶(C)转变为5甲基胞嘧啶(5mC)。 DNA甲基化与基因表达呈负相关,即基因在它不表达的组织中被甲基化,而在特异表达的组织中非甲基化。 甲基化一方面可在发育和分化中调控基因表达,还可中和潜在的危险的DNA序列,如外源病毒和转座子等。 DNA甲基化调控基因表达直接的机制:调控基因表达直接的机制: 可能是因为甲基从DNA分子的大沟中突出,阻止了转录因子与基因相互作用, 还可能直接抑制RNA聚合酶活性而抑制基因的表达。 DNA甲基化是肿瘤中最常见的一种分子改变,包

19、括基因组总体甲基化水平降低和某些基因启动区域的高甲基化(hypermethylation)。 基因组总体甲基化水平降低导致染色体的不稳定 发生于细胞周期调控基因、DNA 修复基因、血管形成基因及细胞凋亡基因相应的CpG 岛的甲基化,则引起转录沉默(silencing),进而促进了肿瘤细胞形成。 4 CpG岛 CG两联核苷酸的出现频率低: CG两联核苷酸的出现频率仅为其随机出现频率的20% 许多人类基因5端的12kb片段中发现CpG岛: 这些CpG岛一般跨越-1500500,并且其CpG密度达到随机预测的水平。 CpG岛的意义: CpG与已知转录增强子如Sp1等的结合位点有关 人类基因组大约有4

20、5000个CpG岛,有一半左右与已知的管家基因关联,其余的CpG岛有许多和组织特异性基因的启动子相关联 CpG岛很少出现在不含基因的区域或那些发生多次突变的基因中 兔类球蛋白基因族:人类基因组富含GC的一组组织特异性基因。对应基因的区域用黑色框来表示,而兔基因组中主要短散布元件的拷贝(C重复)用数字标注并表示为黑色箭头。 下一幅图显示200bp滑动窗口中出现核苷酸G或C的频率。 底部两附图表示200bp滑动窗口中两联核苷酸CpG和GpC和出现次数。在-1球蛋白基因的5端都出现了CpG岛。另外两联核苷酸5-GC-3的出现次数一般比CpG高,这是因为CpG易被甲基化而发生突变。5. 人类基因组的多

21、态性及在分子诊断中的应用短串联重复序列短串联重复序列 ( short tandem repeat , STR): STR在人类基因组内分布广泛,平均每15 kb20 kb就有一个STR位点,占基因组的10% 多存在于非编码区及内含子中,具高度多态性且信息量大,检测快速,成为非常重要的一种遗传标记。STR的主要用途:的主要用途: 人类基因遗传图谱的制作。 目的基因筛选和基因诊断。若目的基因与STR位点邻近且有连锁关系,可通过对STR附近区域克隆测序而发现目的基因。通过家系和对照研究,运用连锁和相关分析,可以找到与疾病高度相关STR位点。1993年首先发现肝脏苯丙氨酸羟化酶(phenylalani

22、ne hydroxylase,PHA)基因内含子3中,有STR位点(TCTA)存在于约700bp处,通过连锁分析可对PKU患者进行产前基因诊断。 法医学个体识别和亲权鉴定。法医案例中,特别对量极少和降解严重的生物检材,通过PCR扩增STR位点并将几个STR位点联合起来分析,可得到相当高的累积个体识别率和父权排除率,可为司法侦案、破案提供有利的科学依据。 STR在医学的意义: STR位点的不稳定性与疾病的相关性是研究热点,STR主要以三核苷酸为重复单位,如果父母本的某个或某些STR重复次数超过正常个体的上限,处于一种前突变状态,则易造成后代相应位点核心序列重复数目急剧增加。已发现有8种人类遗传性

23、疾病与此相关,如脆性X 综合症、重症肌无力(myasthenia gravis)、Huntington 舞蹈症(Huntingtons chorea disease)等。 STR与肿瘤关系密切。1990年在遗传性非息肉性结肠炎中发现,与正常组织比较,肿瘤组织中STR拷贝数发生明显变异,在胃癌、食道癌、乳腺癌及肺癌等多种肿瘤中均发现STR不稳定现象,使STR成为肿瘤检测的重要手段。单核苷酸的多态性 单核苷酸的多态性( single nucleotide polymorphism, SNP): 是因单个碱基的变异(主要是置换,也有缺失和插入)引起的DNA序列多态性,在特定核苷酸位置上存在两种不同的

24、碱基,其中最少一种在群体中的频率不小于1%。 人类基因组中每3001000个核苷酸就有一个SNP,占所有已知多态性的90%以上。 尽管遗传密码由4种碱基组成,但SNP通常是二等位基因(biallelic)的,CG序列出现最为频繁,大多是C转变为T,原因是CG中C常为甲基化的、自发地脱氨后即成为胸腺嘧啶。 SNP在单个基因或整个基因组中的分布不是均匀的,由于选择压力等原因,SNP在非转录序列中要多于转录序列,而且在转录区也是非同义突变的频率比其它方式突变的频率低得多。 在蛋白质编码区的SNP被称为基因编码区SNPs(Coding-region SNPs,cSNPs),与蛋白的功能有关,在功能或致病方面具重要意义。ATGCACACACACACACACATGCACACACACACACACACACAType of variation Type of variation among populationamong populationSNPSNPSTRSTRSNP主要用途有: 疾病的连锁分析与基因的定位,包括复杂疾病(如骨质疏松症、糖尿病、心血管疾病、肿瘤等)的基因定位、关联分析,并可用于遗传病的单倍型诊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论