第三章 基因与基因组_第1页
第三章 基因与基因组_第2页
第三章 基因与基因组_第3页
第三章 基因与基因组_第4页
第三章 基因与基因组_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 基因与基因组 第一节 基因概念的历史演变 第二节 DNA 与基因 第三节 真核生物的割裂基因 第四节 基因大小 第五节 重叠基因 第六节 真核生物的基因组 第七节 真核生物 DNA 序列组织 第八节 细胞器基因组 第九节 基因鉴定 第十节 人类基因组计划 第三章 基因与基因组 1 基因(gene)的概念 基因是遗传的功能单位,DNA 分子中不同排列顺序的 DNA 片段构成特定的功能单位; 含有合成有功能的蛋白质多肽链或 RNA 所必需的全部核苷酸序列。 广义地说,基因是有功能的 DNA 片段。 第一节 基因概念的历史演变 2 基因概念的历史演变: (1)Mendel 提出基因的存在 (2)Morgan 证实基因在染色体上 (3) “一个基因一个酶”修正为“一个基因一个多肽链” “基因”一词的创立: 1909 年,丹麦遗传学家约翰逊 “基因” (gene) 。 Gregor Mendel Thomas Hunt Morgan 3 基因概念的理论基础 3.1 一个基因一个酶 1941 年 G W Beadle 和 E L Tatum 研究证实红色链孢霉各种突变体的异常代谢是一种酶的缺陷,产生这种酶缺陷的原因是单 个基因的突变。 3.2 一个基因一条多肽链 本世纪 50 年代, Yanofsky 有些蛋白质不只由一种肽链组成,如血红蛋白和胰岛素,不同肽链由不同基因编码,因而 又提出了“一个基因一条多肽链”的假设。 3.3 基因的化学本质是 DNA(有时是 RNA) 1944 年, O T Avery 证实了 DNA 是遗传物质。 有些病毒只含有 RNA。 1953 年沃森和克里克建立 DNA 分子的双螺旋结构模型。 3.4 基因顺反子(Cistron)的概念 1955 年,美国本兹尔(Benzer)提出顺反子的概念: 是指编码一个蛋白质的全部组成所需信息的最短片段,即一个基因。 基因仅是一个功能单位,基因内部的碱基对才是重组单位和突变单位。 一对同源染色体上两突变(a 和 b)在同一染色体上 时, 称为 顺式构型, 在两个染色体上时,为反式构型; 顺反互补测验(cis-trans test):比较顺式和反式构型个体的表型来判断两个突变是否发生 在一个基因(顺反子)内的测验。 测验时,两突变发生在同一基因上,杂合体就不存在野生型的基因,因而为突变体表型; 如果两突变在两个不同的基因上,后代杂合体中将有一个基因是野生型的,另外一个基因 是突变型,杂合体的表型成了野生型。这两个基因的这种关系称为互补。 反式排列:用于互补测验中所用的两个突变型,如果分别位于两条染色体上,这种组合方 式称为反式排列, 顺式排列:如果两个突变同时位于一条染色体上,则称为顺式排列。 顺反子:将不同突变之间没有互补的功能区称为顺反子,顺反子就是一个功能水平上的基 因。 4 新的发现 概念 断裂基因 重叠基因 跳跃基因 可转录、可翻译的(乳糖操纵子结构基因 Z,Y,A ) 可转录但不翻译 (tDNA, rDNA ) 不转录、不翻译 (promoter, operator ) 5 基因的类型 2 DNA 中的编码区与间隔区 1)编码区:与蛋白质中氨基酸序列相应的核苷酸序列。 2 )间隔区:基因序列外,没有编码功能序列。 3)转录单位的组成: 启动子,上游调控区,基因编码区,转录终止序列 4)假基因:在序列上与活性的基因相似,但不能转录或翻译生成成熟 mRNA 或蛋白质,或 产生过早终止的无活性肽链,或由于错误的阅读框架形成无活性的蛋白质。 第三节 真核生物的割裂基因 1 割裂基因(splitting gene) 不连续基因(discontinuous gene ) 断裂基因(interrupted gene) 本世纪 70 年代,Chambon 和 Berget。通过成熟 mRNA(或 cDNA)与编码基因的 DNA 杂交试 验而发现。 割裂基因:基因的编码序列在 DNA 放在上不是连续的,而是被不编码的序列隔开。 外显子 Exon :基因中编码的序列,与 mRNA 的序列相对应。 内含子 Intron :基因中不编码的序列。 鸡的卵清蛋白基因 DNA 与其 mRNA 杂交图 剪接: 前体 RNA 中由内含子转录下来的序列去除,并把由外显子转录的 RNA 序列连接起 来的过程。 2 割裂基因的性质: 1)外显子在基因中的排列顺序和它在成熟 mRNA 产物中的排列顺序是相同的, 2)某种割裂基因在所有组织中都有相同的内含子成分, 3)核基因的内含子的可读框通常含无义密码子,没有编码功能。 3 割裂基因的普遍性 b) 原核生物 中: SV40 大 T 抗原 gene 小 t 抗原 gene 1984 Dr. Chu T4 phage 的胸苷合成酶 gene 1017 bp intron Splitting gene 并非真核生物所特有 酵母成熟酶合成受 intron II 的自动控制 maturase 过剩 利用 intron II 编码成熟酶 maturase 减少 提前剪切 intron II a) Intron 并非“含而不露” Yeast 细胞色素 b 基因 Intron II 编码成熟酶(Maturase ) 4 割裂基因概念的相对性 c) 并非真核生物所有的结构基因均为 splitting gene 不是 splitting gene b) Exon 并非“表里如一” 人类尿激酶原基因 Exon I 不编码 氨基酸序列 Histone gene family 干扰素 Yeast 中多数基因(ADH) (果蝇 ADH 乙醇脱氢酶 基因为间隔基因) 第四节 基因大小 取决于它所包含的内含子的长度 取决于所包含的内含子的数目 不同生物的外显子数目随着进化增加,基因平均长度也在增加。 在进化相关的相似组织的基因,其外显子基本一致,内含子的位置也是保守的,只是长度 有变化。 基因的大小 第五节 重叠基因 1977 年 维纳(Weiner) 1978 年 费尔(Feir)和桑戈尔(Sanger) 噬菌体 G4、MS2 和 SV40 中都发现了重叠基因 基因的重叠 果蝇蛹上皮蛋白质基因位于另一个基因的内含子之中 人 I 型神经纤维瘤(NF1)基因的第一个内含子中有三个编码蛋白质的基因, 线虫基因组中每个基因平均有 5 个内含子,有的内含子中包含 tRNA 基因, 以上这些重叠基因的转录方向不一定与包含它的基因的转录方向一致两个重叠基因的 转录是各自独立、互不依赖。 第六节 真核生物的基因组 基因组(genome):真核基因组是指一个物种单倍体的染色体所携带的一整套基因。 比如人基因组的全长为大约 3 X 109 对碱基,编码 3-4 万个蛋白分子 1 真核生物的基因组: 与预期的编码蛋白质的基因的数量相比,基因组的 DNA 含量过多 例:人类与 E.coli 编码基因数目的比较研究 E.coli. 4.2 X 106bp DNA 约编码 3000 种基因 人类 3.3 X 109 bp 的 DNA 是大肠杆菌的 700 多倍 有上百万个基因? 根据不同细胞中的 mRNA 数目来估算表达基因的方法, 人类编码基因约为 3-4 万个 持家基因(housekeeping gene):有些基因是在所有的细胞类型中都表达的,即这些基 因的功能为所有细胞所必须(或称组成型基因 constitutive gene) 奢侈基因(luxury gene): 仅在某种特定类型的 细胞中表达的基因 约为大肠杆菌的 30 倍,那么 90以上的 DNA 功能何在?? 果蝇基因组的基因 原核生物与真核生物基因组的特点 原核生物基因组的特点: 1)原核生物的基因组很小,DNA 含量低; 2)原核生物 DNA 不和蛋白质固定结合,一般不具有核小体结构; 3)原核生物的基因组内绝大部分序列用于编码蛋白质。 4)功能上密切相关得到基因高度集中形成一个功能转录单位,可以转录形成含有多个蛋白 质分子的一个 mRNA 单元。 5)重复序列少,具重叠基因; 真核生物基因组的特点: 1)真核生物基因组的分子量大 2)真核生物的 DNA 一般与蛋白质结合成染色体。 3)转录和翻译在细胞中不同的位置进行。 4)基因组 DNA 的大量序列不编码蛋白。 5)真核生物的蛋白编码基因往往以单拷贝存在。 2 基因组大小和 C 值 C 值 (C Value):在每一种生物中其单倍体基因组的 DNA 总量是特异的。 DNA 的长度是根据碱基对的多少推算出来的。 C 值是每种生物的一个特征,不同生物之间差别很大 低等真核生物中与形态学复杂程度相关,但高等真核生物中变化很大 C 值矛盾(C-value paradox) C 值悖论:C 值和生物结构或组成的复杂性不一致的现象。 高等生物的 C 值不一定就意味着它的 C 值高于比它低等的生物。 3 基因组的基因数目 第七节 真核生物 DNA 序列组织 DNA 复性过程遵循二级反应动力学 DNA 复性过程中单链消失的速度用公式表示: -dC/dt=kC2 1 DNA 的复性动力学 反应初始 t = 0 单链 DNA 浓度 = C0 反应达 t 时 单链 DNA 浓度 = Ct K复性速度常数 DNA 复性的影响因素: DNA 序列的复杂性、初始浓度、片段大小、温度、离子强度 - dCt / dt = KC02 积分 Ct / C0 = 1 / (1+KC0t ) 当 Ct / C0 = 1/2 时的 Cot 值定义为 Cot1/2 Ct / C0 = 1/2 = 1 / (1+ KC0t(1/2) K = 1 / Cot(1/2) C0t(1/2)值对 DNA 具有特征性,其中与 DNA 的碱基对数目成反相关 即复性反应完成一半时 Ct/C0 是 C0t 的函数, 按此公式作图得 C0t 曲线 Cot 曲线:用以表示复性速度与 DNA 顺序复杂性的关系。 不同 DNA 的 Cot(1/2)值不同,与 K 值相关 DNA 序列的复杂性影响 K 值:在控制反应条件(初始浓度、温度、离子强度、片段大小) 相同的前提下, 两种 DNA 分子的 C0t(1/2)值, 取决于核苷酸的排列复杂性 。 DNA 序列的复杂性(complexity) X:最长的没有重复序列的核苷酸对的数值。 X= K Cot1/2 AAAAAAAA X = 1 ATCGATCGATCG X = 4 N 105 X = 105 Cot(1/2) = 1/K 形状相似(跨越 2-3 个数量级) ,Cot(12)不相同 单一序列 只是复杂性不同 高度重复序列 Cot(1/2)值小 单一排列序列 Cot(1/2)值大 poly(A) X=1 Cot(1/2)=2x10-6 T4 X=1.7x105 Cot(1/2)= 0.3 不同原核生物的 Cot 曲线 复性分数(1-c/c0) P74 图16 真核生物复性动力学研究 复性曲线的模式图 复性反应分为三相,每相代表不同复杂长度的序列类型 Cot1/2 所占比例 复杂性 X 重复频率 2 重复序列(repetitive sequences) 真核生物复性动力学研究发现了重复序列 单拷贝序列 轻度重复序列 中度重复序列 高度重复序列 1)单拷贝序列(single copy sequences) 又称非重复序列: 一个基因组中只有一个拷贝。 单一序列的复性曲线常只有一个拐点,而重复序列常有多个拐点。 结构基因 (蛋白质基因)大多是单拷贝。 2)轻度重复序列(light repetitive sequences) 在基因组中重复数 2-10 的重复顺序, 为慢复性速度。 少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。 多为编码功能 3)中度重复序列(moderate repetitive sequences) 基因组中重复数十至数万(105)次的重复顺序, 复性速度快于单拷贝顺序,慢于高度重复顺序。 多与单拷贝基因间隔排列。 多为非编码序列,如 Alu 序列 也有编码基因产物的,如 rDNA、tDNA、Histone gene cluster, 一般往往以基因家族的形式 组织。 4)高度重复序列(highly repetitive sequences) 在基因组中重复频率高,可达百万(106)以上, 复性速度很快。 序列一般较短,长 10-300bp, 如真核生物的卫星 DNA。 不同生物的非重复基因占基因组的比例差别很大; 原核生物无重复序列 低等真核生物 10-20% repetitive sequence 高等植物 80% 高等动物 50% 3 真核生物的单一序列 单拷贝顺序在基因组中占 50-80, 平均长度为 13000bp 单拷贝顺序储存了巨大的遗传信息。 4 真核生物的重复序列 基因家族(有编码功能) 基因外的重复 DNA 序列(无编码功能) 4.1 基因家族 4.1.1 基因家族和基因簇 基因家族(gene family):真核生物基因组中来源相同,结构和功能相关的基因聚集在 一起形成基因家族。 根据分布形式分基因簇和散布的基因家族: 1)基因簇(gene cluster) 基因家族的各个成员紧密成簇排列成大段的串联重复单位,分布在某一条染色体的特殊区 域; 它们可同时发挥作用,合成某些蛋白质。 假基因(pseudo gene):在多基因家族中,某些成员并不产生有功能的基因产物。 假基因与有功能的基因同源。 2)散布的基因家族(interspersed gene family) 概念:一个基因家族的不同成员成簇地分布不同染色体上,各成员在序列上有明显差异。 这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。 4.1.2 广义的基因家族 根据基因家族成员序列的相似程度分类: 1)经典的基因家族,家族成员序列有高度的同源性,序 列一致,拷贝数高,非转录间隔 区短而一致。 2) 基因家族各成员的编码产物保守(大段的高度保守氨基酸序列) ;只是 DNA 序列的相似 性低。 3)基因家族各成员的编码产物之间只有很短的保守氨基酸序列,DNA 序列的相似性更低。 4)超基因家族,各基因序列之间无同源性,但其基因产物的功能相似。编码产物之间也无 明显的保守氨基酸序列,但也有一些共同特征。 4.2 基因外的重复序列 即为无编码功能的重复序列 4.2.1 串联重复 DNA-卫星 DNA(高度重复序列) 4.2.2 散布的重复 DNA 4.2.1 卫星 DNA (satellite DNA) 特点: 高度重复序列, 重复单位由 2-10bp 组成, 成串排列。 卫星 DNA:将 DNA 切成数百个碱基对的片段进行超速离心,简单高度重复序列区段浮力 密度较小,很容易和总体 DNA 分开,在主要的 DNA 带的上面伴随一个次要带。 CsCl 离心 卫星 DNA 的分类 (1) 卫星 DNA:长串联重复序列,位于染色体上的异染色区域。 (2) 小卫星 DNA 重复序列(minisatellite) :中等大小的串联重复序列,位于染色体末端,或 其他部位。 高变小卫星 DNA:重复单位之间的序列差异大,但是有一个核心序列 GGGCAGGAXG, 近端粒部位; 端粒 DNA: 主要有六个串联重复单位组成 TTAGGG 卫星 DNA 的分类 (3) 微卫星 (microsatellite, MS) 或为简短串联重复(STR, short tandem repeats ): 由更简单的重复单位组成的小序列,一般为 26 个碱基重复,如(CA)n, (GT)n, (CAG)n 等, (CA)n 最为常见。 在染色体 DNA 中散在分布, 其数量可达五到十万, 是目前最有用的遗传标记。 4.2.2 散布的重复 DNA 重复单位不成簇,分散在染色体的各个位点上。 1)短分散片段 2)长分散片段 1)短分散片段(short interspersed repeated segments, SINES) 特点: 长度约为 300bp, 与长度约 1000bp 的单拷贝顺序间隔排列。 拷贝数可达 10 万左右。 如人的 Alu 家族。 Alu 家族: Alu 家族是哺乳动物包括人基因组中含量最丰富的一种中度重复顺序家族,在单倍体人基 因组中重复达 30 万-50 万次,约占人基因组的 3-6。 长度约 300bp, 含有限制性内切酶 Alu 的切点(AGCT) 。 具有种的特异性。 相近的生物体中存在相似性, Alu 顺序很象转座子,每个 Alu 顺序两侧为 6-20bp 的正向重复顺序。 功能: 可能参与 hnRNA 的加工与成熟。 与遗传重组及染色体不稳定性有关。 有形成 Z-DNA 的能力。 可能具有转录调节作用。 还有许多其它家族如: Kpn家族、 Hinf 家族、 多聚 d-d家族等。 2)长分散片段(long interspersed repeated segments, LINES) 重复顺序的长度大于 1000bp,平均长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论