版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026/4/231第三章基因、基因组和基因组学
基因的化学本质是DNA,它是遗传信息的物质载体,传递着支配生命活动的指令,是构建生物体蓝图中的一页,也是可以人工操作用于改造生命属性的元件。2026/4/232
基因组是指生物体的细胞中一套完整的遗传信息,包括所有的基因和基因间区域。
专门研究基因组结构和功能的学科,称为基因组学,它主要通过基因组作图、基因测序和基因定位等方法来研究基因组结构和变异。2026/4/233第一节基因的概念一、对基因的认识对基因的认识和研究大体上可以分为三个阶段:1)在20世纪50年代以前,主要从细胞的染色体水平上进行研究,属于基因的染色体遗传学阶段;2)50年代以后,主要从DNA大分子水平上进行研究,属于基因的分子生物学阶段;2026/4/2343)最近20多年来,由于重组DNA技术的完善和应用,人们改变了从表型到基因的传统研究途径,而能够直接从克隆目的基因出发,研究基因的功能及其与表型的关系,使基因的研究进入了反向生物学阶段。反向生物学是指利用重组DNA技术和离体定向诱变的方法研究结构已知基因的相应功能,在体外使基因突变,再导入体内,检测突变的遗传效应,即以表型来探索基因的结构和功能。2026/4/235二、基因概念的扩展分子生物学和分子遗传学的不断发展,特别是DNA分子克隆技术、DNA序列的快速测定,以及核酸分子杂交技术等现代实验手段的不断涌现,为进一步深入研究基因结构和功能提供了条件,“移动基因”、“断裂基因”、“假基因”、“重叠基因”等有关基因的新概念,丰富了对基因本质的认识。2026/4/2361、移动基因移动基因(movablegenes)又称转位因子(transposableelements)。由于它可以从染色体基因组上的一个位置转移到另一个位置,甚至在不同染色体之间跃迁,因此也称跳跃基因(jumpinggenes)。2026/4/237转位和易位是两个不同的概念。易位是指染色体发生断裂后,通过同另一条染色体断端连接转移到另一条染色体上。此时,染色体断片上的基因也随着染色体的重接而移动到新的位置。转位则是在转位酶的作用下,转位因子或是直接从原来位置上切离下来,然后插入染色体新的位置;或是染色体上的DNA序列转录成RNA,随后反转录为cDNA,再插入染色体上新的位置。这样,在原来位置上仍然保留转位因子,而其拷贝则插入新的位置,也就是使转位因子在基因组中的拷贝数又增加一份。2026/4/2382、断裂基因或不连续基因通过对真核生物编码基因的研究发现,在编码序列中间插有与氨基酸编码无关的DNA间隔区,这些间隔区称为内含子(intron)、内元、介入序列或间隔子;而编码区则称为外显子(exon)、外元或表达子。含有内含子的编码序列称为不连续基因或断裂基因(splitgenes)。2026/4/239断裂基因最早是在腺病毒中发现的。Sharp及其同事在R-噜噗(R-loop)实验中发现,腺病毒的hexon基因在与其相对应的成熟转录产物mRNA进行杂交时,会出现DNA噜噗环(图3-1)。说明:mRNA分子与其模板DNA相比,丢失了一些基因片段。后来证实,这些片段是在mRNA加工过程中从初级转录本上被“剪切出去”的。2026/4/23102026/4/2311内含子的起源和它存在的生物学意义是一个极其诱人的研究课题,但是目前还不完全清楚,可能与基因的分子进化相关。2026/4/2312断裂基因在表达时首先转录成初级转录产物,即前体mRNA或核内不均一RNA(hnRNA);然后经过删除和连接,除去无关的DNA内含子序列的转录物,称为成熟的mRNA分子。这种删除内含子、连接外显子的过程,称为RNA拼接(RNAsplicing)(图3-2)。2026/4/23132026/4/2314例外:现在已经知道,并非所有的内含子都“含而不显”。有些内含子可以编码蛋白质,这些蛋白质的功能与内含子序列的删除或传播扩散相关。如1980年,Church等人发现酵母线粒体细胞色素氧化酶基因的内含子产物是该基因mRNA前体进行拼接的反式作用因子。2026/4/2315真核生物的外显子也并非都“显“(编码氨基酸)。除了tRNA基因和rRNA基因的外显子是理所当然地不显以外,几乎全部的蛋白质基因的首尾两个外显子都只有部分核苷酸序列编码氨基酸,还有完全不编码氨基酸的外显子(如人类尿激酶基因的第一个外显子的88个核苷酸序列)。2026/4/23163、假基因有些基因核苷酸序列与相应的正常功能基因基本相同,但却不能合成出功能蛋白质,这些失活基因称为假基因(pseudogene),通常用ψ表示。1977年在爪蟾的5S基因家族中首先发现了假基因。以后在珠蛋白基因家族、免疫球蛋白基因家族以及组织相容性抗原基因家族中也都发现了假基因。2026/4/2317如:珠蛋白基因编码血红蛋白的珠蛋白链,人类珠蛋白基因由分别位于不同染色体上的两个相关的基因家族(α和β)组成,其中,人类的β簇分布在50kb范围的DNA上,包含5个有功能的基因(ε,两个γ,δ,β)和一个假基因ψβ1。两个γ基因只有一个氨基酸的差别,第136位在γG中为Gly,而在γA为Ala。2026/4/2318α簇含有3个功能基因,3个假基因和1个未知功能的θ基因,排列顺序为ξ、ψξ、ψα2、ψα1、α2、α1、θ(图3-3)。序列分析表明,ψα1基因同三个有功能的α-珠蛋白基因DNA序列相似(ψα1基因同有功能的α2基因的序列相似性为73%),只是假基因中含有很多突变,如起始密码子ATG变成GTG;5’端的两个内含子也有突变,可能导致RNA拼接的破坏;在编码区内也存在许多点突变和缺失。2026/4/23192026/4/2320假基因的来源:来源一:ψα1假基因被认为是由α-珠蛋白基因复制产生的:开始复制生成的基因是有功能的,后来在进化中产生了一个失活突变。由于该基因是复制产生的,所以尽管失去了功能,但是不至影响到生物体的存活。随后在假基因中又积累了更多的突变,从而形成了现今的假基因序列。2026/4/2321除了重复的假基因外,在真核生物的染色体基因组中还存在着一类加工的假基因(processedpseudogene)。这类假基因不与“亲本基因”连锁,结构与转录本而非“亲本基因”相似,如都没有启动子和内含子,但在基因的3’端都有一段延伸的腺嘌呤短序列,类似mRNA3’末端的polyA尾巴。这些特征表明(假基因的来源二):这类假基因很可能来自加工后的RNA的DNA拷贝,称为加工的假基因。2026/4/23224、重叠序列传统的基因概念把基因看作彼此独立的、非重叠的实体。但是,随着DNA测序技术的发展,在一些噬菌体和动物病毒中发现,不同基因的核苷酸序列有时是可以共用的。也就是说,它们的核苷酸序列可以是彼此重叠的。这种具有独立性但使用部分共同序列的基因称为重叠基因(overlappinggenes)或嵌套基因(nestedgenes)。2026/4/2323如:大肠杆菌ΦX174噬菌体单链DNA共有5387个核苷酸。如果使用单一的读码结构,它最多只能编码1795个氨基酸。按每个氨基酸的平均分子量为110计算,该噬菌体所合成的全部蛋白质总分子量最多为197000。2026/4/2324但实际测定发现:ΦX174噬菌体共编码11种蛋白质,总分子量高达262000。如何设计实验解释?1977年,Sanger等人测定了ΦX174噬菌体的核苷酸序列,发现它的一部分DNA能够编码两种不同的蛋白质,从而解释了上述矛盾。2026/4/2325根据Sanger等人的研究,ΦX174噬菌体DNA中存在两种不同的重叠基因:第一种是一个基因的核苷酸序列完全包含在另一个基因的核苷酸序列中。例如,B基因位于A基因之中,E基因位于D基因中,只是它们的读码结构不同,因此编码不同的蛋白质(图3-4)。2026/4/2326第二种类型,两个基因的核苷酸序列的末端密码子相互重叠。例如,A基因终止密码子的3个核苷酸TGA,与C基因的起始密码子ATG相互重叠了2个核苷酸;D基因的终止密码子TAA与J基因的起始密码子ATG重叠了一个核苷酸。后来在G4病毒的单链环状DNA基因组中还发现三个基因共有一段重叠的DNA序列。2026/4/2327不仅在细菌、噬菌体和病毒等低等生物基因组中存在重叠序列,在一些真核生物中也存在不同于原核生物的其它类型的重叠序列。有一种特殊的重叠基因,一个基因的编码序列完全寓居于另一个基因的内含子序列中。例如果蝇的GART基因(该基因编码参与嘌呤生物合成的酶蛋白)的内含子中寓居着一个与之无关的编码蛹角质膜蛋白(cuticleprotein)的基因,但是它的转录方向与GART基因相反。2026/4/2328重叠基因是近年来在基因结构与功能研究上的一个非常有意义的发现。它修正了关于各个基因的多核苷酸序列彼此分立、互不重叠的传统观念。目前在ΦX174噬菌体、G4噬菌体以及一些病毒和少数真核基因中发现了重叠基因的现象。但是,它是否具有普遍意义,特别是在真核生物中是否广泛存在,都还有待于进一步深入研究。2026/4/2329三、基因的种类和结构1、基因的种类基因按其功能主要分为结构基因、调控基因和RNA基因。(1)、结构基因(structuregene):结构基因是能决定某些多肽链(蛋白质)或酶分子结构的基因。结构基因的突变可导致特定蛋白质(或酶)一级结构的改变。2026/4/2330(2)、调控基因(regulatorgene):调控基因是具有调节控制结构基因表达功能的基因。调控基因的突变可以影响一个或多个结构基因的功能,导致蛋白质(或酶)量或活性的改变。(3)、RNA基因:有的基因只转录不翻译,如核糖体RNA基因和转运RNA基因,产物分别为rRNA和tRNA。2026/4/2331图3-6原核基因的典型结构2、基因的结构2026/4/2332图3-5真核基因的典型结构2026/4/2333真核生物基因以单顺反子的形式存在,编码单基因产物。原核生物的基因以多顺反子的形式存在,转录产生的mRNA,可同时编码两种甚至数种基因产物。2026/4/2334四、生物体内基因的大小和数目1、基因的大小真核生物中,由于内含子序列的存在,基因比实际编码蛋白质的序列要大得多。外显子的大小与基因的大小没有必然的联系。与整个基因相比,编码蛋白质的外显子要小得多,大多数外显子编码的氨基酸数小于100。2026/4/2335内含子通常比外显子大得多,因此基因的大小取决于它所包含的内含子的长度,一些基因的内含子特别长,例如哺乳动物的二氢叶酸还原酶基因含有6个外显子,其mRNA的长度为2kb,但基因的总长度达25~31kb,含有长达几十kb的内含子。内含子之间也有很大的差别,大小从几百个碱基对到几万个碱基对不等。2026/4/2336基因的大小还与所包含的内含子的数目有关。在不同的基因中,内含子的数目变化很大,有些断裂基因含有一个或少数几个内含子,如珠蛋白基因;某些基因含有较多的内含子,如鸡卵清蛋白基因有7个内含子,伴清蛋白基因含有16个内含子。2026/4/2337由于基因的大小取决于内含子的长度和数目,导致酵母和高等真核生物的基因大小差异很大。大多数酵母基因小于2kb,很少有超过5kb的。而高等真核生物的大多数基因长度在5~100kb之间。2026/4/2338种类平均外显子数目平均基因长度(kb)平均mRNA长度(kb)酵母11.61.6真菌31.51.5藻虫44.03.0果蝇411.32.7鸡913.92.4哺乳动物716.62.2表3-1不同生物的平均基因大小2026/4/23392、基因的数目从基因组的大小可以粗略地算出基因的数目。虽然一些基因通过选择性表达可以产生一个以上的产物,但这种现象并不常见,对基因数目的计算影响不大。2026/4/2340为准确地确定基因数目,需要知道整个基因组的DNA序列和基因密度。目前已知酵母基因组的全序列,其基因密度较高,平均每个开放阅读框(openreadingframe,ORF)为1.4kb,基因间的平均分隔为600bp,即大约70%的序列为开放阅读框。其中约一半基因是已知的基因或与已知基因有关的基因,其余是新基因。因此可推测未发现基因的数目。2026/4/2341种类基因组大小(bp)基因数目人3.3×10930000~35000果蝇1.4×1088750酵母1.3×1076100大肠杆菌4.2×1064288支原体1.0×106750噬菌体T41.6×105200表3-2不同生物的基因数目2026/4/2342如果不知道基因组的基因密度,就难以估计基因数目。可采取的方法有:基因分离鉴定计算表达基因的数目突变分析2026/4/2343五、基因簇与重复基因
1、基因家族和基因簇基因家族(genefamily)是真核生物基因组中来源相同、结构相似、功能相关的一组基因。尽管基因家族各成员序列上具有相关性,但序列相似的程度以及组织方式不同。其中大部分有功能的家族成员之间相似程度很高,有些家族成员间的差异很大,甚至有无功能的假基因。2026/4/2344基因家族的成员在染色体上的分布形式是不同的:有些基因家族的成员在特殊的染色体区域上成簇存在;另一些基因家族的成员在整个染色体上广泛地分布,甚至可存在于不同的染色体上。2026/4/2345根据家族成员的分布形式,可以把不同的基因家族分为成簇存在的基因家族(clusteredgenefamily)即基因簇以及散布的基因家族(interspersedgenefamily)。2026/4/2346(1)基因簇(genecluster):基因家族的各成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域。它们是同一个祖先基因扩增的产物。基因簇中也包括没有生物功能的假基因。通常基因簇内各序列间的同源性大于基因簇间的序列同源性。2026/4/2347(2)散布的基因家族:家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上。各成员在序列上有明显差别,其中也含有假基因。但这种假基因与基因簇中的假基因不同,它们来源于RNA介导的转座作用。2026/4/2348按照基因家族成员之间序列相似的程度,可把基因家族分为以下几类:(1)经典的基因家族,家族中各基因的全序列或至少编码序列具有高度的同源性,如rRNA基因家族和组蛋白基因家族。在进化过程中,这些家族成员有自动均一化的趋势。它们的特点是:①各成员间有高度的序列一致性,甚至完全相同;②拷贝数高,常有几十个甚至几百个拷贝;③非转录的间隔区短而且一致。2026/4/2349(2)基因家族各成员的编码产物上具有大段的高度保守氨基酸序列,这对基因发挥功能是必不可少的。基因家族的各基因中有部分十分保守的序列,但总的序列相似性却很低。(3)家族各成员的编码产物之间只有一些很短的保守氨基酸序列。从DNA水平上看,这些基因家族成员之间的序列同源性更低。但其基因编码产物具有相同的功能,因为在蛋白质中存在发挥生物功能所必不可少的保守区域。2026/4/2350(4)超基因家族(genesuperfamily),家族中各基因序列间没有同源性,但其基因产物的功能相似。蛋白质产物中虽没有明显保守的氨基酸序列,但从整体上看却有相同的结构特征,如免疫球蛋白家族。2026/4/23512、重复序列除了基因家族外,染色体上还有大量无转录活性的重复DNA序列家族,主要是基因以外的DNA序列。重复序列有两种组织形式:一种是串联重复DNA,成簇存在于染色体的特定区域;另一种是散布的重复DNA,重复单位并不成簇存在,而是分散于染色体的各个位点上,来源于RNA介导的转座作用。散布的重复序列家族的许多成员是可转移的元件,是不稳定的,可转移到基因组的不同位置。2026/4/2352(1)串联重复DNA有些高度重复DNA序列的碱基组成和浮力密度同主体DNA有区别,在浮力密度梯度离心时,可形成不同于主DNA带的卫星带,称为卫星DNA。卫星DNA由非常短的串联重复DNA序列组成。这些序列一般对应于染色体上的异染色质区域。2026/4/2353有些高度重复序列的碱基组成与主体DNA相差不大,不能通过浮力密度梯度离心法分离,但可以通过其它方法鉴定(如限制性作图),这样的DNA序列称为隐蔽卫星DNA。2026/4/2354根据重复单位的大小,这些非编码的高度重复的DNA序列可以进一步分为卫星DNA(satelliteDNA)、小卫星DNA(minisatelliteDNA)、微卫星DNA(microsatelliteDNA)三类(表3-3)。2026/4/2355分类长度重复单位大小(bp)染色体定位卫星DNA100kb~数Mb卫星序列2和35整个染色体卫星序列125~48大多数染色体着丝粒和其它异染色质区域α171所有染色体着丝粒(Sau3A家族)681,9,13,14,15,21,22号和染色体的着丝粒小卫星DNA0.1~20kb端粒家族6所有染色体端粒高变家族微卫星DNA小于150bp9~241~4所有染色体,通常靠近端粒所有染色体表3-3人类基因组的主要串联重复序列2026/4/23562、散布的重复DNA重复序列以散在方式分布于基因组内。根据重复序列的长短不同,可以分为短散布元件和长散布元件。短散布元件的重复序列长度在500bp以下,在人基因组中的重复拷贝数达10万以上。长散布元件的重复序列在1000bp以上,在人类基因组中有上万份拷贝。2026/4/2357在人类基因组中有一种中等重复序列,长约300bp,30万个成员分散分布在单倍体基因组中,在其170bp处有一个限制性酶AluI的酶切位点,因此被称为Alu基因家族(Alufamily)。人类基因组中,大约平均每隔6kb左右就有一个Alu序列,一般出现在内含子或基因附近,可以作为人类DNA片段的特征标记。2026/4/2358Alu家族的广泛存在暗示它可能具有一定的功能。部分Alu序列中有14bp与乳头瘤病毒、乙型肝炎病毒的复制起始区有同源性,因此推测Alu家族可能和真核基因组的复制区相连接。但是Alu家族的成员数要比推测的复制区多10倍。2026/4/2359第二节基因组基因组(genome)一词最早出现于1922年,指的是单倍体细胞中所含的整套染色体。近年来,学术界更多地把基因组定义为整套染色体中的全部基因。随着对不同生物的基因组DNA的测序,人们发现,对基因组这个名词需要做出更精确的定义。现在认为,基因组指的是细胞或生物体中所有的DNA,包括所有的基因和基因间隔区域。2026/4/2360原核生物基因组就是原核细胞内构成染色体的一个DNA分子。真核生物有细胞核,染色体位于细胞核内,所以真核生物的核基因组是指单倍体细胞核内整套染色体所含有的DNA分子。除了核基因组以外,真核细胞内还有细胞器基因组,即动物细胞和植物细胞的线粒体基因组以及存在于植物细胞的叶绿体基因组。2026/4/2361目前已经完成了多种模式生物如大肠杆菌、酵母菌、线虫、果蝇和小鼠以及芥南菜等的基因组测序工作,2001年,人类基因组的测序工作也基本完成。2026/4/2362一、原核生物基因组原核生物的遗传信息是双链脱氧核糖核酸分子(DNA)。在原核生物中有两类DNA分子:一是染色体,携带了细胞生存和繁殖所必需的所有遗传信息;二是质粒,是细胞核外独立存在的DNA分子,与细胞的生长没有必然的关系。2026/4/23631、细菌染色体的结构所有已知的原核生物的染色体都由DNA的四种不同碱基构成:腺嘌呤(A),鸟嘌呤(G),胸腺嘧啶(T),胞嘧啶(C)。每个物种具有特定的平均G+C含量,变化范围从24%(支原体)到76%(微球菌),多数为50%左右。2026/4/2364原核生物一般只有一个染色体即一个DNA分子。但是在不同生长条件下,染色体分子可能有一个、两个、甚至更多的拷贝。例如,当大肠杆菌在适宜的生长培养基中培养时,可以有四个以上的染色体拷贝。2026/4/23652、其它自主的遗传物质:质粒和噬菌体质粒是细菌染色体外的可以自主复制的DNA分子。大多数质粒都是环状超螺旋双链DNA,
称为共价闭合环状分子。细胞中质粒DNA分子具有稳定的拷贝数。正常生理条件下,其拷贝数在世代之间保持不变。2026/4/2366质粒DNA和寄主细胞染色体DNA分离:
密度梯度离心。当含有溴化乙锭(EtBr)的氯化铯(CsCl)溶液加到大肠杆菌裂解液中时,染色体DNA和质粒DNA因为结合的EtBr分子数不同而具有不同的密度,在密度梯度离心时形成不同的平衡条带,达到分离目的(图3-7)。
2026/4/2367图3-7氯化铯密度梯度离心法制备质粒
2026/4/2368噬菌体是以细菌为寄主的病毒。噬菌体被一层蛋白包膜覆盖,可以在细菌外生存,再结合到细菌上。噬菌体由两类生物大分子组成,即蛋白质和核酸。一种病毒颗粒具有一种类型的核酸。2026/4/2369噬菌体的核酸:最常见的是双链线性DNA。此外也有双链环状DNA、单链环状DNA、单链线性DNA以及单链RNA等多种形式。2026/4/2370图3-8噬菌体的生长周期
识别如HIV2026/4/2371适当条件下,噬菌体基因组DNA开始表达噬菌体的壳体蛋白、噬菌体组装所需蛋白等,在宿主细胞内完成子代噬菌体的组装,并裂解宿主细胞,释放子代噬菌体,进入裂解期。噬菌体需要结合到宿主细胞上才能生长和繁殖2026/4/2372二、真核生物基因组大多数真核生物基因组包含于细胞核内,大部分DNA序列不编码蛋白质。1、C值矛盾与基因组大小一个单倍体基因组的全部DNA含量总是恒定的,这是物种的一个特征,通常称为该物种的C值。不同物种的C值差异很大,从小于106bp到1011bp。由图3-9可见,随着生物的进化,生物体的结构和功能越复杂,其C值就越大。2026/4/2373图3-9单倍体基因组DNA含量在低等真核生物中与形态复杂性有一定的正相关,但在高等真核生物中却非如此,它们的单倍体基因组DNA含量变化不定。
2026/4/2374在结构、功能很相似的同类生物中,甚至在亲缘关系非常接近的物种之间,C值可以相差数十倍乃至上百倍。突出的例子是两栖动物,C值小的可以低至109bp以下,C值大的可以高达1011bp。而哺乳类动物C值均在109bp。这种现象称为C值矛盾。2026/4/23752、重复序列
真核生物基因组序列包括三种类型,分别是快复性组分即高度重复序列,占总DNA的25%;中度复性成分即中度重复序列,占总DNA的30%;慢复性组分即非重复序列,占总DNA的45%。2026/4/23763、细胞器基因组除了在低等的真核生物中有一些线性的细胞器DNA外,大多数真核生物中,细胞器基因组都是环状非重复DNA序列。每个细胞中有多个细胞器,因此有多个独立存在的细胞器基因组。2026/4/2377(1)线粒体基因组动物细胞线粒体基因组比较小,人、鼠和牛的线粒体基因组都只有16.5kb。与核DNA相比,线粒体DNA所占的比例不到1%。酵母线粒体基因组很大,酿酒酵母的线粒体基因组为84kb,而且每个线粒体中有4个拷贝。2026/4/2378图3-10人线粒体基因组
2026/4/2379现代研究发现线粒体DNA的重要性。线粒体有自己的蛋白质合成体系,其中rRNA和tRNA均由线粒体自身基因组编码合成。线粒体tRNA比核基因编码的tRNA要小,核糖体也比较小。其RNA聚合酶、氨酰-tRNA合成酶和核糖体蛋白质均由核基因编码,但却是细胞器专用的,不同于细胞质中的蛋白质合成系统。2026/4/2380线粒体中其它蛋白质的合成也常常由核基因和线粒体基因共同参与。如酵母线粒体中ATP合成酶、细胞色素c氧化酶的各亚基、细胞色素bc1复合物都是核基因组和细胞器基因组共同编码的。2026/4/2381(2)叶绿体基因组叶绿体基因组相对来说比较大,从高等植物的140kb到低等真核生物的200kb。叶绿体基因组可编码与蛋白质合成有关的rRNA和tRNA,以及大约50种蛋白质,包括RNA聚合酶和一些核糖体蛋白。2026/4/23824、染色体和染色质染色体是细胞在有丝分裂时遗传物质存在的特定形式,是间期细胞染色质结构紧密包装的结果。染色体和染色质是真核生物遗传物质存在的两种不同形态,反映了它们处于细胞分裂周期的不同功能阶段,两者不存在成分上的差异。2026/4/2383染色质(chromatin)是指真核生物细胞核中,在细胞分裂期间能被碱性染料着色的物质,由DNA、组蛋白、非组蛋白和少量RNA组成,是细胞分裂间期遗传物质的存在形式。染色质由最基本的单位——核小体成串排列而成的。2026/4/2384染色质根据形态特征和染色性能可分为两种类型:常染色质(euchromatin)和异染色质(heterochromatin)。常染色质中DNA的包装比(packingration)约为1000~2000,即DNA的实际长度是染色质长度的1000倍~2000倍。2026/4/2385构成常染色质的DNA主要是单一序列DNA和中度重复序列DNA。常染色质中并非所有基因都具有转录活性,处于常染色质状态只是基因转录的必要条件,而不是充分条件。2026/4/2386异染色质分为结构异染色质或组成型异染色质和兼性异染色质。结构异染色质指的是除复制期外,在整个细胞周期均处于聚缩状态,DNA包装比在整个细胞周期中基本没有较大变化的异染色质,主要包括卫星DNA序列、着丝粒区、端粒、次缢痕和染色体臂的某些节段等。2026/4/2387兼性异染色质是指在某些细胞类型或一定的发育阶段,原来的常染色质聚缩,并丧失基因转录活性,变为异染色质。兼性异染色质的总量随不同细胞类型而变化,一般胚胎细胞含量很少,而高度特化的细胞含量较多,说明随着细胞分化,较多的基因渐次以聚缩状态而关闭,再也不能接近基因活化蛋白。染色质的紧密折叠压缩可能是关闭基因活性的一种途径。2026/4/2388最典型的例子就是哺乳动物雌性个体中的两个X染色体中有一个随机失活,失去转录活性而导致异染色质化。2026/4/23895、染色体功能实现的三要素任何真核生物染色体的生物学功能都严格依赖于三种DNA序列结构:复制起点、着丝粒和端粒。2026/4/2390(1)复制起点(ARS)DNA序列分析发现,不同来源的ARS序列包含一段11~14bp的高度同源的富含AT的共有序列及其上下游各200bp左右的区域,这是维持ARS功能所必需的。绝大多数真核细胞的染色体,含有多个复制起点,以确保染色体快速复制。2026/4/2391(2)着丝粒DNA序列(CEN)着丝粒就是细胞分裂过程中染色体与纺锤丝(spindlefiber)结合的区域。因此,着丝粒在细胞分裂过程中对于母细胞中的遗传物质能否均衡地分配到子细胞中去是至关重要的。缺少着丝粒的染色体片断,就不能和纺锤丝相连,在细胞分裂过程中容易丢失。2026/4/2392CEN序列的共同特点是含有两个相邻的核心区:80~90bp的AT区;11bp的保守区。缺失损伤试验和插入突变实验发现一旦伤及这两个核心区序列,CEN即丧失生物学功能。2026/4/2393(3)端粒DNA序列(TEL)端粒由一系列短重复序列构成,在人类的DNA里,端粒长约10至15kb,由重复的GGGTTA组成。其它生物端粒的重复序列也多为T和G,端粒的重复序列不是染色体DNA复制时连续合成的,而是由端粒酶(telomerase)合成、添加到染色体末端的。2026/4/23942026/4/2395端粒酶是由RNA和蛋白质组成的核糖核蛋白,具有逆转录酶的性质,可以以特异的内在RNA为模板,合成端粒重复序列,添加到染色体的3’端。端粒与细胞寿命有关,在细胞内起着细胞分裂计时器的作用,端粒长度与细胞分裂次数和细胞的衰老有关。肿瘤细胞具有端粒酶活性,使癌细胞获得无限增殖的能力。2026/4/2396三、人类基因组计划“人类基因组计划
(HumanGenomeProject,HGP)”和“曼哈顿原子弹计划”、“人类登月计划”一起被誉为二十世纪科学史上的三个里程碑。1985年5月,美国能源部正式提出开展人类基因组的测序工作,形成了能源部的“人类基因组计划”草案。1986年,美国生物学家、诺贝尔奖获得者RenatoDulbecco在“Science”上发表短文首次提出人类基因组计划的设想,2026/4/2397并建议组织国家级和国际级的项目来进行这方面的研究。1986年3月美国能源部在召开的一次专门会议上,正式提出实施测定人类基因组全顺序的计划。1988年4月,国际人类基因组织(HUGO)成立。1988年10月美国能源部和美国国立卫生研究院达成协议,共同管理和实施这一计划。1990年10月由美国国会批准正式启动HGP研究,随后法国、英国、意大利、德国、日本等也相继宣布开始各自的HGP研究。中国于1987年在“863计划”中开始设立人类基因组研究课题。2026/4/2398人类基因组计划是一项国际性的研究计划,目标是通过以美国为主的全球性的国际合作,在大约15年的时间里完成人类24条染色体的基因组作图和DNA全长序列分析,进行基因的鉴定和功能分析。人类基因组计划的最终目标是确定人类基因组所携带的全部遗传信息,并确定、阐明和记录组成人类基因组的全部DNA序列。2026/4/2399具体任务有以下几个方面:(1)基因组作图绘制两大人类基因组图谱,即遗传连锁图谱和物理图谱。遗传连锁图谱是通过家谱分析和遗传性状的连锁分析而建立的;物理图谱是通过对构成人类基因组的脱氧核糖核酸分子的化学测定而绘制的,包括限制酶切图谱、排序的脱氧核糖核酸克隆库以及对表达基因或无特征(功能不清)的脱氧核糖核酸片段的低分辨图谱。2026/4/23100所有图谱的目标都是把有关基因的遗传信息,按其在每条染色体上相对位置线性地系统地排列出来。2026/4/23101(2)基因组测序(genomesequencing)基因组的核苷酸顺序是分辨率最高的物理图谱,就人而言,意味着要排出30亿个核苷酸的顺序。同时,测定其它生物的基因组顺序,以便与人类基因组进行比较研究。(3)基因识别(geneidentification)在作图、基因定位和测序的同时,识别出基因的序列,设法克隆基因,以及着手研究基因的生物学功能。2026/4/23102(4)模式生物(modelorganism)研究
从模式生物获得的数据资料,可以为人类基因组的研究进行技术的探索和经验的积累。有助于阐明人类的生物学规律。常用的模式生物有大肠杆菌、酵母菌、线虫、果蝇和小鼠等。在研究植物基因组时常用的模式生物是拟南芥菜(Arabideopisthaliana)。2026/4/23103斑马鱼小鼠2026/4/23104(5)发展生物信息学和计算机学
随着基因组研究的开展,全世界各个实验室每天都产生大量的数据,其中包括DNA测序、蛋白质的氨基酸序列、基因组作图标记与定位等。涉及数据的收集、甄别、组装、诠释、分配和使用等各个环节,因此,需要建立各种类型的数据库,发展新的计算机设备和软件,使生物学同信息科学和计算机科学紧密结合,形成了生物信息学(bioinformatics)和计算生物学(computationalbiology)。2026/4/23105第三节基因组学基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学和以基因功能鉴定为目标的功能基因组学。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传图谱、物理图谱和大规模测序为基础。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,以高通量、大规模的实验方法以及统计与计算机分析为特征。2026/4/23106随着人类基因组作图和基因组测序工作的完成,当前的研究重心从结构基因组学转移到功能基因组学。2026/4/23107一、结构基因组学
结构基因组学的内容包括基因组作图和基因组测序。2026/4/23108又称染色体作图:由于人的染色体巨大,不能直接用于测序,将人类基因组这一的研究对象进行分解,将其分为容易操作的小的结构区域,这个过程简称为染色体作图。人类最大的1号染色体有263Mb,最小的21号染色体也有50Mb。根据使用的标记和手段的不同,染色体作图可以分为遗传连锁作图和物理作图。2026/4/23109(1)遗传学图又称连锁图谱(linkagemap),它是以具有遗传多态性(在一个遗传位点具有一个以上的等位基因,在群体中的出现频率皆高于1%的遗传标记)为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。2026/4/23110人类基因组遗传连锁图的绘制需要应用多态性标记。人的DNA序列上平均每几百个碱基会出现一些变异(variation),这些变异通常不产生病理性后果,并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。现在的多态性标记主要有三种:2026/4/23111限制性片段长度多态性(
RFLP)
RFLP是第1代标记,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的突变所造成的能切与不能切两种状况,而产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,用作基因突变分析、基因定位和遗传病基因的早期检测等方面。2026/4/23112DNA重复序列的多态性标记
人类基因的多态性较多的是由重复序列造成的,这也是人类基因组的重要特点之一。重复序列的多态性有小卫星DNA多态性或不同数目的串联重复(VNTR)的多态性和微卫星的DNA多态性等多种。2026/4/23113指的是基因组DNA中有数十到数百个核苷酸片段的重复,重复的次数在人群中有高度变异,总长不超过20kb,是一种遗传信息量很大的标记物,可以用Southern杂交或PCR法检测。2026/4/23114是基因组中由1-6个碱基的重复,如(CA)n,(GT)n等产生的,以CA重复序列的利用度为最高。微卫星DNA重复序列在染色体DNA中散在分布,其数量被认为可达五到十万,是目前最有用的遗传标记。第二代DNA遗传标记多指STR标记。2026/4/23115单核苷酸多态性标记(SNP),是1996年美国MIT的E.Lander提出的,被称为“第三代DNA遗传标记”。这种遗传标记的特点是单个碱基的置换,与第一代的RFLP及第二代的STR以长度的差异作为遗传标记的特点不同,而且SNP的分布密集,每千个核苷酸中可出现一个SNP标记位点,2026/4/23116在人类基因组中有300万个以上的SNP遗传标记,这可能达到了人类基因组多态位点数目的极限。这些SNP标记以同样的频率存在于基因组编码区或非编码区,存在于编码区的SNP约有20万个,称为cSNP(codingSNP)。2026/4/23117(2)物理图谱(physicalmap)是指DNA序列上两点的实际距离,通常由DNA的限制酶片段或克隆的DNA片段有序排列而成,其基本单位是千碱基对(Kb)或百万碱基对(Mb)。连锁图谱2026/4/23118物理图谱反应的是DNA序列上两点之间的实际距离,而遗传图谱则反应这两点之间的连锁关系。在DNA交换频繁的区域,两个物理位置相距很近的基因或DNA片段可能具有较大的遗传距离,而两个物理位置相距很远的基因或DNA片段则可能因该部位在遗传过程中很少发生交换而具有很近的遗传距离。2026/4/23119全基因组的“鸟枪法”测序策略全基因组的“鸟枪法”测序策略,是指在获得一定的遗传和物理图谱信息的基础上,绕过建立连续的BAC克隆系的过程,直接将基因组DNA分解成小片段,进行随机测序,并辅以一定数量的10kb克隆和BAC克隆的末端测序结果,在此基础上进行序列拼接,直接得到待测基因组的完整序列。2026/4/231202026/4/23121这一策略从一提出就受到质疑,并不为主流的公共领域所采纳。1995年,由CraigVenter领导的私营研究所TIGR(TheInstituteofGenomicResearch)将这种方法应用于对嗜血流感杆菌(H.influenzae)全基因组的测序中,成功的测定了它的全基因组序列。该方法随后在对包括枯草杆菌、大肠杆菌等20多种微生物的基因组测序中得到了成功的应用。2026/4/231221998年,TIGR和PE公司联合组建了一个新的Celera公司,宣布计划采用全基因组的“鸟枪法”测序策略,在2003年底前测定人类的全部基因组序列。接着,Celera公司与加州大学伯克利果蝇计划(BDGD)合作,仅用了4个月的时间,就用全基因组的“鸟枪法”测序策略完成了果蝇基因组120Mb的全序列测定和组装,证明了这一技术路线的可行性,成为利用同一策略进行人类基因组测序的一次预实验。2026/4/23123cDNA测序人类基因组中发生转录表达的序列(即基因)仅占总序列的约5%,对这一部分序列进行测定将直接导致基因的发现。由于与重要疾病相关的基因或具有重要生理功能的基因具有潜在的应用价值,使得cDNA测序受到制药工业界和研究机构的青睐,纷纷投入重金进行研究并抢占专利。2026/4/23124cDNA测序的研究重点首先放在基因表达的短CDNA序列(EST)测序。比较不同条件下(如正常组织和肿瘤组织)的EST测序结果,可以获得丰富的生物学信息(如基因表达与肿瘤发生、发展的关系)。其次,利用EST可以对基因进行染色体定位。2026/4/23125至2005年5月13日,公共数据库内有26,858,818条EST(其中人类EST有6,057,800),更多的EST和全长cDNA则掌握在一批以基因组信息为产品的生物技术公司手中。2026/4/23126随着研究的深入,EST测序固有的局限性变得日益显著。首先,由于文库构建的原因,绝大多数EST分布在基因的3’端,数据库中代表基因5’上游信息的EST只占很小的比例。其次,EST的长度都在300~500bp之间,仅从EST中很难获得基因结构的全部信息(如基因的不同拼接形式)。2026/4/23127鉴于此,cDNA研究的热点目前已由EST转变为全长cDNA研究。美国国立癌症研究院(NCI)最近决定资助每年获得2万条全长cDNA的计划。日本的人类基因组计划也将获得全长cDNA列为重点,到1999年底已获得40,000条全长cDNA。为了获得全长cDNA,除了利用cDNA末端快速扩增法(RACE)得到cDNA末端(主要是5’端)的序列以外,另外一个关键是构建高质量的全长cDNA文库。2026/4/23128模式生物体的基因组测序意义:可以为人类基因组的研究进行技术的探索和经验的积累;有助于人们在基因组水平上认识进化规律;可以通过对不同生物体中的同源基因的研究,以及利用模式生物体的转基因和基因剔除术(knockout)等方法研究基因的功能。2026/4/23129人类基因组的测序1998年,由PE公司和TIGR合作成立的Celera公司宣布将在3年时间内完成人类基因组全序列的测定工作,建立用于商业开发的数据库,并对一大批重要的人类基因注册专利。面对私营领域的挑战,公共领域的测序计划也加快了步伐。2026/4/231302000年6月25日,美、英、日、法、德和中国的16个测序中心或协作组获得了占人类基因组21.1%的完成序列及覆盖人类基因组65.7%的工作草图,两者相加达到86.8%。同时,对整条染色体的精细测序也获得突破性进展。1999年12月,英、日、美、加拿大和瑞典科学家共同完成了人类22号染色体的常染色体部分共33.4Mb的测序。2026/4/231312001年2月15日,国际公共领域人类基因组计划和美国的Celera公司分别在“Nature”和“Science”杂志上公布了人类基因组序列工作草图,完成全基因DNA序列95%的测序。2003年4月14日,国际人类基因组测序共同负责人FrancisCollins博士宣布,人类基因组序列图绘制成功,全基因组测序完成99%。2026/4/23132二、功能基因组学人类功能基因组学涉及众多的新技术,包括生物信息学技术、生物芯片技术、转基因和基因敲除技术、酵母双杂交技术、基因表达谱系分析、蛋白质组学技术、高通量细胞筛选技术等等。以解决有关基因功能研究中的基本问题:基因何时开始表达;基因表达产物定位于何处;该基因将与其它哪些基因相互影响;该基因如出现突变将会导致什么后果等2026/4/231331、蛋白质组学是对蛋白质性质和功能的大规模研究,包括对蛋白质的表达水平、翻译后修饰以及与其它分子的相互作用的研究,从而可以得到细胞进程在蛋白质水平上的宏观映象。蛋白质作为mRNA的产物在细胞中行使着大部分的功能,但是蛋白质水平与mRNA水平之间并不一定有严格的线性关系。2026/4/23134实验证明,组织中mRNA丰度与蛋白质丰度的相关性并不好,尤其对于低丰度蛋白质来说,相关性更差。蛋白质复杂的翻译后修饰、蛋白质的亚细胞定位或迁移、蛋白质-蛋白质相互作用等都几乎无法从mRNA水平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高二英语下学期期中考试卷及答案(五)
- 期中复习第三单元+2025-2026学年高一下学期语文+基础模块下册+(高教版)
- 第1课+立足时代+志存高远-中职思政《心理健康与职业生涯》(高教版)-高一期末复习
- 低速汽车制造新机遇-领先技术赢取市场创新增长
- 林木品种审定委员会非主要林木品种审定申请书
- 核心素养背景下的初中英语报刊阅读教学实践研究
- 读图教学:彰显高中地理教学之魅力
- 加强企业人力资源管理的调研分析报告
- 企业文档格式化模板与规范
- 建筑幕墙节能验收技术规范手册
- 福建省能化集团招聘笔试真题
- 2024年湖北省武汉市中考物理·化学试卷真题(含答案解析)
- DL-T-1946-2018气体绝缘金属封闭开关设备X射线透视成像现场检测技术导则
- DZ∕T 0399-2022 矿山资源储量管理规范(正式版)
- 2024年河南应用技术职业学院单招职业适应性测试题库及答案解析
- 树立正确婚恋观做遵纪守法军人
- 2021年中国中车公司组织架构和部门职能
- 反间谍法介绍宣传课件
- CPK-数据自动生成器
- catia静强度有限元分析课件
- 钢的热处理工艺课件
评论
0/150
提交评论