第一章基因结构和基因组1_第1页
第一章基因结构和基因组1_第2页
第一章基因结构和基因组1_第3页
第一章基因结构和基因组1_第4页
第一章基因结构和基因组1_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第一章第一章 基因结构和基因组基因结构和基因组基因结构(重点)基因结构(重点)基因组学基因组学真核生物基因组结构及特点真核生物基因组结构及特点2一、基因结构一、基因结构1. 基因概念:基因概念:基因是一段具有特定功能和结构的连基因是一段具有特定功能和结构的连续的续的dna片断,是编码蛋白质或片断,是编码蛋白质或rna分子遗传信息的基本遗传单位。分子遗传信息的基本遗传单位。 3生物的性状是经由遗传单位传递给下一代,这个概念在1900年由孟德尔(gregor mendel)提出,1909年约翰森(wilhelm johanssen)将这个遗传单位的概念冠上“gene”的名字,汉文将之翻译成“基因

2、”,日本人则将之翻译成“遗传子”,更为直接。最早的观念中,基因是前述的“遗传单位”(unit of inheritance)。这是一个比较功能性的概念,它是一个自主单位(autonomous unit),能把性状遗传给后代。相对地,有人认为基因是一个有形的物体(physical entity),它是染色体上面一段固定的序列。这两派看法多年来,各执一词,不相上下。 41920年代及1930年代早期alfred h sturtevant以hermann muller在果蝇研究上,发现基因在染色体上的位置改变时,尽管基因结构本身不变,其功能却会变化而造成果蝇性状的突变。实验中,他们将一个基因挪近所谓

3、异染色质区(heterochromatin)时,果蝇会产生所谓杂色(variegated)的表现型,也就是一个基因在某些细胞会表现,却在某些细胞不会表现,而造成“杂色”,例如复眼中有些部分呈现白色,有些部分则呈现红色。由於基因的功能似乎会因应其所在位置而改变,以致有人甚至认为基因根本不是一个固定而具体的单位(particulate gene),然而,在实际上却又不能完全否定基因做为遗传单位的概念。5在最新版的thompson & thompson genetics in medicine(2001),基因的定义是a sequence of chromosome dna that is requ

4、ired for production of a functional product,be it a polypeptide or a functional rna molecule。因此当代对基因的定义除了被转译的dna序列本身之外,调控此一转译工作的dna序列也应包含在内。那麽基因的范畴到底何在? 假若基因是一个比较固定而具体的单位(particulate gene)则我们应该可以找出界定基因的区隔(barrier or insulator)。然而学者费尽心力却遍寻不着能够区别个别基因的结构。因此,从学者无法找到能够区隔个别基因的barrier or insulator来看,基因可能是一

5、个相当具有伸缩性的结构。另外一个观察是,一个基因的功能取决於它对某些转录因子(transcriptional factor)的反应,而非本身在染色体上的位置,这个现象是frank grosveld在人类-globin locus control region首先观察到。因此基因应该是包含被转录的dna序列以及转录因子的结合区。这些转录因子的结合区可以延伸几百个kilobase。最近的研究显示人类的dach基因,其enhancer甚至在远达1mb的基因沙漠(gene desert)中。 6这个“基因包含转录因子结合区”的概念,使基因变成一个功能性而且可以彼此重叠的概念。意即,一段dna序列,可以

6、因对转录因子反应的不同,可以有一种以上的基因功能,而一个基因的转录序列,可能是另一个基因的转录调控区。时至今日,基因的定义已经不再是一段具有明显边界的固定dna序列(particulate gene),而是一个具有伸缩性(flexible)的功能性组合,它的范围是以其(1)空间结构与位置(2)对特定调控因子的反应(3)对最终表现型的效果来决定。根据以上的论述,基因的基本条件有三:1、必须要有产出(product)2、必须要有功能 3、包含转录区及调控区。根据这三个条件,我们如何去从漫长的dna序列中找出基因呢?以下是五种常用的标准。71、open reading frames(orf) orf

7、是指位于start codon与stop codon之间的dna序列。以orf寻找基因较适用于原核生物或其他intron稀少的生物。当生物的exon被隐藏在大段的intron时,orf常常不易被找到。2、sequence features 分布特征 找出orf之后,利用基因通常gc较at多的特征,再加以验证。另外找寻splice site(ag、gt)可能也有助于基因的辨识。不过使用这些辨识原则的电脑软件只能预测50的exon和20的基因。3、sequence conservation 比对不同生物的碱基序列也是辨识基因的利器,理论上,在不同生物均有的序列(conserved sequence

8、)应该有其功能上的重要性,本身是基因的机会较大。利用不同生物来比对基因序列,必须这些生物间有相当的演化距离(evolutionary distance),例如最近人类六号染色体的基因辨识是利用五种其他生物-大鼠、小鼠、河豚、绿色斑点河豚以及斑马鱼来进行比对。当然随着所用生物的不同,比对出来的基因数目也会有所差异。84、evidence of transcription 藉由寻找基因产物-rna或蛋白质也有助于基因的辨识,其常用方法有microarray hybridization芯片杂交 、serial analysis of gene expression(sage)基因表达系列分析 ,cd

9、na mapping或sequencing of expressed sequence tag表达序列标签 。最近利用transposon转位子来进行大规模的gene tagging,结果从yeast的基因体上找出许多能转录蛋白质的新区段,利用带有标记的cdna与含有人类染色体序列的microarray杂交,也找出人类染色体上以前未知的许多转录区段,但如果迄今尚未找到gene product就无法运用此法来反推基因。 5、gene inactivation 藉由减消一个gene product的功能也是辨识基因的一个方法。通常可以用knock out或用rnai来执行此一工作。不过很多基因的g

10、ene product被减消之后往往还是看不到表现型,以致难以确定该基因的功能。这现象的主要原因是生物都有很大的功能重叠性(functional redundancy),此外基因功能检测的方法也会影响其结果。9经典遗传学基因的概念:基因具有下列共性:(1)基因具有染色体的重要特征(即基因位于染色体上),能自我复制,相对稳定,在有私分裂和减数分裂时,有规律地进行分配;(2)基因在染色体上占有一定的位置(即位点),并且是交换的最小单位,即在重组时不能再分割的单位:(3)基因是以一个整体进行突变的,故它是一个突变单位;(4)基因是一个功能单位,它控制正在发育有机体的某一个或某些性状,如白花、红花等。

11、总之,经典遗传学认为基因是一个最小的单位,不能分割,既是结构单位,又是功能单位。分子遗传学关于基因的概念:分子遗传学的发展揭示了遗传密码的秘密,使基因的概念落实到具体的物质上,即基因在dna分子上,一个基因相当于dna分子上的一定区段,它携带有特定的遗传信息。这类遗传信息或被转录为rna,包括信使rna、转移rna、核糖体rna;或者信使rna被翻译成多肽链。另一方面,在精细的微生物遗传分析中查明,基因并不是不可分割的最小单位,而是远为复杂得多的遗传和变异的单位。10随着现代遗传学的发展,在分子水平上,根据重组、突变和功能将基因分成3个单位 (1)突变子:就是指性状突变时产生突变的最小单位。一

12、个突变子可以小到只有一个碱基对;(2)重组子:就是指性状重组时,可交换的最小单位。一个交换子可以只包含一个碱基对;(3)顺反子:表示一个起作用的单位,基本符合通常所述的基因的大小或略小。它包括它包括一段dna与一个多肽链合成相对应,平均为500-1500个碱基对。 1112基因概念的更新和不断发展基因概念的更新和不断发展 重叠基因(重叠基因(overlapping gene): : 一个基因的核苷酸与另一个基因的核苷酸之间存一个基因的核苷酸与另一个基因的核苷酸之间存 在这一定的重叠现象。在这一定的重叠现象。 1977年,维纳(年,维纳(weiner)在研究)在研究q0病毒的基因结构时,首先发病

13、毒的基因结构时,首先发现了基因的重叠现象。现了基因的重叠现象。1978年,费尔(年,费尔(feir)和桑戈尔)和桑戈尔(sangor)在研究分析)在研究分析x174噬菌体的核苷酸序列时,也发现噬菌体的核苷酸序列时,也发现由由5375个核苷酸组成的单链个核苷酸组成的单链dna所包含的所包含的10个基因中有几个基个基因中有几个基因具有不同程度的重叠,但是这些重叠的基因具有不同的读码因具有不同程度的重叠,但是这些重叠的基因具有不同的读码框架。以后在噬菌体框架。以后在噬菌体g4、ms2和和sv40中都发现了重叠基因。中都发现了重叠基因。基基因的重叠性使有限的因的重叠性使有限的dna序列包含了更多的遗传

14、信息,是生物序列包含了更多的遗传信息,是生物对它的遗传物质经济而合理的利用,参与对基因的调控。对它的遗传物质经济而合理的利用,参与对基因的调控。 13暮已赏时花醒归微去力马酒如飞14移动基因(移动基因(movable gene):): 又叫转座因子(又叫转座因子(transposable element),可以从染色体的一个位置),可以从染色体的一个位置转移到另一个位置。转移到另一个位置。 15断裂基因(断裂基因(split gene): 基因的编码序列在基因的编码序列在dnadna分子上是不连续的,为不编码的序列所隔分子上是不连续的,为不编码的序列所隔开。开。2020世纪世纪7070年代中期

15、,法国生物化学家查姆帮(年代中期,法国生物化学家查姆帮(chamobon)chamobon)发现。发现。 19771977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔年被英国的查弗里斯和荷兰的弗兰威尔在研究兔-球蛋白结构球蛋白结构时所证实时所证实。 假基因(假基因(pseudogene):): 是与功能性基因密切相关的是与功能性基因密切相关的dnadna序列,但是由于缺失、插入和序列,但是由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。无义突变失去阅读框架而不能编码蛋白质产物。19771977年,年,gjacpgjacp在在对非洲爪赡对非洲爪赡5srrna5srrna基因簇的研究后提出

16、了假基因的概念。基因簇的研究后提出了假基因的概念。 1670年代后,基因的概念随着多学科渗透和实验手段日新月异又有突飞猛进的发展,主要有以下几个方面: 基因具重叠性。1977年桑格(f. sanger)领导的研究小组,根据大量研究事实绘制了共含有5375个核苷酸核苷酸的x174噬菌体dna碱基顺序图,第一次揭示了遗传的一种经济而巧妙的编排b和e基因核苷酸顺序分别与a和d基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(a基因终止密码子tga和c基因起始密码子atg重叠2个核苷酸;d基因的终止密码子taa与j基因起始密码子atg互相重叠1个核苷酸,顺序为ta

17、atg) 内含子和外显子。人们在研究小鸡卵清蛋白基因时发现其转录形成的mrna只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在rna成熟过程中被切除了。这些间隔序列叫内含子,基因中另一些被转录形成rna的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。 17管家基因和奢侈基因。具有相同遗传信息的同一个体细胞间其所利用的基因并不相同,有的基因活动是维持细胞基本代谢所必须的,而有的基因则在一些分化细胞细胞中活动,这正是细胞分化、生物发育的基础。前者称为管家基因,而后者被称为奢侈基因。 基因的游动性。早在20世纪40年代美国遗传学家麦克

18、林托克(b.mcclintock)在玉米研究中发现“转座因子”,直至1980年夏皮罗(j.shapiro)等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,这位“玉米夫人”荣获了1983年度诺贝尔奖。18非编码区非编码区非编码区非编码区编码区编码区上游编码区上游 编码区下游编码区下游 与与rna聚酶聚酶结合位点结合位点rna聚合酶能够识别调控序列中的结合位点,并与其结合。转录开始后,rna聚合酶沿dna分子移动,并与dna分子的一条链为模板合成rna。转录完毕后,rna链释放出来,紧接着rna聚合酶也从dna模板链上脱落下来。 2. 原核生物的基因结构原核生物的基因结构19能够转录

19、为相应的信使rna,进而指导蛋白质的合成,也就是说能够编码蛋白质的区域。 位于编码区上游和编码区下游的dna序列,虽不能转录为信使rna,不能编码蛋白质但有调控遗传信息表达的核苷酸序列,如启动子、终止子等。非编码区(调控序列)编码区(编码序列) 原核基因的结构原核基因的结构20是位于基因是位于基因5 末端上游外测的一段长度为末端上游外测的一段长度为20200bp的非编码核苷酸序列,其功能是与的非编码核苷酸序列,其功能是与rna聚聚合酶结合形成转录起始复合物。合酶结合形成转录起始复合物。 启动子(启动子(promoter)终止子(终止子(terminatorterminator) 是位于一个基因

20、或者操纵子的末端,提供转录终是位于一个基因或者操纵子的末端,提供转录终止信号的区段止信号的区段 是指由启动子、结构基因和终止子组成的一段是指由启动子、结构基因和终止子组成的一段dna序列。序列。转录单元(转录单元(operonoperon)21在原核生物中只有一种在原核生物中只有一种rnarna聚合酶。聚合酶。所有的原核基因都是在同一种所有的原核基因都是在同一种rnarna聚合酶的作用下进行转录的。聚合酶的作用下进行转录的。 操纵子(操纵子(operator)功能上相关的几个结构基因前后相连,利用功能上相关的几个结构基因前后相连,利用一个共同的启动子和终止子,这种转录单元一个共同的启动子和终止

21、子,这种转录单元被称为操纵子。被称为操纵子。通常是先被转录成一条大的通常是先被转录成一条大的mrnamrna,再由同一,再由同一条条mrnamrna翻译出几个结构蛋白。翻译出几个结构蛋白。22235 3 -35ttgac-10tataat结构基因结构基因2. 原核生物的基因结构原核生物的基因结构 pribnow盒;细菌转录单位起点上游约10bp处的保守区域,它可 能参与结合rna聚合酶;共有序列=tataat细菌转录单位起点上游约35bp处的保守六聚体;共有序列=ttgac 或tgttgaca orf的识别是证明一个新的dna序列为特定的蛋白质编码基因的部分或全部的先决条件。 24rnarna

22、转录起始转录起始-35-35区区-10-10区区ttgacattgacattaactttaacttttacatttacatatgattatgattttacatttacatatgtttatgttttgatattgatatataattataatctgacgctgacgtactgttactgtn n1717n n1616n n1717n n1616n n1616n n7 7n n7 7n n6 6n n7 7n n6 6a aa aa aa aa atrptrp trna trnatyrtyrlaclacrecreca aara ara badbad ttgaca ttgaca tataat tat

23、aat共有序列共有序列25对于任何给定的核酸序列(单链dna或mrna),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列attcgatcgcaa这三种阅读顺序称为阅读框(reading frames)caa a attcgatcgattcgatcgcaaattcgatcgca(1)(3)(2)26一个开放阅读框(一个开放阅读框(orf,open reading frame)是一个没有终止编码的密码子序)是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。273.真核生物的

24、基因结构真核生物的基因结构pol:转录:转录rrnarrna(5s rrna5s rrna除外)除外)pol:转录蛋白质编码基因:转录蛋白质编码基因pol :转录编码众多小:转录编码众多小rrnarrna(包括(包括trnatrna和和 5s rrna5s rrna)的基因。)的基因。与原核生物基因的主要区别与原核生物基因的主要区别内含子(内含子(intron)(非编码序列)(非编码序列)在基因表达过程中,内含子被从初级mrna分子剪切掉,形成成熟的功能功能mrna真核生物中有三种不同的真核生物中有三种不同的rna聚合酶聚合酶28编码区非编码区非编码区非编码区非编码区与与rna聚酶聚酶结合位点

25、结合位点内含子内含子 外显子外显子 编码区上游编码区上游 编码区下游编码区下游 真核基因的结构真核基因的结构293、真核生物基因结构、真核生物基因结构 真核生物的结构基因的真核生物的结构基因的dna序列由编码序列和非编序列由编码序列和非编码序列两部分组成,编码序列是不连续的,被非编码序码序列两部分组成,编码序列是不连续的,被非编码序列分割开来,称为断裂基因(列分割开来,称为断裂基因(split gene)。)。1)、外显子和内含子外显子和内含子2)、侧翼序列与调控序列)、侧翼序列与调控序列启动子启动子增强子增强子终止子终止子 30上游上游增强子增强子-80caat-35tata下游下游增强子增

26、强子外显子外显子内含子内含子5 3 真核生物的基因结构真核生物的基因结构31a a、外显子和内含子、外显子和内含子在结构基因中,编码序列称为在结构基因中,编码序列称为外显子外显子( (exon),表达多表达多肽链部分。非编码序列称为肽链部分。非编码序列称为内含子内含子(intron),又称插入,又称插入序列序列内含子能转录为信使rna 。珠蛋白 基因(1700bp)=3个外显子+2个内含子。dmd基因(2300kb)=79个外显子+ 78 个内含子。(迄今认识的最大的基因) 32外显子和内含子外显子和内含子真核生物内含子和外显子 不是完全固定不变的,有时同一dna 链上的某一段dna序列,当它

27、作为编码某一多肽链的基因时是外显子,而作为编码另一多肽链时,则是内含子。这样,同一基因却可以转录两种或两种以上的mrna。真核生物某些结构gene没有内含子,如组蛋白gene,干扰素gene等。它们多以基因簇形式存在,大多数的酵母结构gene也没有内含子。33 5gt 5gtag3ag3法则法则 在每个外显子和内含子的接头区都是一段高度保守的共有序列,内含子的5端是gt,3端是ag,这种接头方式称为gt-ag法则,普遍存在于真核生物中,是rna剪接的识别信号,转录后的前体ran中的内含子剪接位点。34b b、侧翼序列与调控序列、侧翼序列与调控序列 每个结构基因的第一个和最后一个外显子的外侧,都

28、有一段不被转录的非编码区,称为侧翼序列(flanking sequence)。 它是基因的调控序列,对基因的有效表达起调控作用,包括:启动子、增强子、终止子等。35启动子启动子 启动子( promoter)是一段特定的核苷酸序列,位于gene转录起始点上游的100bp 范围内,是rna聚合酶的结合部位,能促进转录过程。promoter决定dna中的转录链。tata框(tata box)是一段高度保守序列,7个bp,tataa/ taa/t,位于转录起始点上游2530 bp(-3050)。tata框与转录因子tfii结合,再与rna 聚合酶ii形成复合物,从而准确地识别转录起始位置,对转录水平有

29、定量效应。36caat框(caat box):是一段保守序列,9bp,gggc/tcaatac, 位于转录起始点上游-70-80bp,转录因子ctf识别位点并与之结合,激活转录。gc框(gc box):顺序为ggcggg,有两个拷贝,位于caat box两侧,与转录因子sp1结合。(sp1有锌指区可以与dna结合,在n端有激活转录的作用)gc框有激活转录的功能。37增强子增强子 增强子(enhancer)包括启动子上游或下游的一段dna序列,可以增强启动子发动转录,提高转录效率。 特点:在任意位置都有效无方向性有组织特异性 例如:beta珠蛋白gene增强子是由串联重复的两个72bp长的相同序

30、列组成,位于转录起点上游-1400bp或下游3300bp处,均可增强转录效率(活性)200倍。增强子在转录起始点的上下游一定范围内增强转录效率。作用可以是53,也可以是35方向。 38增强子(增强子(enhancerenhancer) 能使和它连锁的基因转录频率明显增强的能使和它连锁的基因转录频率明显增强的dnadna序列序列 增强效应十分明显。增强效应十分明显。增强效应与其位置无关,不论增强子以什么方增强效应与其位置无关,不论增强子以什么方 向排列(向排列(5353或或3535),还是在基因的上游),还是在基因的上游 或者下游,均表现出增强效应。或者下游,均表现出增强效应。增强子可远离转录起

31、始点,通常在增强子可远离转录起始点,通常在1 14kb4kb起作用。起作用。增强子没有基因专一性,对同源或者异源基因都有效增强子没有基因专一性,对同源或者异源基因都有效许多增强子具有组织或者细胞特异性,说明只有许多增强子具有组织或者细胞特异性,说明只有 特定的蛋白质参与才能发挥作用。特定的蛋白质参与才能发挥作用。许多增强子还受到外部信号的调控。许多增强子还受到外部信号的调控。39沉默子(沉默子(silencersilencer) 在酵母交配型座位中首次发现,动物、人中也发现。在酵母交配型座位中首次发现,动物、人中也发现。属于负调控元件,可不受距离和方向的限制。属于负调控元件,可不受距离和方向的

32、限制。在真核生物细胞中对成簇基因的表达起重要作用。如在真核生物细胞中对成簇基因的表达起重要作用。如酵母菌酵母菌hmr的的e沉默子。沉默子。4041终止子终止子终止子(terminator)由一段回由一段回文序列以及特定的序列(文序列以及特定的序列(polya)5-aataaa-3组成。组成。回文序列为转录终止号。回文序列为转录终止号。polya为附加信号。终止子为反向重复为附加信号。终止子为反向重复序列,是序列,是rna聚合酶停止工作聚合酶停止工作的信号,反向重复序列转录后,的信号,反向重复序列转录后,可以形成发夹式结构,并且形成可以形成发夹式结构,并且形成一串一串u。发夹式结构阻碍了。发夹式

33、结构阻碍了rna聚合酶的移动。一串聚合酶的移动。一串u的的u与与dna模板中的模板中的a的结合不稳定,的结合不稳定,从模板上脱落下来,终止转录。从模板上脱落下来,终止转录。42调控序列调控序列调控序列(regulator sequence)包括启动子,增强子和终止子均属于基因的顺式调控因子(顺式作用元件),是人类gene组中的一些特殊序列,起调控基因表达的作用。反式作用元件:tfii、ctf、sp1。43c cdnadnaa adnadna反式调节反式调节c c顺式调节顺式调节 mrna mrna c c蛋白质蛋白质c cb ba a mrnamrna蛋白质蛋白质a aa a44原核细胞原核细

34、胞 真核细胞真核细胞不同点不同点相同点相同点原核细胞原核细胞真核细胞真核细胞不同点不同点编码区是连续的编码区是连续的编码区是间隔的、编码区是间隔的、不连续的不连续的相同点相同点都由能够编码蛋白质的编码区和具都由能够编码蛋白质的编码区和具有调控作用的非编码区组成的有调控作用的非编码区组成的原核细胞与真核细胞的基因结构比较:45“内含子”“外显子”“编码区”“非编码区”? 二者都是对于基因而言的,编码的部分为外显子,不编码的为内含子,内含子没有遗传效应。 外显子就是在成熟mrna中保留下的部分,也就是说成熟mrna对应于基因中的部分。 内含子是指在mrna加工过程中被剪切掉的部分,在成熟mrna中

35、不存在的部分。 所谓mrna就是信使mrna,是将来可以翻译成蛋白质的一种核糖核酸。生物体的各种表型效应都是由于基因的最终产物蛋白质引起的。 虽然以前认为内含子是没有什么功能的,但现在的研究认为内含子可能有一定的功能,比如在mrna加工过程中起帮助作用、可能对机体有一定的调控作用,并且内含子只是对一个特定的基因而言是它的内含子,此内含子对于其它的基因而言,也有可能是外显子或者外显子的一部分。 外显子是编码区内的有效编码序列,内含子是编码区中的非编码序列。两者都能被转录为rna(确切地说,是hnrna),然后被rna加工机制把内含子切掉,成为成熟的mrna然后就只剩下外显子了 编码区能被转录为r

36、na,非编码区不能被转为rna,大片是废物,有些有重要的调控作用。内含子能转录为信使rna46启动子与起始密码有何不同启动子与起始密码有何不同启动子是基因结构中位于编码区上游的核苷酸序列,是rna聚合酶结合位点,能够准确地识别转录的起始点并开始转录,有调控遗传信息表达的作用。而起始密码则是mrna上的三个相邻碱基(aug,gug)。启动子不止三个碱基。 47终止子和终止密码终止子和终止密码有何不同有何不同终止子是在非编码区内紧靠转录终点,调控遗传信息表达的dna序列。它特殊的碱基排列顺序能够阻碍rna聚合酶的移动,并使其从dna模板链上脱离下来,从而使转录工作结束。终止密码位于mrna上,共有

37、三种:uaa、uag、uga。48二、基因组学二、基因组学 genomics1.1.基因组(基因组(genomegenome) 是指单倍体细胞中所含有的全套遗传物质是指单倍体细胞中所含有的全套遗传物质 病毒:病毒:103 bp 如如x174x174噬菌体是单链环状噬菌体是单链环状dnadna,5 5 10 103 3 bpbp 细菌:细菌:106 bp 大肠杆菌染色体大肠杆菌染色体dnadna,4.7 4.7 10 106 6 bpbp 真核生物真核生物:109 bp 人的染色体人的染色体dnadna, 3.2 3.2 10 109 9 bpbp 49一)、基因组及表达的概念一)、基因组及表达

38、的概念* * 基因组基因组(genome)(genome)一个细胞或病毒所携带的全部遗传信息或一个细胞或病毒所携带的全部遗传信息或整套基因。整套基因。基因经过转录、翻译,产生具有特异生物学基因经过转录、翻译,产生具有特异生物学功能的蛋白质分子的过程。功能的蛋白质分子的过程。* * 基因表达基因表达(gene expression)(gene expression)基因表达是受调控的基因表达是受调控的50基因组学概念基因组学概念基因组学基因组学(genomics)(genomics)就是发展和应用就是发展和应用dnadna制图、测序新技术以及计制图、测序新技术以及计算机程序,分析生命体(包括人类

39、)全部基因组算机程序,分析生命体(包括人类)全部基因组结构及功能。结构及功能。51基因组学包括:基因组学包括:结构基因组学结构基因组学(structural genomics) (structural genomics) 功能基因组学功能基因组学(functional genomics)(functional genomics)比较基因组学比较基因组学(comparative genomics) (comparative genomics) 52* *结构基因组学结构基因组学结构基因组学结构基因组学(structural genomics)(structural genomics)是通过是通过

40、hgphgp的实的实施来完成的。施来完成的。human genome project,hgphgp的内容就是制作高分辨率的人类遗传图和物理图,的内容就是制作高分辨率的人类遗传图和物理图,最终完成人类和其它重要模式生物全部基因组最终完成人类和其它重要模式生物全部基因组dnadna序序列测定,因此列测定,因此hgphgp属于结构基因组学范畴。属于结构基因组学范畴。53第一期称作“结构基因组学”的15年计划(19902005)的目标是:(1)建立、维持和扩充有关dna顺序、遗传标志和基因位置、功能及其他有关信息的数据库。(2)绘制人类染色体图谱(遗传图谱)。(3)建立包括覆盖整个染色体的排序dna克

41、隆库在内的材料库。(4)发展分析dna的新仪器设备。(5)发展分析dna的技术。(6)对模式生物进行类似工作。(7)测定人类基因组dna的全序列。(8)有关的社会学、伦理学、管理学和技术转让等问题的研究。 54(一)物理制图(一)物理制图 (二)遗传制图(二)遗传制图 (三)基因组(三)基因组dnadna序列测定序列测定 (四)创建计算机分析管理系统(四)创建计算机分析管理系统 hgphgp包括:包括:55hgphgp主要任务及内容主要任务及内容56通过通过hgphgp获得的广泛基因组信息组成了结构基因获得的广泛基因组信息组成了结构基因组学的基本内容,是开展功能基因组学的研究的组学的基本内容,

42、是开展功能基因组学的研究的基础;同时为详尽研究每一个单基因遗传病提供基础;同时为详尽研究每一个单基因遗传病提供“平台平台”,并将成为复杂的多基因遗传病研究的,并将成为复杂的多基因遗传病研究的发端发端57* *功能基因组学功能基因组学完成一个生物体全部基因组测序后即进入后基因组完成一个生物体全部基因组测序后即进入后基因组测序阶段测序阶段详尽分析序列,描述基因组所有基因详尽分析序列,描述基因组所有基因的功能,包括研究基因的表达及其调控模式,这就的功能,包括研究基因的表达及其调控模式,这就是功能基因组学(是功能基因组学(functional genomicsfunctional genomics)5

43、8(一)鉴定(一)鉴定dnadna序列中的基因序列中的基因(二)同源搜索设计基因功能(二)同源搜索设计基因功能 (三)实验性设计基因功能(三)实验性设计基因功能 (四)描述基因表达模式(四)描述基因表达模式 主要具体内容包括以下方面主要具体内容包括以下方面 59功能基因组学研究策略及主要内容功能基因组学研究策略及主要内容60* *比较基因组学比较基因组学比较基因组学比较基因组学(comparative genomics)(comparative genomics)涉涉及比较不同物种的整个基因组,以便深入理解及比较不同物种的整个基因组,以便深入理解每个基因组的功能和进化关系。每个基因组的功能和进

44、化关系。 61二二. .基因组学与医学关系基因组学与医学关系the relation between genomics and medicine62* *基因病的概念基因病的概念以基因组学为基础,从疾病和健康的角以基因组学为基础,从疾病和健康的角度考虑,人类疾病大多直接或间接地与基因度考虑,人类疾病大多直接或间接地与基因相关,故有相关,故有“基因病基因病”概念产生。根据这一概念产生。根据这一概念,人类疾病大致分为三类:概念,人类疾病大致分为三类:(一)单基因病(一)单基因病 (二)多基因病(二)多基因病 (三)获得性基因病(三)获得性基因病 63是指受一对等位基因控制的遗传病,有6600多种,

45、并且每年在以10-50种的速度递增,单基因遗传病已经对人类健康构成了较大的威胁。较常见的有红绿色盲、血友病、白化病等。根据致病基因所在染色体的种类,通常又可分四类:常染色体显性遗传病 常染色体隐性遗传病 x连锁显性遗传病 x连锁隐性遗传病 y连锁遗传病连锁遗传病64多基因遗传病是遗传信息通过两对以上致病基因的累积效应所致的遗传病,其遗传效应较多地受环境因素的影响。与单基因遗传病相比,多基因遗传病不是只由遗传因素决定,而是遗传因素与环境因素共同起作用。与环境因素相比,遗传因素所起的作用大小叫遗传度,用百分数表示。如精神病中最常见的也是危害人类精神健康最大的疾病精神分裂症,是多基因遗传病,其遗传度

46、为80,也就是说精神分裂症的形成中,遗传因素起了很大作用,而环境因素所起的作用则相对较小。多基因遗传病一般有家族性倾向,如精神分裂症患者的近亲中发病率比普通人群高出数倍,与患者血缘关系越近,患病率越高。多基因遗传病的易患性是属于数量性状,它们之间的变异是连续的。孟德尔式遗传即单基因遗传性状是属于质量性状,它们之间的变异是不连续的。65获得性基因病是由病原微生物感染所致,不会遗传,大多是病原微生物基因与人体基因相互作用的结果,如艾滋病、病毒性肝炎等即是。 66* *基因组学与肿瘤病因学基因组学与肿瘤病因学* *基因组学与流行病病因学基因组学与流行病病因学* *基因组学与医学伦理、法律和社会问题基

47、因组学与医学伦理、法律和社会问题67* *疾病相关基因的鉴定疾病相关基因的鉴定(一)检测人类基因变异或突变(一)检测人类基因变异或突变 (二)疾病时基因组差异表达分析(二)疾病时基因组差异表达分析 (三)染色体制图定位及疾病相关基因克隆(三)染色体制图定位及疾病相关基因克隆68除dna直接测序外,较常用的方法有单链构象分析(single-strand conformational analysis, ssca)或单链构象多态性(single-strand conformational polymorphism, sscp)、限制性片段长度多态性(restriction fragment len

48、gth polymorphism, rflp)、变性梯度胶电泳(denaturing gradient gel electrophoresis, dgge)、异质重叠分析(heteroduplex analysis, ha)、化学错配裂解(chemical mismatch cleavage, cmc)和蛋白质删除试验(protein truncation test, ptt)。当前采用最多的就是“单核苷酸多态性”(single nucleotide polymorphisms, snps“snips”)分析。69众所周知,每个人都携带有两个不同的“基因组”,分别来自父母双亲。根据部分基因组序

49、列分析,两个个体之间(双胞胎除外)大约每500 1 000 bp就有一个碱基差异。如果一个碱基位置发生的变异在1%以上的人群存在,这个位点就被定义为snp位点。1999年以前只有数千个snp位点被鉴定;随着phgp实施,至2000年这个数字增加了1 000倍,而且还准确知道这些碱基变异的位点在基因组何处。目前(2002年)已发现1 420万个snp,其分布密度为1个/1.91kb;这就意味着,在基因组中90%以上任何20 kb的dna序列延伸将含有1个或更多的snp,这个密度在含基因的区域更高。“国际snp制图工作小组”已经在基因中鉴定出60 000个snps(“编码”snps),即每1.08

50、 kb的基因序列就有一个snp;93%的基因都含有一个snp。基因组序列变异有的对人类疾病敏感,有的有保护作用。例如,apoe基因单个碱基变异与alzheimer病发病相关。细胞因子受体基因ccr5中一个单纯缺失突变会导致对hiv或aids抗性。在全基因组snp制图基础上,通过比较病人和对照人群之间snps的差异,鉴定与疾病相关的snps,这一研究导致了“遗传医学”(genetic medicine)的发生。70snp的等位基因分型可采用寡核苷酸杂交分析(ologonucleotide hybridization analysis)(和等位基因特异寡核苷酸(allele-specific ol

51、ogonucleotide,aso)杂交进行;大规模snps自动分型通常是通过dna微点阵(dna microarrays)(dna芯片(dna chips)、基因芯片点阵(genechip arrays)和寡核苷酸点阵(oligonucleotide arrays)技术来实现的。71寡核苷酸杂交分析寡核苷酸杂交分析snpsnp和等位基因特异和等位基因特异寡核苷酸杂交寡核苷酸杂交 72dnadna芯片检测的差异表达谱芯片检测的差异表达谱73(二)疾病时基因组差异表达分析 实质上就是将“基因病”概念与功能基因组学(转录组学)原理、技术相结合,分析、鉴定与某一疾病或征候群相关的多个基因表达水平。当

52、前开展最多的就是dna芯片技术。为比较两个dna或rna样品(例如:一个样品来自疾病受累细胞,另一来自正常细胞)相对丰度,分别将两样品标记红、绿不同颜色的荧光颜料,混合后与芯片上的dna或寡核苷酸探针(数千甚至上万)杂交,故称平行分子遗传学分析(parallel molecular genetic analysis)。在同一杂交斑中,如果相同的分子在受累细胞含量或表达量高,则显红色,反之则显绿色;如果两种细胞含量或表达量相等,杂交结果显黄色。通过荧光显微镜或激光共聚焦显微镜扫描系统就可获得两样品的序列和相对丰度的信息,经计算机分析可获得基因分子差异表达图。采用生物芯片不仅可发现肿瘤等疾病相关的

53、基因,还可通过药物干预、无干预细胞差异表达分析,找到药物作用的靶分子,揭示药物作用机理。这就是药理基因组学。 74(三)染色体制图定位及疾病相关基因克隆 完成基因组全序列分析后,结合hgp发现的大量可利用的(多态性探针资料,stss资料,克隆资料,遗传的、物理的和整合的图谱资料,限制性片段、dna片段)序列资料,将会使疾病相关基因的克隆更为快捷、方便。在采用定位、或定位-侯选基因策略“克隆”一个疾病相关基因前,需要将寻找的疾病基因在染色体上定位。定位可依据染色体原位杂交(in situ hybridization)、染色体畸形(chromosomal abnormality)分析、连锁分析(l

54、ikage analysis)等(参见遗传学)作出判断。对疾病相关基因的克隆有下述几种情况:已掌握疾病相关基因或其产物的确切信息;已掌握与疾病可能相关的基因预测资料;对疾病相关基因毫无所知。最后一种情况最多见,随着hgp测序工作的完成及转录组学、蛋白质组学研究进展,前两种情况会逐渐增加。在大规模多态性全基因组扫描等确定病基因在染色体上的定位后,结合基因组信息查询,采用适当策略也可实现病基因克隆。根据以上不同情况,可采取以下4种策略猎取疾病基因,即功能基因克隆、侯选基因克隆、定位基因克隆及定位-侯选基因克隆。75三三、基因组学与肿瘤病因学(基因组学与肿瘤病因学(genomics and tumo

55、r etiology)在生命全过程中,人类细胞dna始终暴露于各种致癌因子,引起dna损伤;如果损伤未能及时修复,或修复时发生错配,就会发生突变。一旦突变发生在某个关键基因,并改变其功能,就可能导致细胞异常增殖,异常增殖的细胞克隆的形成结局就是发生肿瘤。所以说,所有肿瘤的发生均可归因于dna异常。目前,已鉴定出大约30个隐性癌基因(肿瘤抑制基因)和100多个显性癌基因。过去常采用制图策略发现这些隐性癌基因和显性癌基因:首先将一些基因局限、定位在肿瘤病人的小部分基因组范围内,然后在此范围内扫描突变,寻找出候选基因。然而,这种策略有一定的局限性,常发生制图信息混乱或误导。例如,某些显性癌基因仅因一

56、个碱基置换,导致单个氨基酸变化而被激活;这种肿瘤基因变化在基因组中没有明显的“鉴定标志物”,不能被制图方法真正定位。76随着基因组学的发展,发布的基因组序列和蛋白质序列资料库日益增长、扩大,使科学家有可能为发现新的肿瘤候选基因提出新的策略。策略之一是,利用已知的隐性癌基因和显性癌基因氨基酸序列与根据基因组序列演绎的氨基酸序列进行比较,如果二者的氨基酸序列存在50%以上的同源性或相似性,则基因组内的这一序列可能为新的隐性癌基因或显性癌基因。目前,尽管采用这种策略尚未获得满意结果,相信随着转录组、蛋白质组研究的深入,以及蛋白质数据库的扩展,可能会取得进展。还有一种策略是比较人类基因组与肿瘤基因组结

57、构。目前正在实施的肿瘤基因组解剖工程(cancer genome anatomy project)就是想通过建立各种肿瘤的cdna文库,将其与基因组工作草图进行比较,发现可使肿瘤抑制基因失活,或显性癌基因激活的碱基置换、插入和缺失,探索肿瘤发生时基因变化的不同类型。这一策略与下述事实相符:基因重排常导致癌基因激活,这种基因重排表现的染色体易位在白血病、淋巴瘤和肌肉瘤中极其常见。基因重排可导致嵌合转录本的出现。随着肿瘤cdna文库建设,以及文库测序工作的进展,一定会发现新的肿瘤相关基因。 上述策略也适用于其它病因学研究和探索。 77四、基因组学与流行病病因学四、基因组学与流行病病因学(genom

58、ics and epidemic etiology) 完全的基因组序列测定将会加强所有疾病相关基因的鉴定。在当前的遗传医学和流行病学研究中,医学科学家希望通过对疾病相关基因及其产物进行分类,揭示人类疾病的基本原理。有人将近1 000个病历的发病基因(包括单基因病基因、临床复杂疾病敏感性基因;不包括非遗传性肿瘤、线粒体基因组),按编码蛋白质的功能分为14组;同时结合患者临床表现、病理学特性、发病年龄、遗传方式、频率、严重程度、所涉组织范围、与畸形/残废的关系进行评分,进而分析14组基因产物与发病表现的关系。结果显示,在923例病人中发病原因最多的系由酶功能异常引起,占全部发病的31.2%;其次是

59、蛋白质功能调节分子(包括调节蛋白质稳定性、激活、折叠等),占13.6%;受体、转录调节因子引起的疾病各占(大约)7%8%;细胞内基质、细胞外基质相关疾病分别为6%7%;78其余如跨膜蛋白、离子通道、细胞信号分子、激素、细胞外转运蛋白、免疫球蛋白及其它基因编码产物相关疾病分别占1%4%;此外尚有一些未知分子编码基因约占6%。胚胎期和胎儿期发病由酶异常引起的为20%,转录因子引起为25%,其余超过5%的为蛋白质功能调节蛋白、受体、细胞外基质、通道和其它分子。出生1年内酶发病占约46%47%,受体病约占10%,大于5%发病率的为蛋白质功能调节蛋白、转录因子、受体、细胞内基质和细胞外基质分子。青春期酶异常占31%32%,大于10%的是蛋白质功能调节蛋白和受体,5%或以上者为转录因子、细胞内基质、细胞外基质及跨膜转运蛋白。青壮年期酶相关疾病21%左右,调节蛋白异常略多于酶。50岁以上仍以酶(32%33%)和调节蛋白(21%22%)功能异常发病为主。这种流行病病因学调研分析可为临床诊断、疾病防治提供重要线索。此外,基因组基因功能分类与疾病关系探索还可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论