第十章-细菌基因组学课件_第1页
第十章-细菌基因组学课件_第2页
第十章-细菌基因组学课件_第3页
第十章-细菌基因组学课件_第4页
第十章-细菌基因组学课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、细菌的基因组学吴震州“了解一个有机体的全部生物学的先决条件是确定它的完整的基因组序列。” J.Craig Venter (Founder and Chairman of TIGR)一、产生背景及概念 1. 背景:1985年提出人类基因组计划(HGP),随着HGP的提出和实施,产生的基因组学。 基因组计划基因组(genome)是生物体内遗传信息的集合,是某个特定物种细胞内全部DNA分子的总和。基因组学(genomics)是指研究并解析生物体整个基因组的所有遗传信息的学科。基因组计划(Genome Project)是指对人类以及其它生物体全基因组的测序工作(sequencing)。人类基因组计划(

2、Human Genome Project,HGP): 90年代提出并已基本完成,同40年代原子弹爆炸,60年代人类登月一起被认为是二十世纪科技发展史上的三大创举。2. 概念以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。3、基因组学的发展历程流感嗜血杆菌( haemophilus influenzae)1995 年7 月第一个细菌基因组全序列发表,大小为1.8 Mb。含1703 个基因或开放阅读。这是微生物乃至整个生物学领域的一个里程碑.(Science)1997 年9 月,大肠杆菌

3、的完整基因图谱已绘制成功, 基因组全序列完成, 全长为5Mb ,共有4 288 个基因,同时也搞清了所有基因产物的氨基酸序列.人们常说,每个分子生物学家都对两种生物感兴趣,一种是所研究的物种,另一种就是E. coli。研究人员可以利用实验室中的E. coli菌株克隆DNA、表达蛋白质、分离目的基因等,如果没有E. coli,实验室将无法工作。啤酒酵母,1997年,第一个真核生物基因组图谱公布。秀丽线虫( caenorhabditis elegans) 1998 年12 月完成了基因组测序。基因组大小100 Mb ,分布于6 条染色体,预测有19,099 个基因。果蝇Celera公司2000 年

4、3 月宣布了基因组全序列为180 Mb。有13 601 个基因,其中一半的基因功能还没有搞清楚,有1 600 个碱基跨度区仍未能完全测序。2000 年12 月,第一个植物基因组拟南芥基因组被全部测序,遗传图谱、物理图谱建立,序列大小为125 Mb。基因组测序区段覆盖了全基因组的115.4 Mb ,分析共含有25 498 个基因, 编码蛋白来自11 000 个家族。2001年2月中旬,Nature与Science分别发表了人类基因组工作框架图,报告人类基因组共有30 亿个碱基对, 预测编码基因31 000个,比最初预测的10 万个编码基因数大大减少。2002年4月,水稻基因组图谱公布。2002年

5、小鼠、疟原虫和按蚊基因组测序完成鼠基因组共有约27亿个碱基对,比人类少15,但其包含的基因数目约在3万个左右,与对人类基因数的最新估计非常接近。人类基因组计划(HGP)的实施 1986年3月,美国能源部健康与环境研究办公室(Office of Health and Environmental Research)的Charles DeLisi和David Smith在新墨西哥州圣菲市主持召开了一次会议,与会的30多名科学家讨论了测定人类基因组的可行性,并讨论了各种策略,包括酵母人工染色体、噬菌体和粘粒图谱(cosmid map),随机鸟枪测序(random shotgun sequencing和

6、cDNA等。大多数人主张用图谱,用大量酵母人工染色体和粘粒克隆来交叠覆盖人类基因组,然后再对单个克隆测序,依此估计,每完成一个碱基要花费1美元,整个项目需要30亿美元。 1986 年诺贝尔奖获得者R. Dulbecco提出人类基因组计划测出人类全套基因组的 DNA 碱基序列( 3 X 109 bp);1988,美国国家研究委员会(National Research Council)开始支持人类基因组计划,并每年投资2亿美元 ;1988,美国国立卫生院(National Institute of Health, NIH)从能源部手中抢走了领导权,开始领导负责人类基因组计划,由国立卫生研究院和能源

7、部共同组成“人类基因组研究所(NHGIR)”;1990,美国政府决定正式启动HGP,预计用 15 年时间,投入 30 亿美元,完成 HGP逐渐地,HGP 扩展为多国协作计划。参与者包括:欧共体、日本、加拿大、俄罗斯、巴西、印度和中国等国的科学家。 2003年人类基因组计划宣布,人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现人类遗传变异图谱研究以及黑猩猩基因组测序计划开始2003年11月,世界上首个复杂生物体的蛋白图谱果蝇蛋白图谱公布,从而实现了只显示遗传密码的基因图谱到揭示遗传密码功能的蛋白图谱的飞跃。这个果蝇(Drosophila melanogaster)蛋白图谱发表在科学杂志

8、的网络版上这篇研究发布的这个含有7,000多个果蝇蛋白的图谱含盖了这些蛋白之间超过20,000种不同的互作。这些果蝇蛋白有许多与人类蛋白类似,适于作为研制小分子药物如用于治疗癌症、心脏病和糖尿病的口服药片等的靶点2004年月日多国科学家组成的两个研究小组宣布绘制出鸡的基因序列草图和遗传差异图谱。 科学家选取了家鸡的远祖红原鸡为测绘对象,绘制出了草图中约10亿个碱基对,相当于人类的三分之一。科学家在日出版的Nature杂志上载文说,分析发现,红原鸡约有万到2.3万个遗传基因,与人类数量基本持平,其中有60与人类相同。鸡基因组的分析还仅仅是开始,不过已经得出了一些出人意料的结果。科学家们发现,控制

9、鸡生成角蛋白的基因与预想的不同。角蛋白构成人类的头发、指甲,以及鸟类的喙和羽毛,科学家一直认为哺乳动物和鸟类的角蛋白来源相同。但图谱显示,鸡的角蛋白基因与哺乳动物的区别很大。科学家由此推测,角蛋白可能独立进化出了两次。意外的发现另外,此前科学界一致认为鸡没有嗅觉,但是分析结果表明鸡具有大量的嗅觉基因,味觉基因却很缺乏。分析还发现,鸡缺乏人类所具有的产生乳汁、唾液和牙齿的基因。意外的发现鸡基因组研究的意义鸡是研究低等脊椎动物和人类等哺乳动物的一种比较理想的中介。将人类基因组与鸡等其他生物的基因组进行比较,有助于更深入理解人类基因的结构和功能,进而开发治疗疾病的新手段,对于培育优质鸡种、改善食品安

10、全、控制禽流感病毒的蔓延也有重要意义。鸡是种常见的家禽,长期受到进化生物学家的青睐。它的基因序列也有助于科学家了解农业和进化学上重要特性的遗传学基础。鸡的进化研究转基因小鸡对鸡和人类的基因组进行比较后发现约七千万个碱基对是共有的。这暗示着在大约三亿一千万年前二个物种从共同祖先分化出来的时候,遗传物质具有守恒性。鸡和所有的哺乳动物多起源于恐龙鸟类的祖先始祖鸟“分道扬镳”在鸟类和哺乳动物分离的时候,鸡获得了生成羽毛和喙的蛋白质的基因,而哺乳动物获得了毛皮蛋白质的基因,丧失了与蛋清和蛋黄有关的基因。鸡的基因组比哺乳动物的紧凑的多,它拥有20万到23万个基因,但仅有十亿个DNA碱基,而同样多的基因人类

11、需要三十亿个碱基。鸡的基因数量与哺乳动物的相当,但它的基因组含有重复的“垃圾”DNA的数量很少。我国科学家在鸡基因组学研究上的重大突破中国科学院北京基因组研究所在国际合作的框架下参与和主持完成的原鸡基因组和家鸡基因组多态性研究并于2004年12月9日发表在自然杂志上以主题科学论文的形式发表。Science发表论文我国家蚕基因组研究获国际认可丝腺是合成茧丝蛋白质的生物器官,是蚕丝产业的生物学基础。科学家通过分析家蚕基因组和基因表达谱,发现了1874个家蚕丝腺特异基因,其中97为新发现;发现了丝腺中激素活动的证据;科学家甚至比较了家蚕与被称为“生物钢”的蜘蛛丝的生产者蜘蛛的基因构成,发现了它们共同

12、拥有的个基因。这些功能基因的获得和功能分析的深入开展,将彻底突破茧丝蛋白质合成相关基因克隆和研究的瓶颈。而随着家蚕丝腺特异基因研究的深入,中国将很快在改造丝蛋白质结构,克服丝绸天然加工弱点等重要产业技术的研发方面取得突破。微生物基因组相对较小,易于操作,它的研究比人类基因组计划先行一步,起到了“开路先锋”的作用微生物基因组学所取得的理论和技术进展,为人类基因组计划提供了及有益的借鉴微生物基因组计划的发展,可以为研究人类未知基因的功能提供宝贵的线索一些模式生物,如大肠杆菌和酿酒酵母菌,本身就是人类基因组计划的研究内容人类基因组计划的强大资金投入和在人类基因组计划中发展和完善起来的生物信息学技术又

13、极大地促进了微生物计划的飞速发展由于微生物种类的多样性,可以估计,人类在微生物基因组的总测序量将会超过人类基因组计划两者的发展相互交融,密不可分。1994年: 美国DOE (Department of energy)启动MGP;MGP是对人类基因计划的延续,该计划主要是对环境或能 源相关,系统发生学相关,或具有潜在商业应用性的微生 物基因组进行完全测序,目的是为了更好的了解地球上的 微生物资源。截至2003年4月,MGP已完成约100株微生物 基因组的测序。它的研究计划还包括和应用微生物学相关的生物技术,如 纤维素降解,碳吸收等等。微生物基因组计划(MGP)测序微生物的类别几乎所有类别的病毒模

14、式微生物极端环境微生物病原原核生物环境降解微生物其他Viruses微生物基因组的特点类别特征染色体结构多为一条环状闭合双链DNA基因组大小从0.16-13Mb编码序列占基因组总长度的90%,平均为1Kb左 右GC含量16.6%-74.9%DNA链组成的非 对称分布GCskew、ATskew、基因方向性偏好、 密码子使用偏好1. 原核生物基因组的大小-基因组较小的原核生物ProkaryocyteGenome(kb)ORFMycoplasma genitaliumG-37B0580468Buchnera sp640583Buchnera aphidicola SG641545Glossina br

15、evipalpis679621Ureaplasma urealyticum serovar3B0751613Mycoplasma pneumoniae M129B0816677Mycoplasma pulmonis963782Borrelia burgdorferi B31B1910853Treponema pallidumNichols B11,1381,041Chlamydia trachomatis serovarD1,042894Chlamydia trachomatis MoPnB11,069924Chlamydia pneumoniae J1381,2281,070Chlamydi

16、a pneumoniae AR39B11,2291,052Chlamydia pneumoniae CWL029B11,2301,052Rickettsia conorii Malish 71,2681,374Rickettsia prowazekii Madrid EB11,1118341.原核生物基因组的大小-基因组较大的原核生物ProkaryocyteXanthomonas campestrisGenome(kb)5,076ORF4,182Xanthomonas axonopodis5,2734,386Methanosarcina acetivorans C2A5,7514,540Ral

17、stonia solanacearum GMI10005,8105,120Escherichia coli O157:H7. Sakai5,9965,448Pseudomonas aeruginosa PAO1B66,2645,570Nostoc sp. PCC 71206,4135,366Sinorhizobium meliloti6,6906,205Mesorhizobium loti MAFF3030997,0366,752Streptomyces coelicolor A3(2)8,6677,8252.原核生物基因组的编码序列(Coding sequence)ORF占原核生物基因组总序

18、列的90基因的平均大小为1kb2.原核生物基因组的编码序列不同生物编码序列的比较OrganismBuchnera spGenome (kb)640ORFs583ORF size988Coding Sequence(%)90Aquifex aeolicus1,5511,51295693Saccharomyces cerevisiae12,0696,2941,09257Schizosaccharomyces pombe14,0004,8202,03370Caenorhabditis elegans97,00019,0991,31127Arabidopsis thaliana115,42825,49

19、846029Homo sapiens3,000,00030,0001,34023.原核生物染色体结构大多数原核生物:一条环状闭合双链DNABrucella suis 1330:两条环状闭合双链DNA2,107,792 bp (Chr I)1,207,381 bp (Chr II)Vibrio cholerae:两条环状闭合双链DNA2,961,146 bp (Chr I)1,072,314 bp(Chr II)Borrelia burgdorferi B31:910,725 bp ( linearChromosome)21 linear and circular plasmidsTrepone

20、ma pallidum:一条环状闭合双链DNA1,138,006 bp4.GC 含量原核生物基因组GC含量为:25.5-67.9 %嗜温菌基因组GC含量与rRNA、tRNA的GC含量成正比嗜热菌rRNA、tRNA的GC含量与基因组GC含量不成正比,但与OGT(最适生长温度)成正比tRNA GC含量 总是大于rRNA的GC含量4.GC 含量嗜温菌基因组G+C 含量(%)OrganismGenomerRNAtRNAUure25.545.452.9Buch26.348.153.3Mpul26.646.254.8Bbur28.646.754.5Rpxx29.048.255.2Cjej30.548.15

21、6.4Cace30.950.555.1Mgen31.745.652.5SaurN32.850.557.64.GC 含量嗜温菌基因组G + C content (%)(续)linear regression0.880.80OrganismXfasGenome52.7rRNA53.1tRNA59.8Tpal52.853.157.2Mlep57.855.761.6Atum59.454.658.4Smel62.754.561.5Mlot62.756.360.5Mtub65.658.062.0Paer66.653.160.1Drad67.056.558.8Ccre67.255.061.2Hbsp67.9

22、58.162.44.GC 含量嗜热菌最适生长温度(OGT)与GC含量的关系linear regression0.010.920.90OrganismOGT()GenomerRNAtRNAPabyssi1030.450.670.70Pyro980.420.630.71Aero950.560.680.73Mjan850.310.610.66Aquae850.430.650.68Aful830.490.630.68Ssol800.360.620.67Tmar800.460.630.65Tten750.380.590.60Mthe650.500.570.62Tvol600.400.530.61Taci

23、d590.460.530.615.重复序列非编码重复序列编码重复序列paralogous genes family5.重复序列Repeats in T. maritimaGenome Class LengthCopies Database matchSR-0130143tttccatacctctaaggaattattgaaacaLR-011,8972hypothetical proteinLR-021,4032a-glucosidaseLR-031,1374putative transposaseLR-041,0822methyl-accepting chemotaxis proteinLR-

24、058582putative transposaseLR-065552helicaseLR-072522excinucleaseLR-082412putative transposase5.重复序列Largest families of paralogous genesFamilyNumber of genes(total 312)(total 853)ATP-binding subunits of ABC transporters23Reductases/dehydrogenases12Two-component system, regulatory proteins12Hypothetic

25、al proteins10Transcriptional regulators9Fimbrial proteins9Two-component system, sensor proteins96.DNA链组成的非对称性GC分布不对称(GCskew) AT分布不对称(ATskew)前导链含有较多的G(A)而另一条链含有较多的C(T)6.DNA链组成的非对称性(真细菌)基因方向性偏好基因方向性偏好(geneorientationbias)先导链上编码的基因总是多于后随链6.DNA链组成的非对称性(真细菌)GCskew,ATskew,geneorientationbiasOrganism (34株)

26、Gene biasc(%)GC skewdAT skeweTten86.70.1920.075Llact80.70.0990.034Mgen80.40.0450.045Spneu80.20.1020.016Spyo79.40.0940.022Cace79.00.2120.078Bhal77.40.1000.034Mpneu77.30.0140.022SaurN74.70.1220.051Bsub74.20.0790.045Uure68.10.0590.029Bbur66.20.182- 0.086.Ccre54.30.016- 0.0146.DNA链组成的非对称性密码子使用偏好(codon u

27、sage bias)先导链和后随链密码子的不同在先导链,以G或T开头或结尾的密码子显著地多于 后随链,常见的有GTG、GCG和GAG在后随链以C或A开头或结尾的密码子多于先导链, 如CTC、GCC、CCC、ATC和ACC二、基因组学分类1、根据研究对象分:动物基因组学、植物基因组学、肿瘤基因组学、药物基因组学、环境基因组学等。2、 根据研究的重点分:结构基因组学、功能基因组学、比较基因组学三、结构基因组学(一) 概念和目的(二) 基因图谱(三) 结构基因组学研究常用方法(一)概念和目的以全基因组测序为目标的基因结构研究弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础。其目的是建立高分

28、辨的遗传图谱、物理图谱、转录图谱和序列图谱。(二) 基因图谱1. 遗传图谱(连锁图谱)2. 物理图谱3. 转录图谱(表达图谱)4. 序列图谱(分子水平的物理图谱)1. 遗传图谱(连锁图谱)概念:指基因或分子标记在染色体上的相对位置与遗传距离,用厘摩(cM)表示。1cM的遗传距离表示在100个配子中有1个重组子。在哺乳动物中,遗传图谱上1cM的距离大约相当于物理图谱上1 000 000bp。通过该图谱可分清各基因或分子标记之间的相对距离与方向,如靠近着丝粒或端粒。该图谱的构建是以位于同一染色体相邻的2个基因或遗传标记的重组率为基因,因而需要有参考家系和分子遗传标记或基因作为研究基础。2. 物理图

29、谱指DNA序列上两点间的实际距离。用于确定各遗传标记间的物理距离有两种物理图谱:(1)以已定位的DNA序列标记位点(STS)为位标,以DNA实际长度为图谱距离的基因组图谱。(2)由YAC和/或细菌人工染色体(BAC)连续克隆重叠群组成的物理图谱。3. 转录图谱(表达图谱)以EST为位标,根据转录顺序的位置和距离绘制的图谱,它是染色体DNA某一区域内所有可转录序列的分布图,是基因图的雏形。方法:用已在染色体定位的YAC DNA或BAC DNA为探针,与所有可能相关的各组织cDNA文库杂交,寻找其同源克隆并做进一步分析。4. 序列图谱(分子水平的物理图谱)以某一染色体上所含的全部碱基顺序绘制的图谱

30、。既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。举例:Nisin 基因簇(三)结构基因组学研究常用方法1. 脉冲场凝胶电泳(PFGE)2. 毛细管电泳3. 基因芯片技术4. 全基因组随机测序四、功能基因组学1. 概念:利用结构基因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析为特征,全面系统地分析全部基因的功能。研究角度包括:生物学功能、细胞学功能、发育学功能等。2.功能基因组学常用方法和技术 RNA干扰技术(RNAi)蛋白质组学研究生物信息学研究RNA干扰技术(RNAi)将一段dsRNA导入机体或细胞后,与它有同源序列的基因的表达被干扰或抑制的现象

31、。dsRNA依赖的转录后基因沉默。1998,Fire,线虫作用机制A. Dicer 和Slicer依赖模式: 果蝇胚胎细胞和培养细胞S2B. 随机降解“PCR”模型: 果蝇,线虫,真菌秀丽新小杆线 虫(C. elegans)蛋白质组学(proteomics)蛋白质组( proteome ) : 是由澳大利亚学者Wasinger 等于1995 年提出的,是指由基因组编码的全部蛋白质。蛋白质组学(proteomics) 就是指研究细胞内所有蛋白质及其动态变化规律的科学。生物信息学生物信息学是以计算机为工具,用数理及信息科学的理论和方法研究生命现象,对生物信息进行储存、检索和分析的一门学科。五、比较

32、基因组学利用人类基因组与模式生物基因组之间编码顺序上组织结构上的同源性,发现和克隆人类和其他物种的基因,提示基因功能,从而阐明物种的进化关系及基因组的内在结构。 直接获取基因进行研究工作; 通过与已测序基因的比较,预测新基因的功能与 在代谢中的可能作用分析; 通过分析相关基因活性帮助建立细胞中完整的代 谢网络; 疾病诊断与预测;疫苗与药物的开发; 基因进化、乃至物种进化的分析基因组学提供众多学科全新的起点细菌基因组研究的意义基因组研究在医学的应用 基因组研究的生物技术应用微生物的进化A基因组研究在医学的应用1致病相关基因的鉴定2设计特异的实验诊断方法3疫苗的研究4新型抗生素的开发1.致病相关基

33、因的鉴定通过基因组比较鉴定病原相关基因流感杆菌:7种内毒素(脂多糖)基因25种新基因 细胞表面定居的粘附分子重复序列2.设计特异的实验诊断方法寻找高度特异的核酸序列 实验技术PCR杂交技术(Microarray,DNA chip)应用鉴定病原种类进行临床诊断 病原分型的流行病学研究 预测疾病进展及临床疗效3.疫苗的研究通过全基因组序列的同源性比较,寻找致病菌的属特异、群特异、种特异、型特异、甚至亚型特异 的抗原Pizza等和Tettelin等对血清型B脑膜炎奈瑟菌近350种抗原的研究Wizemann等对肺炎链球菌的基因组的抗原性蛋白研究4.新型抗生素的开发药靶的特征:药靶应是病原生物必需的,在

34、进化上是保守的 可作为药靶的微生物基因或蛋白质:毒力基因、必需基因、菌种专一基因、独特酶类、膜转运 蛋白等B基因组研究的生物技术应用1生物降解作用2酶工业3食品生物技术4抗生物质生物降解作用Deinococcus radiodurans:抵御放射性物质Thermotoga maritima:降解单体或复合植物 聚合物,如木聚糖和纤维素Dehalococcoides ethenogenes:降解四氯乙烯Pseudomonas putida:降解多种毒性有机废料,包括多种芳香族化合物酶工业Thermotoga maritima:耐热 Aquifex aeolicus:耐热Methanogenium

35、 frigidum:耐寒Halobacterium:耐盐,降解塑料 Pseudomonas putida:降解塑料食品生物技术Lactococcus latis:生产发酵食品,微生物营养添加剂抗生物质Streptomyces coelicolor:生产抗生素,用于人类,兽医和农业Photorhabdus luminescens: Bacillus thuringiensis Xenorhabdus nematophilus产生杀昆虫毒素蛋白 转基因抗昆虫植物C微生物的进化基于16S rDNA的系统进化树:Woese等的生物 三域 真细菌域、古生菌域和真核生物域单个基因的进化并不等同于物种的进化基因的水平转移宏基因组学(metagenomics)产生背景人类基因组计划(human genome project,HGP)的完成,从结构基因组学进入以功能性基因组研究为主的后基因组时代人体的生理代谢和生长发育不仅受自身基因控制,还与其他生物基因组相关。已证明体内菌群的组成和活动与人的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论