微生物基因组学_第1页
微生物基因组学_第2页
微生物基因组学_第3页
微生物基因组学_第4页
微生物基因组学_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、微生物基因组学微生物基因组学微生物基因组研究概况微生物基因组的特点微生物基因组研究的意义微生物基因组学微生物基因组学一 微生物基因组研究概况1986年: 美国DOE启动MGP1994年: DOE项目转向项目转向 环境或能源相关环境或能源相关 系统发生学相关系统发生学相关 潜在商业应用性潜在商业应用性 的微生物的微生物1995年:Science发表第一株细菌流感嗜血杆发表第一株细菌流感嗜血杆菌全基因组菌全基因组 19952002年原核生物全基因组测序情况051015202519951996199719981999200020012002已完成测序的病原原核生物(40株)金黄色葡萄球菌(Staph

2、ylococcus aureus,SaurN) 3 肺炎链球菌(Streptococcus pneumoniae,Spneu) 2化脓性链球菌(Streptococcus pyogenes,Spyo) 2脑膜炎奈瑟菌 (Neisseria meningitidis,Nmen) 2沙门氏菌(S. typhi; S. typhimurium ) 2 空肠弯曲菌(Campylobacter jejuni,Cjej) 1大肠杆菌(E. coli O157:H7,Ecoli_O157) 2幽门螺杆菌(Helicobacter pylori,Hpyl ) 2霍乱弧菌(Vibrio cholerae,Vch

3、o) 1已完成测序的病原原核生物鼠疫耶氏菌(Yersinia pestis) 3布鲁氏菌(Brucella melitensis 16M) 1梭菌(Fusobacterium nucleatum 1流感嗜血杆菌(Haemophilus influenzae,Hinf) 1 麻风分枝杆菌(M. leprae,Mlep) 1 结核分枝干菌(M. tuberculosis,Mtub) 2巴斯德氏菌(Pasteurella multocida,Pmul) 1李斯德杆菌(Listeria monocytogenes) 1绿脓假单孢菌(P. aeruginosa,Paer) 1已完成测序的病原原核生物沙眼

4、衣原体(Chlamydia trachomatis,Ctra) 2肺炎衣原体(Chlamydia pneumoniae,Cpneu) 3 生殖道枝原体(M. genitalium,Mgen) 1肺炎枝原体(M. pneumoniae,Mpneu) 1支气管枝原体(M. pulmonis,Mpul 1溶脲脲原体(Ureaplasma urealyticum,Uure) 1 立克次体(Rickettsia prowazekii,Rpxx) 2梅毒螺旋体(Treponema pallidum,Tpal) 1伯氏疏螺旋体(Borrelia burgdorferi,Bbur) 1二二 微生物基因组的特点

5、微生物基因组的特点 原核生物基因组的大小原核生物基因组的大小原核生物基因组的编码序列原核生物基因组的编码序列( (CDS/ORF)CDS/ORF)原核生物染色体结构原核生物染色体结构GC GC 含量含量重复序列重复序列DNADNA链组成的非对称性链组成的非对称性最小基因组最小基因组1. 1. 原核生物基因组的大小原核生物基因组的大小-基因组较小的原核生物基因组较小的原核生物ProkaryocyteProkaryocyte Genome(kb) ORF Genome(kb) ORFMycoplasma genitalium G-37B0 580 468Buchnera sp 640 583Buc

6、hnera aphidicola SG 641 545Glossina brevipalpis 679 621Ureaplasma urealyticum serovar 3B0 751 613Mycoplasma pneumoniae M129B0 816 677Mycoplasma pulmonis 963 782Borrelia burgdorferi B31B1 910 853Treponema pallidumNichols B1 1,138 1,041Chlamydia trachomatis serovar D 1,042 894Chlamydia trachomatis MoP

7、nB1 1,069 924Chlamydia pneumoniae J138 1,228 1,070Chlamydia pneumoniae AR39B1 1,229 1,052Chlamydia pneumoniae CWL029B1 1,230 1,052Rickettsia conorii Malish 7 1,268 1,374Rickettsia prowazekii Madrid EB1 1,111 8341.1. 原核生物基因组的大小原核生物基因组的大小-基因组较大的原核生物基因组较大的原核生物ProkaryocyteProkaryocyte Genome(kb) ORF Gen

8、ome(kb) ORFXanthomonas campestris 5,076 4,182Xanthomonas axonopodis 5,273 4,386Methanosarcina acetivorans C2A 5,751 4,540Ralstonia solanacearum GMI1000 5,810 5,120Escherichia coli O157:H7. Sakai 5,996 5,448Pseudomonas aeruginosa PAO1B6 6,264 5,570Nostoc sp. PCC 7120 6,413 5,366Sinorhizobium meliloti

9、 6,690 6,205Mesorhizobium loti MAFF303099 7,036 6,752Streptomyces coelicolor A3(2) 8,667 7,8251. 1. 原核生物基因组的大小原核生物基因组的大小-真核生物基因组的大小真核生物基因组的大小 ChrChr. Genome(kb) ORF. Genome(kb) ORFGuillardia theta 3 551 464Encephalitozoon cuniculi 1 2,500 1,997Saccharomyces cerevisiae S288C 16 12,069 6,294Schizosacc

10、haromyces pombe 3 14,000 4,824Caenorhabditis elegans 6 97,000 19,099Arabidopsis thaliana 5 115,428 25,498Drosophila melanogaster 6 137,000 14,100Oryza sativa L. ssp. Indica 12 420,000 50,000Oryza sativa ssp. Japonica 12 420,000 50,000Homo sapiens 24 3,000,000 30,000Dictyostelium discoideum Chr. 2 6

11、8,000 2,799Leishmania major Friedlin Chr. 1 36 257 79Plasmodium falciparum 3D7 Chr. 3 14 1,060 220Plasmodium falciparum 3D7 Chr. 2 14 947 2052. 原核生物基因组的编码序列(Coding sequence) 占原核生物基因组总序列的90 基因的平均大小为1kb ORF2. 2. 原核生物基因组的编码序列原核生物基因组的编码序列 不同生物编码序列的比不同生物编码序列的比较较Organism Genome (kb) ORFs ORF size Coding S

12、equence(%)Buchnera sp 640 583 988 90Aquifex aeolicus 1,551 1,512 956 93Saccharomyces cerevisiae 12,069 6,294 1,092 57 Schizosaccharomyces pombe 14,000 4,820 2,033 70 Caenorhabditis elegans 97,000 19,099 1,311 27 Arabidopsis thaliana 115,428 25,498 460 29Homo sapiens 3,000,000 3,100 1,340 87 5. 5. 重复

13、序列重复序列腾冲嗜热厌氧菌基因组的部分重复序列(续)腾冲嗜热厌氧菌基因组的部分重复序列(续) Long, coding repeats Copies Repeat ID length Complete Partial Identity (%) Database matchTLR028b3,5654599 Transposase + hypothetical TLR393c3,0452198 ABC transporters + hypothetical TLR3152,603294 ABC transporters + Permease TLR4082,490298 Ferredoxin ox

14、idoreductases, TLR0762,021291 Hypothetical proteinTLR2712,020292 ABC transportersTLR2641,9865198 TransposaseTLR2941,851298 ABC transporters + PermeaseTLR0041,8191498 TransposaseTLR0051,800798 TransposaseTLR1581,7741289TPR-repeat-containing proteinsTLR0481,711299 TransposaseTLR2231,629297 Transposase

15、TLR0081,5962192 Hypothetical proteinTLR0141,59214387 Hypothetical protein 5.5.重复序列重复序列 Number of repeats by type in N. meningitidis Z2491 Type Size (bp) FrequencyDNA uptake sequence: gccgtctgaa 10 1,892RS 24161 681dRS3: attcccnnnnnnnngggaat 20 772Correia (full) 150159 173Correia (internal deletion)

16、104 84Correia (partial) 37145 29ATR 183 19REP 2 59154 26REP 3 60 13REP 4 26 20REP 5 20 9IS1016 256740 14 (including partial)IS1106 2631219 22 (including partial)IS1655 1,0741,257 7 (including partial)Prophage 2,33038,964 5Correia elements (CEs, 156-bp sequences bounded by 26-bp inverted repeats) 5.5

17、.重复序列重复序列 Largest families of Largest families of paralogousparalogous genesgenes Family Number of genes (total 312) (total 853) ATP-binding subunits of ABC transporters 23Reductases/dehydrogenases 12Two-component system, regulatory proteins 12Hypothetical proteins 10Transcriptional regulators 9Fimb

18、rial proteins 9Two-component system, sensor proteins 96. DNA6. DNA链组成的非对称性链组成的非对称性 GCGC分布不对称分布不对称 (GC skewGC skew) AT AT分布不对称(分布不对称(AT skewAT skew)前导链含有较多的前导链含有较多的G G(A A) 而后随链含有较多的而后随链含有较多的C C(T T) 计算公式为(计算公式为(nG-nCnG-nC)/ /(nG+nCnG+nC) (nA-nTnA-nT)/ /(nA+nTnA+nT) 累计累计skew skew (cumulative skew)cum

19、ulative skew)用于复制起点和终点的定位用于复制起点和终点的定位6. DNA链组成的非对称性(真细菌) 基因方向性偏好基因方向性偏好 基因方向性偏好基因方向性偏好 (gene orientation biasgene orientation bias) 先导链上编码的基因总是多于后随链先导链上编码的基因总是多于后随链6. DNA链组成的非对称性(真细菌) GC skewGC skew, AT skew AT skew , gene orientation bias gene orientation bias Organism (34株株) Gene biasc(%)GC skewd

20、AT skeweTten 86.7 0.1920.075Llact 80.7 0.0990.034Mgen 80.4 0.0450.045 Spneu 80.2 0.102 0.016Spyo 79.4 0.0940.022Cace 79.0 0.2120.078Bhal 77.4 0.1000.034 Mpneu 77.3 0.014 0.022 SaurN 74.7 0.122 0.051Bsub 74.2 0.0790.045Uure 68.1 0.0590.029 Bbur 66.2 0.182 - 0.086 . Ccre 54.3 0.016 - 0.014GC skewd of

21、of T. T. tengcongensistengcongensis genomegenomeCircular representation of the genome of T. tengcongensis MB46. DNA链组成的非对称性 密码子使用偏好(密码子使用偏好(codoncodon usage bias usage bias) 先导链和后随链密码子的不同 在先导链,以G或T开头或结尾的密码子显著地多于后随链,常见的有GTG、GCG和GAG 在后随链以C或A开头或结尾的密码子多于先导链,如CTC、GCC、CCC、ATC和ACC6. DNA链组成的非对称性 原核生物基因组先导链和

22、后随链密码组成的差异原核生物基因组先导链和后随链密码组成的差异 Org. Bases Codon bases AA Codons - + - + - + - +Smel C GC3A3 G3G1T3 T P V E GCC CCC ACC CTC GGT GGG GTT GAG Ecoli C GC3 G3 G1 T H I V G GCC CCC ACC CTC GCG GTG CGT GGGHinf C GT C3 G3 T3 T N P V ACC GCC CTC AAC GAG GTG CGT GCTTacid C GC3C1 G3 H L DT V Q ACC CCC GCC CTC

23、 GGT CCG GTG CAG Nmen C GC3A3 G3 T I HP V M CTC GCC GGC CTA TTG GAG GCG GGT Ctra C GC3C1 G3G2G1 T P IL V G R CTC CGC CTA CAA GGG GAG AAG GTG Cpneu C GC3C1 G3G2G1 T I PN V R CTA ATC CAA AAC TTG GTT GTG GATCcre C GT A3C3 G3 T P H V G E CCC GCC CGC ACA GGG GCT GGT CGT每一株原核生物的密码子、氨基酸及组成密码子的核苷酸等的使用情况。每组最

24、后一位的频率大于或等于本组最大值的一半。“”表示先导链,“”表示后随链。 6. DNA链组成的非对称性 基因密度和密码子使用的差别基因密度和密码子使用的差别 高度表达基因: 核蛋白体蛋白基因,与翻译和转录有关的因子基因,分子伴侣基因和与主要的能量代谢相关的基因 大多编码于前导链通常都有密码子偏好(核蛋白体蛋白基因密码子的第三位多为G )快速生长的细菌(大肠杆菌、霍乱弧菌、枯草芽孢杆菌和流感嗜血杆菌) 主要的糖酵解和三羧酸循环基因为高度表达基因产甲烷菌,与甲烷代谢有关的基因为高度表达基因 高度表达基因高度表达基因: 那些在密码子使用上与一般基因相差很大,与核蛋白体蛋白基因,那些在密码子使用上与一

25、般基因相差很大,与核蛋白体蛋白基因,翻译和转录相关基因,伴侣翻译和转录相关基因,伴侣-降解蛋白基因等在密码子使用上高度相似的基因为高降解蛋白基因等在密码子使用上高度相似的基因为高度表达基因度表达基因。 6. DNA链组成的非对称性 信号序列等寡核苷酸序列的分布不同信号序列等寡核苷酸序列的分布不同 大肠杆菌的序列:富含G的8核苷酸序列 (GCTGGTGG)共1000多拷贝,其中75 % 位于前导链 7. 最小基因组最小基因组:细胞必需的最少基因数细胞必需的最少基因数 最小基因组最小基因组:一个独立生存的细胞生命至少需要多少个基因一个独立生存的细胞生命至少需要多少个基因MycoplasmaMyco

26、plasma genitaliumgenitalium: 580,070 580,070 bpbp; 468; 468(480480) ORFs ORFs;3737个个RNARNA基因基因 基因组构成基因组构成:具有复制、转录和表达必需基因具有复制、转录和表达必需基因 具有具有DNADNA复制所必需的许多蛋白质复制所必需的许多蛋白质 具有转录有关的酶具有转录有关的酶 具有表达有关基因:具有表达有关基因: 一个一个rRNArRNA operon operon(16s16s23s23s5s5s),), 33 33个个tRNAtRNA基因,全部氨基酰基因,全部氨基酰tRNAtRNA合成酶基因合成酶基

27、因 7. 7. 最小基因组最小基因组: MycoplasmaMycoplasma genitaliumgenitalium基因组构成基因组构成 DNA修复基因很少 氨基酸和辅助因子生物合成相关基因极少 能量代谢途径中有许多重要基因不存在: 如厌氧代谢途径、电子传递链、ED途径、发酵、 糖异生和三羧酸循环相关的基因全无 脂肪酸和磷脂代谢基因很少 调控基因极少7. 7. 最小基因组:最小基因组:MycoplasmaMycoplasma genitaliumgenitalium支原体的系统发生支原体的系统发生 : 链球菌(6亿年前,2,000 kb) 支原体分支(4.5亿年前,17002,000 k

28、b) 支原体2个亚系(1,2001,700 kb) 多个支原体亚系(6001,100 kb)7. 7. 最小基因组:最小基因组:MycoplasmaMycoplasma genitaliumgenitalium支原体与流感嗜血杆菌的种间同源基因比较分析 240个种间同源基因个种间同源基因 22个非种间同源基因个非种间同源基因 6个功能重复或专营寄生的基因个功能重复或专营寄生的基因 = 256个基因个基因除7个DNA复制必需的基因外,绝大多数基因都在真核生物和古细菌中找到同源基因7.最小基因组最小基因组:MycoplasmaMycoplasma genitaliumgenitalium两种支原体

29、(M.genitalium,M.pneumoniae)基因组的 插入突变分析插入突变分析 2209个突变 1354个位点 319个基因(其中243个基因失去功能) 129个 M.genitalium(480 Genes) 基因失去功能M.genitalium细胞必需的最少基因数为:265350个7. 7. 最小基因组最小基因组:枯草芽孢杆菌枯草芽孢杆菌 酵母酵母枯草杆菌:300560 个基因 (Itaya 用转座子随机插入,敲除枯草杆菌基因)酵母(6294 genes): 1000个基因(Winzeler 的PCR介导基因中止策略,用含同源序列的特异序列标签的PCR产物,导入菌体中同源重组删除

30、目的基因)三三 微生物基因组研究的意义微生物基因组研究的意义基因组研究在医学的应用基因组研究在医学的应用 基因组研究的生物技术应用基因组研究的生物技术应用 微生物的进化微生物的进化 A A 基因组研究在医学的应用基因组研究在医学的应用 1致病相关基因的鉴定致病相关基因的鉴定 2设计特异的实验诊断方法设计特异的实验诊断方法3疫苗的研究疫苗的研究 4新型抗生素的开发新型抗生素的开发 1. 1. 致病相关基因的鉴定致病相关基因的鉴定 通过基因组比较鉴定病原相关基因流感杆菌: 7种内毒素(脂多糖)基因25种新基因 细胞表面定居的粘附分子重复序列1. 1. 致病相关基因的鉴定致病相关基因的鉴定 致病相关

31、基因的预测致病物质多为病原体细胞壁成分、 表面蛋白和一些分泌性蛋白质 PHD预测基因组的跨膜蛋白预测基因组的跨膜蛋白 SIGNALP预测分泌性蛋白质预测分泌性蛋白质 1. 1. 致病相关基因的鉴定致病相关基因的鉴定 致病相关基因的预测(续)功能相同的蛋白质往往相邻并受共同的调控序列调控 operon同一菌种的致病菌株与非致病菌株的基因组进行比较 E. coli K12 MG 1655 4.1 + 0.53 M (528genes) E. coli O157:H7 EDL 933 4.1 + 1.34 M (1387genes)2. 2. 设计特异的实验诊断方法设计特异的实验诊断方法寻找高度特异

32、的核酸序列寻找高度特异的核酸序列 实验技术 PCR 杂交技术(Microarray,DNA chip) 应用 鉴定病原种类进行临床诊断 病原分型的流行病学研究 预测疾病进展及临床疗效3. 3. 疫苗的研究疫苗的研究通过全基因组序列的同源性比较,寻找致病菌的属特属特异、群特异、种特异、型特异、甚至亚型特异异、群特异、种特异、型特异、甚至亚型特异的抗原的抗原 Pizza等和Tettelin等对血清型B脑膜炎奈瑟菌脑膜炎奈瑟菌近350种抗原的研究Wizemann等对对肺炎链球菌肺炎链球菌的基因组的抗原性蛋白研究 4. 4. 新型抗生素的开发新型抗生素的开发 药靶的特征:药靶应是病原生物必需的,在进化

33、上是保守的病原生物必需的,在进化上是保守的可作为药靶的微生物基因或蛋白质: 毒力基因、毒力基因、必需基因、菌种专一基因、独特酶类、膜转运必需基因、菌种专一基因、独特酶类、膜转运蛋白等蛋白等 毒力基因作为靶位毒力基因的发现:非致病菌(E.coli K12)与致病菌( E.coli O157, 沙门氏菌,耶尔森氏菌)基因组的比较致病岛(Pathogenicity islands)编码的功能已知蛋白作为药靶必需基因作为药靶寻找必需基因的方法: 比较基因组:在不同进化阶段保守的基因 往往是必需基因 缺失致死或转座子插入 转座子插入PCR寻找流感嗜血杆菌, 肺炎链球菌必需基因 致病菌特殊且必需的蛋白作为

34、靶位 菌种专一基因作为药靶寻找菌种专一基因的方法: 比较基因组方法病原生物基因组中存在但病原生物基因组中存在但 近缘种属中缺少的基因可能是致病关键基因近缘种属中缺少的基因可能是致病关键基因幽门螺杆菌(与大肠杆菌和流感杆菌比较)找到594个特有基因,73个编码种专一蛋白,如丙酮酸:铁氧还蛋白氧化还原酶,可作为靶位独特酶类作为药靶所有细菌独特酶类均可作为靶位: 如: 参与细胞壁合成的酶类 叶酸合成酶类 核酸合成酶类膜转运蛋白作为靶位衣原体和立克次体的ATP/ADP转位酶是致病菌必需,而只有植物叶绿体、线粒体具有类似酶细菌多药运输蛋白(泵)新型抗生素的开发新型抗生素的开发药靶的种类共有药靶共有药靶菌种或某菌种的致病菌株的特异性药靶菌种或某菌种的致病菌株的特异性药靶 某一部位常见致病菌的共同药靶某一部位常见致病菌的共同药靶 新型抗生素的开发新型抗生素的开发Timothy等的研究:肺炎链球菌,流感嗜血杆菌,脑膜炎奈瑟菌肺炎链球菌,流感嗜血杆菌,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论