




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原g u 胜声明 本人郑重声明:本人所提交的学位论文,是在导师的指导下独立进 行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成 果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外, 不包含其他个人或集体已经发表或撰写过的科研成呆。对本文的研究成 果做出重要贡献的个人和集体,均己在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:隆些日期:函面:6 :l 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属 兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同 意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许 论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学 位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论 文或成杲时第一署名单位仍然为兰州大学。 摘要 保加利亚乳酸杆菌是一种常见的存在于发酵食物或饮料中的革兰氏阳性细菌。 这种细菌在以酸奶酪为主的发酵中起着非常重要的作用,对这种细菌的全基因组进 行测序将有助于人类更全面、更深入地认识其生理特点和发酵机理,最终为人类对 其的改良提供很好的帮助。 本课题采用“全基因组鸟枪法”( w h o l e g e n o m e ,s h o t g u n ) 对保加利亚乳酸杆菌 2 0 3 8 株进行全基因组测序。因为本课题是一个巨大的工程,不可能由一个人单独完 成,所以我在本课题中只参加了部分文库构建和缺口补平的工作。s h o t g u n 测序过程 需要构建小片段( 1 6 4 k b ) 和大片段( 6 8 k b ) 两个不同的测序文库。首先选取1 6 - 4 k b 长 度的片段克隆k p u c l 8 s m a l b a p 载体构建小片段文库,后选取2 3 k b 长度的片断克 隆入低拷贝载体p s m a r t - l c 中构建小片段文库,再选取6 8 k b 长度的片段克隆入低 拷贝载体p s m a r t l c 。 在大规模测序由工作组的其他成员完成后,所有序列经p h r a p 组装后,c o n t i g 之 间的缺口有1 2 0 个,序列缺口的填补是通过在相应c o n t i g 的末端设计外延性引物, 以跨越而过的质粒为模板直接进行测序,物理缺e l 的填补则有所不同,首先需用p c r 方法扩增出这些区域的d n a 片段,然后再对p c r 产物测序后进行填补。最终得到了 完整的一条环状染色体序列,长1 ,8 7 2 ,9 0 7b p ,复制的起始点定位于开始测序的第 一个碱基。 关键词:乳酸菌基因组测序 4 a b s t r a c t l a c t o b a c i l l u sd e l b r u e c k i is s p b u l g a r i c u s ,w h i c hi n h a b i t si nt h ef e r m e n t a lf o o da n d b e v e r a g e ,i st h em o s tc o m m o n l yg r a m - p o s i t i v eb a c t e r i a t h i s b a c t e r i u mp l a ya l l i m p o r t a n tr o l e i nt h ef e r m e n t a t i o no ft h ey o g u r t ,w h o l eg e n o m es e q u e n c eo ft h i s b a c t e r i u mw i l l p r o v i d e m o r ee x t e n s i v ei n f o r m a t i o no fl a c t o b a c i l l u sd e l b m e c k i i s s p b u l g a r i e u sa n du l t i m a t e l yw o u l dh e l pu si m p r o v et h i sb a c t e r i u m i no u rp r o j e c t w eu s ea ”w h o l e g e n o m e s h o t g u n ”m e t h o dt os e q u e n c el a c t o b a c i l l u s d e l b r u e c l d is s pb u l g a r i c u s2 0 3 8 w h a ta ne n o r m o u sw o r ko u rp r o j e c ti s ,n o b o d yc a n f i n i s hi ta l o n e s otj u s tp a r t i c i p a t ei nap a r to fl i b r a r yc o n s t r u c t i o na n dg a pf i l l i n g i nt h e s e q u e n c i n gp r o c e s s ,t w v or a n d o mg e n o m i cl i b r a r i e sw i t hs m a l la n dl a r g ei n s e r tf r a g m e n t s a l e n e c e s s a r y f i r s t o fa l l1 6 - 4 k b f r a g m e n t a r es e l e c t e da n dc l o n e di n t o p u c 18 s m a u b a pv e c t o r , t h e n2 - 3 k bf r a g m e n ta r es e l e c t e da n dc l o n e di n t ol o w c o p y v e c t o rp s m a r t - l c ,a n dt h e nt h ef r a g m e n t sr a n g ef r o m6 - 8 k ba r es e l e c t e da n dc l o n e d i n t op s m a r t - l cv e c t o r a f t e ro t h e rm e m b e r so fo u rg r o u pf i n i s h i n gt h el a r g e s c a l es e q u e n c i n g ,a s s e m b l yb y p h r a p ,t h e r ea r e1 2 0g a p sb e t w e e ne v e r yt w oc o n t i g s ,t h es e q u e n c eg a pc o u l db ef i l l e d b yd i r e c ts e q u e n c i n gw i t ht h ee x t e n d i n gp r i m e ro nt h es p a nc l o n e ,w h e r e a sp h y s i c a lg a p s h o u l db ef i r s t a m p l i f i e db yp c rb e f o r es e q u e n c i n g f i n a l l y ,o n ei n t a c t c i r c u l a r c h r o m o s o m es e q u e n c ew h i c hi s i ,8 7 2 ,9 0 7 b pa r ec o m p l e t e d ,t h ef i r s tn u c l e o t i d eo nt h e c h r o m o s o m ew a sl o c a t e do nt h ef i r s tb a s eg r o u pb e g i n n i n gs e q u e n c i n g k e yw o r d s l a c t o b a c i l l u sg e n o m e s e q u e n c i n g 4 引言 7 0 年代美国曾投入上百亿美元的巨资,以期在1 0 年左右攻克癌症。然而,它 却以失败告终。d u l b e c c or 于1 9 8 6 年( ( s c i e n c e ) ) 杂志发表癌症研究的转折点 人类基因组的全序列分析的短文。他回顾了7 0 年代以来癌症研究的进展,使人们 认识到包括癌症在内的人类疾病的发生,部与基因直接或间接有关:同时指出,要么 仍处在用“零敲碎打”的方法开展研究,要么从整体上研究和分析整个人类基因组及 其序列。这篇论文引起了巨大反响,得到科学界的普遍认同成为推动人类基因组计 划的重要力量和指导思想“2 。历经5 年左右的辩论后,美国国会正式批准美国的“人 类基因组计划”于1 9 9 0 年l o 月1 日正式启动,总体计划是在1 5 年内投入至少3 0 亿美元进行人类全基因组的分析。由于技术的成熟与基因组测序的规模化,以及来 自商业竞争方面的压力,使原计划大大提前,于2 0 0 0 年6 月2 6 日,美、英、日、 德、法、中六国科学家共同宣布人类基因组工作框架图构建完成,并于2 0 0 1 年2 月1 5 日发表了旷世之作一人类基因组框架序列及其初步分析f i n i t i a ls e q u e n c i n g a n da n a l y s i so ft h eh u m a ng e n o m e ) 3 。在真核生物领域,除完成人类基因组工作框架 图和水稻基因组( o r y z as a t i v a 上s s pi n d i c a ) 4 的工作框图外,还绘制了裂殖酵母 ( s c h i z o s a c c h a r o m y c e s p o m b e ) 5 、酿酒酵母( s a c c h a r o m y c e sc e r e v i s i a e ) 6 、秀丽隐杆线虫 ( c a e n o r h a b d i t i se l e g a n s ) 7 、黑腹果蝇( d r o s o p h i l am e l a n o g a s t e r ) 8 、拟南芥r a b i d o p s i s t h a l i a n a ) 9 等的基因组完成图。 从1 9 9 5 年( ( s c i e n c e ) ) 发表第一株细菌一流感嗜血杆菌的全基因组序列以来, 现己发表了 7 0 多株原核生物的基因组全测序 ( h t t p :i g w e b i n t e g r a t e d g e n o m i c s c o m g o l d c o m p l e t e g e n o m e s h t m l ) ,其中包括15 株 古细菌和6 0 株真细菌。虽然为数不多,但彼具代表性,有在极端条件下牛长的嗜热 菌”,耐盐菌“,耐酸菌1 2 ,有厌氧菌”,兼性厌氧菌1 4 和需氧菌15 有营养要求 不高的大肠杆菌,较难培养的支原体”,只在活细胞内生存的衣原体1 8 和立克次 体”,在未来的2 - - 3 年时间里,还将有2 8 0 多株原核生物的基因组全序列被测序。 预示着原核生物基因组研究的辉煌时期的到来。 一原核生物全基因组测序策略 对原核生物基因组的测序,目前多采用全基因组随机测序方法一鸟枪法 ( s h o t g u n ) 2 0 圳,最后通过计算机拼装而得到序列信息。 鸟枪法测序的主要过程分为两个阶段。第一阶段为大规模测序与序列组装,包 括三个步骤:1 基因组d n a 文库的构建和文库质量检测( 1 i b r a r yc o n s t r u c t i o na n d ,将基因组总 用超声波等物理方法打碎,或用某些限制性核酸内verification)dna 切酶( 如s a u3 a 等) 进行不完全消化;电泳分离并回收一定大小( 如1 - - 4 k b 和1 0 - - 1 5 k b ) d n a 片段,克隆至质粒载体( 如p u c1 8 质粒载体) ,或同时制备大至3 0 - 4 0 k b 限制性酶切插入片断的九( 1 a m d a ) 文库或c o s m i d 文库;对文库的插入片断大小,文 库容量和文库的随机性进行检测。2 大规模测序( h i 曲- t h r o u g h p u td n as e q u e n c i n g ) , 根据载体质粒的插入片断两侧己知的d n a 序列设计引物,对插入片段的两端或一 端进行测序:根据l a n d e r w a t e r m a n 2 2 的理论,当测序序列的高质量碱基总数等于 基因组的大小( 冗余度为1 ) 时,基因组的有效覆盖率为6 4 ,也就是说有3 4 的基 因组序列未被测到。当测序序列的冗余度为5 时,仍有o 6 7 的基因组序列未被测 到。此时,对于一个大小为1 8 m b 的基因组,理论上仍有1 2 0 多个大小为1 0 0 b p 左右的缺v l ( g a p ) ”。由于测序反应的质量和基因组文库的随机性或基因组d n a 本身 等原因的影响,实际上缺口的数目和大小比理论值要大些。因此,大规模测序的测 序序列冗余度往往在6 一1 0 之间,才能得到基因组覆盖率较高的框梨序列。3 序列组 装( a s s e m b l y ) ,将所测得的序列通过专门的计算机软件进行处理,根据序列间的相似 性组合成一致序列片段一克隆重叠群( c o n t i g ,详见正文方法) 。 第二阶段为基因组序列完成图的绘制。这。阶段主要包括填补缺口和审查校正 序列质量和序列组装的正确性。首先要确定各克隆重叠群( c o n t i g ) 之间的关系,可通 过如下几种方法实现: 1 通过c o n t i g 末端测序反应确定关系,如同一插入片段的两端序列分别落在两个 c o n t i g ( 的末端) ,就可以认为两c o n t i g 相邻。 2 构建一些大插入片段文库,如丸文库或c o s m i d 文库等,对这些大插入片段双向 测序并与c o n t i g 序列比较,确定c o n t i g 的位置关系。 3 肽链连接法。对c o n t i g 进行基因标注,如g a p 不是太大,且两末端各含某己知 基因的部分序列,就可基本确定他们的位置关系。 4 如果用上述方法都无法确定关系的,就对各c o n t i g 的末端设计引物,两两随机 组合进行p c r 反应,确定关系。 确定c o n t i g 之间的位置关系后,采用p c r 产物测序的方法,进行缺口填补, 最后得到一个连续的序列图。仔细检查序列每一个碱基的质量,对于一些低冗余度 或低质量碱基要重复有关克隆的测序或设计p c r 引物进行p c r 产物测序,使序列 质量达到标准。最后还要对序列组装的正确性进行检验,由于生物基因组存在一些 重复序列,拼接过程中容易发生错误,所以要对完成图进行验证。般采用构建物 理图方法,即根据己知序列选择几个合适的限制性内切酶,将实验得到的片段与计 算机分析结果进行对照2 0 ,予以验证。 “、 i 禳熟一j 一固 、- ,。l 一 禽 = : 主詈i 。s e t s m q u e 。r n “ t ;三釜l l b l a n t l l r n b l y 瓦i _ 三三娄! 搿 * ;冀躲。= = = 图l全基因组鸟枪法的策略 t h es t r a t e g yo f w h o l eg e n o m es h o t g u n 二基因组序列的注释 在获得基因组全序列后,要进行基因组编码序列的预测并进行功能注释。预测 原核生物基因组编码序列( c o d i n gs e q u e n c e s ,c d s ) 或称开放阅读框( o p e nr e a d i n g f l a m e ,o r f ) 的方法可以分为两大类:一类为概率型方法,评估基因组d n a 序列的 编码可能性,如基于隐马尔可夫模型的g e n s c a n 2 2 2 3 ;另一类是通过序列同源性 比较方法,如b l a s t ,检索蛋白质库或e s t 库找寻编码序列2 4 。 确定编码序列之后,要对预测基因的功能进行注释。基因的功能注释同样有多 种方法”。首先可通过与已知功能蛋白质的相似性比较进行预测基因的功能注释。 例如,如果预测的基因与某一己知功能的蛋白质基因的序列相似,则只需将其功能 描述与相应基因关联即可;其次,根据序列的保守性预示结构的保守性,进而预示 功能的保守性原则,通过比较p f a m ( p r o t e i nf a m i l yd a t a b a s e ) 和p r i n t s ( p r o t e i n f i n g e r p r i n t s d a t a b a s e ) 等数据库中已知功能蛋白质的m o t i f d o m a i n 来预测咨询序列的 功能。第三,可以通过基因邻居法进行功能注释,在原核生物,那些在位置上紧密 相邻的基因簇,它们要么是组成共同转录的操纵子,要么是一些操纵子的残余物, 由此可以推断它们是功能相关的基因2 5 2 6 。第四,用t a t u s o v 等2 7 的c o g ( c l u s t e ro f o r t h o l o g o u sg r o u p ) - - 直系同源簇方法,从同一簇中的己知基因注释未知基因的功能 还有可以通过分析蛋白质的结构进行功能预测2 5 , 等等。 对非编码区的注释主要包括各类重复序列、基因表达的调控序列、信号序列等 2 0 , 0 三原核生物基因组的大小 在己发表的 7 5株原核生物的全基因组序列 ( h t t p :i g w e b i n t e g r a t e d g e n o m i e s c o m g o l d c o m p l e t e g e n o m e s h t m l ) d p ,有4 株支原体, 5 株衣原体,2 株立克次体,2 株螺旋体和6 2 株细菌。原核生物基因组的大小相差 悬殊,支原体、衣原体、立克次体和螺旋体的基因组较小,不到1 5 m b ( m e g a b a s e ) 。 其中支原体的基因组最小,在0 5 1 0m b 之间。细菌的基因组较大,除株布氏 杆菌( b u c h n e r as p ) 2 8 的基因组仅0 6 4 m b 外,其余的都大于1 5 m b 。一些细菌的基 因组较大,如s i n o r h i z o b i u mm e l i l o t i 2 9 和m e s o r h i z o b i u ml o t i 3 0 的基因组分别达6 7 和 7 o m b ,是支原体基因组大小的1 0 倍。但是,能在非常( 极端) 条件下生长繁殖的原 核生物,如1 4 株古细菌( 其中1 3 株为嗜热菌,一株为耐高盐菌) ,3 株嗜热真细菌, 3 株耐酸菌( 2 株幽门螺杆菌和1 株乳酸杆菌) 基因组的大小比较集中,都在1 5 3 o m b 之间。而其余5 5 株原核生物( 包括一株非耐热古细菌,m e t h a n o s a r c i n a a e e t i v o r a n sc 2 a ) 中,基因组大小在1 5 3 o m b 的只有四分子一( 1 4 株) ,小于在1 5 m b 的也有四分子- - ( 1 4 株) ,大于3 0 m b 的占近一半( 2 6 株) 。 与真核生物不同,原核生物基因组的编码序列占基因组总序列的比率很高,达 9 0 左右,基因的平均大小为l k b ,也就是说一个原核生物的基因组大小为1 ,0 0 0 k b 时,基因数接近9 0 0 个,上下偏差一般不会超过2 0 ,如基因组最小的生殖道支原 体( m y c o p l a s m ag e n i t a i u mg - 3 7 8 0 ) ,其基因组大小为5 8 0 k b ,编码4 6 0 个基因,基 因组中等大小的李斯德菌( l i s t e r i am n o c u ac l i p l l 2 6 2 ) 和根瘤土壤杆菌 ( a g r o b a c t e r i u mt u r n e f a c i e n sc 5 8 - d u p o n t ) ,它们基因组的大小分别为3 ,0 1l k b 和4 , 9 1 5 k b 编码2 ,9 8 l 和5 ,4 0 2 个基因,基因组较大的m e s o r h i z o b i u m l o t i m a f f 3 0 3 0 9 9 , 基因组大小为7 ,0 3 6 k 6 ,编码6 ,7 5 2 个基因。两个已全基因组测序的低等真核生物, 酿酒酵母( s a c c h a r o m y c e sc e r e v i s i a e ) 和裂殖酵母( s c h i z o s a c c h a r o m y c e s p o m b e ) ,基因组 大小分别为1 2 ,0 6 9 和1 4 ,0 0 0k b ,编码6 , 2 9 4 和4 ,8 2 0 个基因,编码序列只占耩因组 的5 7 和7 0 :秀丽隐杆线s j l ( c a e n o r h a b d i t i se l e g a n s ) 和拟南芥似r a b i d o p s 括t h a l i a n a ) 的基因组大小分别为9 7 ,0 0 0 和l1 5 ,4 2 8 k b ,编码1 9 ,0 9 9 和2 5 ,4 9 8 个基因,拟南芥的 c d s ( 多肤) 的大小为4 3 0 b p ,编码序列( 外显子) 占基因组的2 8 9 。而人类的基因组 有3 ,0 0 0 ,0 0 0 k b ,仅编码3 1 ,0 0 0 多个基因,编码序y t j ( 编码外显子的序列) 占基因组 的比率不到2 3 。由此可见,不同生物,不但基因组大小差异显著,而且编码序列 占总基因组的比率相差也非常悬殊。 四原核生物基因组的g c 含量 原核生物基因组的g c 含量相差悬殊,对4 8 株( 种) 己全基因组测序的原核生物 基因组g c 含量统计结果表明,最低的只有2 6 左右,最高的可达6 8 ,有近7 0 ( 3 9 5 6 ) 原核生物基因组的g c 含量低于5 0 3 1 。基因组小于1 0m b 的6 株原核生物 中就有4 株基因组g c 含量为最小,溶脲脲原体( u m a p l a s m au r e a l y t i c u m ) ,2 5 5 ; 布氏杆菌( b u c h n e r as pa p s ) ,2 6 3 ;支气管支原休似p u l m o n i s ) ,2 6 6 ;伯氏疏 螺旋体( b o r r e l i ab u r g d o 咖r ) ,2 8 6 。另外两株生殖道枝原体( mg e n i t a l i u m ) 和肺炎 支原体c 叩z m 口p h p “晰o ”f 口f ) 也分别只有31 7 y o t l4 0 o 。同样,1 2 株嗜热菌( o g t 范围为5 9 1 0 3 。c ) 的嗜热性与基因组的g c 含量也不相关( r i 0 1 ) ,并非最适生长温度 越高,基因组的g c 含量也随着增高3 1 。 l o 虽然1 2 株嗜热菌的嗜热性( o g t 为5 9 1 0 3 。c ) 与它们基因组的g c 含量无关 ( r = 0 1 1 但o g t 与r d n a ,t d n a 的g c 含量高度相关( r 分别为o 9 2 和0 9 0 ) 。嗜 热菌的r d n a 的g c 含量为5 2 8 6 7 7 ,t d n a 的g c 含量为6 0 2 7 2 6 ,较前者 高。此外,嗜温菌基因组的g c 含量与r d n a ,t d n a 的g c 含量相关( r 分别为0 8 8 和o 8 0 ) 。3 6 株全基因组测序的不同菌种的原核生物分析结果显示,它们的基因组 g c 含量为2 5 5 一6 7 9 ,r d n a 的g c 含量为4 5 4 5 8 1 ,t d n a 的g c 含量为 4 9 3 6 2 4 ;在上述所有3 6 株不同菌种原核生物中,当基因组g c 含量低于5 7 ,o 时,t d n a 的g c 含量最高,r d n a 的次之,基因组g c 含量最低;当基因组g c 含 量大于5 9 o 时,基因组g c 含量最高,t d n a 的g c 含量次之,r d n a 的最低;只 有一株麻风分枝杆菌( m y c o b a c t e r i u ml e p r a e ) 例外,其基因组g c 含量介于 5 7 o 一5 9 0 之间,为5 7 8 ,t d n a g c 含量( 6 1 6 ) 高于基因组g c 含量,r d n a 含 量最小( 5 5 7 ) 。不管怎样,t d n a 的g c 含量总是高于r d n a 的g c 含量1 5 , 3 2 。 真核生物基因组的g c 含量相差也较大,疟原虫旧肠册d 击“f a l c i p a r u m3 d 7 c h r o m o s o m e3 ) 只有2 2 ”, 而人类基因组g c 含量可达4 0 左右。而且人类基因 组不同区段的d n a 含量相差悬殊,以2 0 k b 大小为一窗口,对人类基因组全序列进 行扫描,结果发现不同区段d n a 的g c 含量在3 1 6 5 之间3 。 五原核生物d n a 链组成的非对称性 对各种生物d n a 的组成分析结果表明,绝大多数生物基因组d n a 的g 与c 和a 与t 的含量相等”。但是,在许多原核生物基因组的先导链和后随链内存在g 与c 或a 与t 分布的不对称( g cs k e w 或a ts k e w ) 。 1 碱基组成的非对称性( b a s ec o m p o s i t i o na s y m m e t r y ) 1 1 g c 分布不对称( g os k e w ) l o b r y 3 4 于1 9 9 6 年通过对3 种原核生物基因组:大肠杆菌( e s c h e r i c h i ac c f 1 ,枯 草芽抱杆菌( b a c i l l u ss u b t i l i s ) 和流感嗜血杆菌( h a e m o p h i l u si n f l u e n z a e ) 的分析,发现它 们d n a 链不同区域的碱基组成非对称,前导链含有较多的g 而后随链含有较多的 c ( g cs k e w ) 。g cs k e w 的计算公式为( n g n c ) ( n g + n c ) ,其中n g ( n c ) 为一特定大小 d n a 片段( 窗口) 内g 或c 的含量,窗口的大小一般设为l ok b ,2 0k b 或5 0k b 。 对于大多数原核生物来说,它们先导链的g 都多于c ,( r i g n c ) ( n g + n c ) 为正值,而 后随链的g 少于c , ( n g n c ) ( n g + n c ) 为负值。所以,在复制的终点和起点,会发 生( n g n c ) ( n g + n c ) 的t 负值之间转变。当以基因组的长度为横坐标,g cs k e w 为 纵坐标作图时,起点在负值向正值转变处,接近或相当于0 的位置;而终点在正值 向负值转变处,同样接近或相当于0 的位置。g cs k e w 在大多数真原核生物如大肠 杆菌、枯草芽抱杆菌、生殖道支原体( m y c o p l a s m a g e n i t a l i u m ) 、沙眼衣原体( c h l a n y d i a t r a c h o m a t i s ) 、结核分枝杆菌( m y c o b a c t e r i u mt u b e r c u l o s i s ) 、梅毒螺旋体( t r e p o n e m a p a l l i d u m ) 、普氏立克次体( r i c k e t t s i ap r o w a z e k i i ) 、流感嗜血杆菌、肺炎支原体 ( m y c o p l a s m a p n e u m o n i a e ) 和幽门螺杆菌( h e l i c o b a c t e r p y l o r i ) 等中存在,并可据此对这 些真细菌的单一复制起点和终点进行定位3 6 - 3 8 。而在己测序的11 种( 株) 古细菌中, 通过g cs k e w 预测存在单一复制起点的只有嗜酸热原体( t h e r m o p l a s m a a c i d o p h i l u m ) ”。另外,硫磺矿硫化叶菌( 鼢矽l o b u ss o 弘t a r i c u s ) 也籍此预测了一个复 制起点( 其可能有多个复制起点) 柏;但其它古细菌如加氏甲烷球菌( m e t h a n o c o c c u s j a n n a s c h i o 、热自养甲烷杆菌( m e t h a n o c o c c u st h e r m o a u t o t r o p h i c u m ) 、发光古球菌 口r c h a e o g l o b u sf u l g i d u s ) 和火球菌( p y r o c o c c u sh o r i k o s h i i ) 等没有明显的链内g c s k e w ,可能有多个复制起点,不能用此法进行复制起点定位拍3 7 。 d n a 链碱基组成的非对称性也可以用于基因组为线性染色体的莱姆病病原体 一伯氏疏螺旋体( b o r r e l i ab u r g d o r f e r i ) 复制起点的分析。线性染色体的复制可以是从 一端开始,也可能从中间开始向两端复制。通过g cs k e w 分析,预测伯氏疏螺旋体 复制起点在染色体中部的4 5 0k b 处,后经实验得到证实“。某些大病毒的基因组也 存在碱基组成的非对称性。对1 0 个人疱疹病毒基因组g c 分布研究结果表明, h h v 6 、h h v 7 和h c m v 存在g cs k e w ”。g cs k e w 还存在于叶绿体基因组4 2 和质 粒d n a “。 在g cs k e w 的基础上,g r i g o r i e v 3 6 建立了一种累计s k e w ( c u m u l a t i v es k e w ) 的方 法。这种方法是从d n a 序列的任一位置开始,计算( n g n c ) ( n g + n c ) ,并依次把 相邻的( n g - n c ) ( n g + n c ) 累计相加,最大值在复制终点,最小值在复制起点。它的 优点是适用于一些g cs k e w 不太明显的微生物,如肺炎枝原体的基因组序列,用一 般的g cs k e w 作图很难观察( n g - n c ) ( n g + n c ) j e 负值的转变点,但用累计( r i g n c ) ( n g + n c ) 就很容易看出:另外,累计( n g n c ) ( n g + n c ) 的图形是一条“v ”形的曲线, 并非一般g cs k e w 的为一上下波动的曲线,故而更直观。 1 2 a t 分布不对称( a ts k e w l 基因组d n a 链内碱基分布的非对称性不仅局限于g 与c ,而且在某些真细菌 中还存在a ts k e w ( ( a t ) ( a + t ) 。对生殖道枝原体和枯草芽抱杆菌的分析发现, 这些真细菌存在a ts k e w ,但比g cs k e w 的要弱3 7 。对近3 4 种己全基因组测序的原 核生物的分析表明,除上述两种真细菌外,还有9 种真细菌的基因组也存在a ts k e w 。 这1 1 种真细菌在以1 6 sr r n a 为基础绘制的进化树上,分属于两支,其中腾冲嗜热 厌氧菌( t h e r m o a n a e r o b a c t e rt e n g c o n g e n s # ) 、乳酸乳球菌i l c t o c o c c u sl a c t i s ) 、肺炎链 球菌( s t r e p t o c o c c u sp n e u m o n i a e ) 、化脓性链球菌( s t r e p t o c o c c u sp y o g e n e s ) 、丙酮丁酸 梭菌( c l o s t r i d i u ma c e t o b u t y l i c u m ) 、耐盐芽抱杆菌( bh a l o d u r a n s ) 、金黄色葡萄球菌 ( s t a p h y l o c o c c u sa u r e u s ) 和枯草芽抱杆菌为一支:生殖道枝原体、肺炎技原体和溶脲 脲原体( u r e a p l a s m au r e a l y t i c u m ) 为另一支。值得提的是,这些真细菌都有一个较 大的基因方向性偏好( g e n eo r i e n t a t i o nb i a s ) ,有6 8 以上的基因分布于前导链上,而 其它真细菌和古细菌嗜酸热原体的基因在前导链上的分布都低于6 8 。 2 基因方向性偏好( g e n eo r i e n t a t i o nb i a s ) 基因方向性偏好在原核生物( 除多个复制起点的古细菌无法判断外) 是一种普遍 现象。现己完成全基因组测序的4 0 多株真细菌和古细菌嗜酸热原体,前导链上编码 的基因全部超过5 0 。其中超过7 0 的有1 0 株,超过8 0 的4 株为腾冲嗜热菌、 乳酸乳球菌、生殖道枝原体和肺炎链球菌,最高的为腾冲嗜热菌,达8 6 7 ”。前 导链上含有6 8 以上基因的真细菌,都有a ts k e w 。不过,现在己知的基因分布最 偏的还是硕大利什曼原虫( l e i s h m a n i am a j o rf r i e d l i n ) 的l 号染色体,它的7 9 个基因 中有2 9 个分布于近左端粒的7 9k b 范围内,而另外5 0 个基因分布在相邻的1 8 0k b 范围内的互补链上”。 由于分析基因组前导链和后随链的碱基分布,密码子使用及基因方向性偏好的 前提是能够通过g cs k e w 等方法判定基因组的复制起点和终点。对于多复制起点的 原核生物如蓝细菌( n e c h o c y s t i s 聊和前述的古细菌加氏甲烷球菌等,目前还不能准 确判断复制起点,用g cs k e w 无法分析它们d n a 链组成的非对称性”。同样,t 4 噬菌体基因组,某些真核生物染色体或染色体的一些区段,如整个酵母基因组,线 虫基因组,果蝇染色体及人t 细胞受体b 位点( 7 号染色体上的6 7 0 k b ) 等也未见碱基 分布的非对称性”。 六原核生物基因组研究的应用 1 病原菌的致病性与疾病的预防和治疗 目前已有4 0 多株与人类致病相关的原核生物被全基因组测序。原核生物全基因 组测序不仅可便人们更好地了解病原微生物的致病机制以及它们与宿丰的相瓦关 系,设计更特异的实验诊断方法,而且是发展疫苗和开发新的抗菌药物的基础。 1 1 致病相关基因的鉴定对己全基因组测序原核生物基因组的分析表明,各种原 核生物的基因组只有近6 0 的基因为功能己知基因,有2 0 的基因在其它生物基因 组中有同源基因,但功能未知,另有约2 0 的基因为功能未知的菌种特异基因。在 得到全基因组序列后,需要通过各种方法,在最大程度上鉴定和寻找致病相关基因 4 5 4 6 o 有关革兰氏阳性化脓性球菌或肠道致病菌的致病机理研究较多,己鉴定出许多 致病性相关基因。因此,就可以通过序列的同源性比较,在它们的近缘菌中,鉴定 出致病性相关基因。而那些与之遗传距离较远的原核生物,或研究较少的致病菌, 情况就不太妙。如引起梅毒的螺旋体,通过数据库序列的同源比较,在该摹因组的 1 ,0 0 0 多个基因中,仅发现7 0 个基因可能与致病性相关,而其中只有一半为毒力基 因或与宿主相互作用基因,另一半只知道是表面抗原或膜蛋白,未知与致病性的关 系”。由此可见,依靠已知基因来鉴定原核生物的致病相关基因还远远不够。 目前,根据蛋自质某些功能区域的保守序列,己建立了相应的蛋白质数据库, 如b l o c k 4 8 和p r o d o m 4 9 。由于蛋白质的功能往往只由蛋白质分子中的某些功能域 来决定,功能域之外的序列对于鉴定蛋白质的功能并不重要,据此,序列保守区的 检索能得到有关整个蛋白质功能的信息。 从病原生物的致病机理可知,原核生物的致病物质多为病原体细胞壁成分、表 面蛋白和一些分泌性蛋白质。因此,可用p h d 5 0 5 1 预测基因组的跨膜蛋白,利用 s i g n a l ”预测分泌性蛋白质。很多时候,一些简单的微卫星序列附近总能找到致病 相关基因”。根据功能相同的蛋白质往往相邻并受共同的调控序列调控,在已知毒 力基因附近的非编码区寻找调控序列并预测受其调控基因中那些功能未知基因可能 1 4 就是毒力基因“。另外,把同一菌种的致病菌株与非致病菌株的基因组进行比较, 对预测疾病相关基因就更加行之有效5 5 岗。 1 2 疫苗的研究疫苗对于感染性疾病的预防和治疗有着举足轻重的地位,它的优 点是安全、高效、低成本、不存在产生耐药性等问题。人类在病毒性疾病的预防方 面已取得了伟大的成就,但是对病原原核生物所致疾病的预防办法还不多。主要原 因之一是,原核生物基因组大,致病物质多,致病机理复杂,单个抗原往往起不到 免疫保护作用。基因组测序,为我们全面研究有效抗原成分奠定了基础,通过全基 因组序列的同源性比较,寻找致病菌的属特异、群特异、种特异、型特异、甚至亚 型特异的抗原变得方便易行。利用全基因组序列研究病原菌有效抗原成分己有许多 喜人的成果,如p i z z a 等5 7 和t e t t e l i n 等5 8 对血清型b 脑膜炎奈瑟菌基因组的分析, 鉴定并克隆表达了近3 5 0 种抗原,免疫小鼠后筛选出了能产生抗体的蛋白质,作为 候选抗原用于疫苗的研究。w i z e m a n n 等5 9 对肺炎链球菌的基因组也进行了类似的 抗原性蛋白研究。 1 3 新型抗生素的开发2 0 世纪医药界最大成就之一是发现抗生素控制传染病,但 是,原核生物很快对它产生了耐药性。虽然新的抗生素不断涌现,但抗牛素的使用 寿命却越来越短,更严重的是,耐多种药物的菌株越来越多。对付臼益严重的耐药 性播散,可采取一些临时措施,如避免滥用抗生素、合理设计药物配方、全球范围 监测和轮换使用现有抗生素等,但从长远看还需开发新药,寻找病原生物新的药物 靶位,设计药物筛选新方法,从组合化学库和天然产物筛选多种新药。而微生物基 因组学研究使发掘药靶变得比较容易,抗菌药物筛选方法正发生着革命性的改变5 5 6 0 o 可作为药靶的微生物基因或蛋白质的种类很多,如毒力基因、必需基因、菌种 专基因、独特酶类、膜转运蛋白等。总的来说,药靶应是病原生物必需的,在进 化上是保守的”。 广谱的药靶应该是不同的病原生物如原核生物,真菌和寄生虫的基因组都具有 的而人体没有的保守基因”。菌种或某菌种的致病菌株的特异性药靶的筛选对于治 疗这些菌种( 株) 的慢性感染尤其重要,因为广谱抗菌物质在抑制病原生物的同时还 抑制了人体的正常菌群,容易引起菌群失调证。也有设计机体某一部位常见致病菌 1 4 的共同药靶。t i m o t h y 等5 5 对引起上呼吸道感染的肺炎链球菌、流感嗜血杆菌和脑 膜炎奈瑟菌的基因组分析,发现有3 2 个基因存在于这三种原核生物的摹因组中,而 不存在于大肠杆菌和枯草杆菌的基因组中,其中有2 个甲硫氨酸亚砜还原酶基因, 这二基因在幽门螺杆菌和霍乱弧菌基因组中也存在,疑是毒力决定子。 2 生物技术的应用 对抗辐射能力最强的原核生物d e i n o c o c c u sr a d i o d u r a m s 的基因组分析“,有望 揭开该菌的抗辐射生物学机制,进而应用于辐射物废料的处理。v e n k a t e s w a r a n 等“ 利用公布的数据库序列研究了d e i n o c o c c u sr a d i o d u r a n s 在辐射环境中和营养缺陷时 的利用氮化合物恢复生长的过程。d e i n o c o c c u sr a d i o d u r a n s 在生长过程中,在获得 对辐射的耐受性时,必需要有外来氨基酸的存在。尽管基因组序列分析显示,该菌 含有不完整的肤氨酸、赖氨酸和丝氨酸代谢途径,但该菌在没有这些氨基酸时也能 生长。这些研究和细菌基因组分析结果显示,转氨基作用在细菌利用氮源过程中发 挥重要作用。另外,把甲苯加双氧酶基因插入该菌染色体,能使重组菌在高辐射环 境中降解甲苯和其它有机化台物,预示该菌有可能被用于混合辐射废料的生物降解 6 3 0 3 微生物的进化 w o e s e 等6 4 根据编码r r n a 的d n a 序列的多样性,将所有生物划分成互不重 叠的三域:真细菌域、古细菌域和真核生物域。并指出,虽然古细菌具有真细菌一 样的细胞结构,但在系统发生上与真核生物的亲缘关系更密切;真核牛物与古细菌 来自于同一个祖先,或者说,真核生物是古细菌进化史上的一个分支。 随着越来越多的上述各域生物全基因组被测序,使我们有可能从多角度认识生 物的进化关系。研究发现,如果研究单个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源汽车废旧电池回收利用产业链环保要求与产业发展策略分析报告
- 企业顾问聘用协议
- 《口腔颌面部肿瘤病人的护理》教学课件
- 巡防队员安全培训课件
- 岩石应力波课件
- 输电安全培训的意义
- 小鸭韵律操课件
- 室内精装地砖铺设工程合同
- 5.2《诚实守信》 同步课件 2025-2026学年统编版道德与法治八年级上册
- 小青蛙找妈妈教学课件
- 2025年公文写作试题及答案解析
- 2025江西南昌市西湖城市建设投资发展集团有限公司及下属子公司招聘40人备考考试题库附答案解析
- 医院后勤考试题库及答案
- 2025至2030中国农业观光园行业发展趋势与产业运行态势及投资规划深度研究报告
- 2025新疆伊犁州伊宁市中小学招聘各学科编外教师考试模拟试题及答案解析
- 2025年军休服务管理机构招聘面试中常见陷阱问题解析与应对方法
- 信息系统维护与升级管理模板
- 《丹青意蕴》第三课《国色新尚》课件 2025-2026学年+人教版(2024)初中美术八年级上册
- (2025秋新版)人教版八年级地理上册全册教案
- 医务人员职业道德准则(2025年版)全文培训课件
- 《构成设计基础》全套教学课件
评论
0/150
提交评论