(凝聚态物理专业论文)细菌基因组内分类特异性寡核苷酸重复序列的研究.pdf_第1页
(凝聚态物理专业论文)细菌基因组内分类特异性寡核苷酸重复序列的研究.pdf_第2页
(凝聚态物理专业论文)细菌基因组内分类特异性寡核苷酸重复序列的研究.pdf_第3页
(凝聚态物理专业论文)细菌基因组内分类特异性寡核苷酸重复序列的研究.pdf_第4页
(凝聚态物理专业论文)细菌基因组内分类特异性寡核苷酸重复序列的研究.pdf_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 用计算生物学方法,我们对已测序的细菌完全基因组中的寡核苷酸重复序 列作了详细研究。虽然重复序列在细菌基因组中所占比重不大,但它们仍然普 遍存在,并且与细菌的生物许多功能密切相关。我们的研究表明,有些寡核苷 酸重复序列在保持较高复制份数的同时具有很强的分类特异性。普遍在1 2 个碱 基的长度左右,一些特殊的寡核苷酸序列就已经可以成为细菌属一级的特征序 列。更长的寡核苷酸序列会更特异,往往能够成为细菌种,甚至是菌株的标签 序列。我们在古细菌和真细菌中,分别给出了一些不同分类特异级别的单例。 由于计算结果数据量庞大,很不直观,为了更好的共享研究结果,我们搭建 了t s 0 r 服务器,提供即时的对于特异性寡核苷酸重复序列的查询,论文中给出 了查询的范例。同时,这样的t s o r 序列由于同时具有在基因组内较高的复制份 数和限制分布在某一分类的细菌中的双重特征,使他们成为设计具有偏向性的 全基因组扩增引物的很好候选。 关键词细菌基因组重复序列数据服务器 v a b s t r a c t u s i n gm ec 唧u t a d o n a la p p m a c h ,w es t i l d i e d 山e0 1 i g o n u c l e o d d e s 唧e a t si nc u r _ r e n ta v a i l a b l eb a c t e r i a lw h o l eg e n o m e s t h o u g h ,r e p e a t s0 1 1 1 yc o u n tf o ras m a l lp o r - t i o ni nb a c 把r i a lg e n o m e s ,t 圭l e ys m lp r e v a i l ,o u rs c u d ys h o w s ,s o i n eo f 吐l e s e0 1 i g o n u c l e o t i d e sh a v eal a 玛ec o p yn u m b e ri ng e n o m e sw h i l em a i n t a i ni t st a ) 【o ns p e c i f i c i t y g e n e r a l l y ,al e n g t ll a 增e rn l a i l1 2i se n o u g h t om a k ea o l i g o n u c l e o d d e sr e p e a t sg e u s s p e c 诵c l o n g e r0 1 i g o n u c l e o t i d e sw i l lb e c o m em o r e8 p e c 币ca n d b et h es p e c j e so rs t r a i n m 砒k e rs e q u e n c e s w 色s h o wh e r es o m ee x a i r l p k si na r c b a e aa j l db a c t e r i aw i 血d i 饪e r e n t s p c c i f i ct a x o nl e v e l s a sw eh a v ea1 a r g ev o l u m eo fc o m p u t a t i o n a lr e s u l t s ,w em a k e i ta v a j l a b l e0 1 1 l i n eb yo u rt s o rs e r v e r nd c a l s 谢t 1 1u s e r sq u e r ya i l di nt h i st h e s i sw e g i v ee x 卸叩1 e so nh o w t 0u s em i ss e r v e lm o r e o v e ra sm e s et s o rs e q u e n c e sa r eb o t t l s p e c i l i ca n dh i g h l yr c p e a t e d ,t h e yw o u l db e c o m ep o s s i b l en i c ec a n d i d a t ef o rb i 勰e d m i c m b i a lc o m m u n i 哆g e n o m e sa m p l 访c a t i o n , k e y w o r d sb a c t 砸ag e n o i i l e sr e p e a t sd a t a b a s e v 1 论文独创性声明 本论文是我个人在导师指导下进行的研究: 作及取得的研究成果。论文 中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或 撰q 过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作 了明确的声明并表示了谢意。 作者签名:j 嘲: 论文使用授权声嘲 删:哆e 鼍 本人完全了解复旦大学有关保留、使用学位沦文的规定,即:学校有秘保留 送交沦文的复印纠,允许论文被畚阅和储睡;学校可以公靠沧文的全部或部分内 符,吲斟采用影剐、缩鼋j 或其它复冷l 手段保存论文。保密的沦文在解密后遵守此 翘定, 储躲一勉副一翻够嘲一碰堑够 第一章绪论 1 1 细菌基因组进展 细菌生物( 真细菌和古细菌) 是生物圈的重要组成部分。自从三十多亿年 前,细菌作为墁古老的生物诞生于地球,到现在,它仍是地球上分布最广,适 应性最强的生物【1 】。作为个体的细菌是相对弱小的生物,但他们的集体作用 却巨大的影响着地球生境和人类生活。有些细菌种类因为能引发严重的人类疾 病而被我们所熟知。这其中包括导致某种流感的h 口e m 叩h 池sf 研“e 啷e ,导致 肺炎的妣p 幻c c 淞朋p “聊n 肠p ,导致某些事物中毒的受印缈如c c f 属等。但有 更多的细菌是对人类友善和有利的。其中就有很多作为分解者的细菌,生存在 土壤,江河湖海底,把生物体中的化学元素以无机物的形式归还到自然环境中 去。如果没有这些分解者细菌,所有真核生物必将灭绝,而相反细菌仍可以自 由的生活下去。 正是因为细菌对于人类健康,生态环境和能源的重要性,并且细菌的基 因组相对于真核生物而言相对较小的原因,早在1 9 9 6 年开始,就开始对陆 续对细菌基因组进行测序,以便于对其进行更深入的研究。西曲p c l i l 谊“ k 1 2 是最早开始测序的细菌全基因组 2 ,而王,m d p 矗池j 枷触p 删pr d 是最早完 成的细菌全基因组 3 】。此后,随着全基因组散弹枪测序( w h o i eg e n o m es h o 培u n s e q u e n c i n g ,w g s ) 的引入和资金投入的增加,细菌基因组的测序速度和规模每 年都在增加。截止2 0 0 6 年4 月7 日,共有被测序的细菌全基因组3 1 9 个,包括2 6 个 古细菌( a r c h a e a ) 和2 9 3 个真细菌( e u b a c t e r i a ) 4 】。其中,对于人类肠道致病细菌最 集中的p m 招曲口c 据砌门中,已有多达6 4 个菌株被测序。 与测序工作的进展相一致,基于细菌基因组的研究工作也取得了 相当的进展。首先,产生了很多面向细菌基因组的找基因程序,包 括g l i m m e r 5 ,g e r l e m a r k 【6 j 等。由于细菌基因组相对于真核生物基因组而言 结构简单,这些程序己具有非常高的准确率,一般对基因的识别率可达9 0 以 上。其次,基于w g s 方法的细菌基因组测序也发展迅速,随着拼接程序的 完善,现在利用w g s 方法,可以在一些大规模测序中心一天完成一个细菌的 测序工作。最后,对于基因组的比较基因组研究( c o m p 砌t i m eg e n o i n i c s ) ,为 分子生物学,遗传学提供大量的基础知识,同时利用基因组序列中的微卫 第一章绪论 星重复( s m a l ls a t e u i t er 印e 砒s ,s s r ) ,串行重复( 1 孤d e mr 印e a t s ,t r ) 或其他些 特征序列作为遗传试验中的m a r k e r 已经成为遗传学研究中的重要工具【7 】,对 于d u s ( d n au p t a k es i g i l a l ) 【8 ,x s i t e 【2 】等特征序列的研究更是帮助揭示了很多重 组过程中的分子机制。因此基因组学可谓是介与分子功能和遗传信息之间的密 码学,随着更多的生物基因组将被测序,它的重要性不言喻。 1 2 细菌基因组中重复序列 在对于细菌基因组的研究中,对于细菌基因组中的重复序列的研究是其 重要的一部分。基因组重复序列可以定义为与基因组中的其他序列共有很大 相似性的序列。细菌基因组中的重复序列可以大致分为两种类型,低复杂度 串行重复序列( l o w c o i n p l e ) 【i 哆t r ) 和较长的重复序列。低复杂度串行重复序列 常指重复单元长度为1 个核苷酸到5 个核苷酸左右,头尾相接排列的多次出现 的重复序列。较长的重复序列则包括转座元素( t r a n s p o s a b l ee 1 e m e n t s ) ,迷你卫 星序列( m i i l i s a t e l l i t e ) ,大规模串行重复序列( t r ) 和闯隔分布的重复序列( s p a c e d r e p c a t s ) 。 虽然细菌基因组中的重复序列类型在真核生物基因组中都能找到对应,但是 各种重复序列在基因组中所占比例及数量是不同的。 第一,相对于真核生物基因组而言,细菌基因组比较简洁,9 0 以上为编 码区 9 】,重复序列在细菌基因组中一般只占到1 2 。而在真核生物中, 非编码区的比例要大得多,酵母中为2 8 ,而在人类中为9 7 9 8 1 0 】,因 为非编码区多为重复序列,所以真核生物的重复序列要多得多。 第二,简单重复序列广泛分布于真核生物基因组中,占所有重复序列总量 中的绝大多数,如人类基因组中的越u 序列等 1 1 ,可以到达几百k b 。相反 地,在细菌基因组中,简单重复序列所占比重很小,几乎很少出现。相对 而言较长的重复序列的比重要比真核生物高很多。然而我们必须小心这样 的比较,因为真核生物和细菌基因组的大小完全不同,其中基因大小的重 复可能与细菌基因组中较长重复相当。然而基因大小的重复往往在真核生 物中已不再被认为仅仅是重复序列。 第三,真核基因组的较长序列重复往往是大规模的转座子,如植物基因组 中的m 沁,s i n e ,l i n e 序列等 1 2 】。而在细菌基因组中,虽然转座子和插入 序列( i s e r t i o ns e q u e n c e ,i s ) 的分布也很广泛。但其总量不大,较长重复序 列的主要成分是间隔分布的重复序列和大规模的串行重复序列。 2 第一章绪论 当然除了以上三点不同外,真核生物和细菌基因组在重复序列上还有很多其他 不同之处。 重复序列还可以按重复单元的匹配程度分为严格重复与不严格重 复。每个重复单元的每次出现都严格一致就是严格重复,每次出现可 以不一致就是不严格重复序列,或者叫做渐进重复序列( a p p r o x i m a t e d r e p e a t s ) 。因为这些重复序列往往带有生物功能,所以很多用来寻找 这些重复序列的软件也应运而生。常见的寻找不同重复序列的软件 有s 1 :a r ,s 田r g ,t r f ,s r f ,a d p l o t ,r e p u t e r 等【1 3 1 8 】。 1 3 寡核苷酸重复序列 虽然细菌基因组中重复序列类型五花八门,在这篇论文中我们的主要研究 对象是严格重复的寡核苷酸序列,重复单元长度从9 个核苷酸到2 4 个核苷酸。这 样的重复序列在细菌基因组中的分布很广泛,并且往往蕴含着生物功能意义。 早在1 9 9 6 年,第一个细菌全基因组砌硎印 f m 5 啦触p h 朋e 测序完成时,就有工 作对其中的频繁出现的寡核苷酸,也就是我们所谓的寡核苷酸重复序列进行了 研究【1 9 】。发现表明这些频繁出现的寡核苷酸序列分成三种类型。一是,u p t a k e s i g n a ls e q u e n c e s ( u s s ) 序列。这种u s s 序列也同样在忍s 据m 阳砌c 跚e 属的其他菌 株中被发现【2 0 】。二是,m 砒p l et e 曲姗c l e o d d ei n t e r a d o n s ,在编码区前段,重 复次数的改变从而改变被表达的蛋白。三是,m t e 曜e n i cd y a ds e q u e n c e s ( d s ) , 在非编码区,可能与d n a 的复杂二级结构有关。此后随着细菌全基因组数据的 增加,同样的研究被推广到更多的基因组上,并与比较基因组学的方法相结 合。文献中,人们对s m 秘幻c d c d ,肋“肼等属基因组中的寡核苷酸重复序列做 了研究,结果也表明他们与细菌的生物功能密切相关 2 1 ,2 2 】。 总而言之,在细菌基因组中,其中的高频度的寡核苷酸重复序列大概会有以 下生物功能: 第一,作为信号序列( b i o l o g i c a ls 塘n a l s ) ,在生物功能中起到重要 作用,譬如e c o l i 基因组中的x s 沁 2 】,作为内切酶的识别位点;又 譬如忍j 据h 糟加c 阳e 科和j s p 砌p 属中的u s s 序列 2 0 ,2 3 ,2 4 】,作为近 亲u p t a l 【e 机制的信号。 第二,在d n a 的二级结构中可能起重要作用,尤其是分布在非编码 区域( i n t e r g e n i c ) 的重复序列,譬如鼬蜘f d h j 属中的短规则间隔重复序 列 2 5 】,是重要的d n a 结构蛋白绑定位点;又譬如,砌跏印m 淞伽一 1 第一章绪论 触e n 埘p 中的i d s 1 9 】和西如愆c 缸? f 中的r e p 2 ,都是d y a d 结构,很可能 在d n a 中形成h 挪i n 结构,从而调控其上游的基因表达。 第三,直接进入编码区( c o d i n g ) ,改变基因表达,譬如h 口p m 叩 池j 幻舭n - 羽p 中的t e 仃at 卸d e m 重复序列 1 9 】,或者目p 日8 属的旺r 序列 2 6 】,其 重复单元一般不为三的整数倍,从而在改变分数的情况下改变编码区的相 位,导致表达不同蛋白;又譬如一些t e 和i s 序列,以重复序列为重组的位 点,导致基因组的局部序列交换,导致一部分基因表达沉默或者苏醒。 这三个方向也只能是对寡核苷酸重复序列功能的不完全归类,还有更多的其生 物功能等待发现。 1 4 寡核苷酸重复序列的分类特异性 寡核苷酸重复序列在上节所述的功能之外,还常带有分类特异的信息。普 遍来讲,基因组的差异性往往代表着物种的差异性,另一方面寡核苷酸重复序 列恰恰又是基因组的重要组成部分,所以他们才是基因组差异性的载体,也就 是物种差异的载体。早在全基因组测序成为现实之前,人们就已经开始自觉 利用一些分类特异序列,例如利用种特异或者属特异的序列片断作为引物进 行a p - p c r ,对该种或者该属进行特异性扩增 2 7 ;例如利用f i n g e r p r i n c 技术检 测卫星重复序列,使用这些卫星重复序列作为不同菌株的分子标记,从而区分 致病性和无毒性的菌株 2 8 】;也有工作利用相当长度的全蛋白质组短肽序列, 并扣除背景,再用成分矢量之间的距离构建细菌的分类树,该完全从基因组数 据和计算出发的细菌分类法却与实验学家根据一百多年来的实验积累得到的细 菌分类手册吻合的相当好 2 9 】。所有这些实验和计算的事实均表明短核苷酸序 列携带有细菌的分类特异性信息,如何从中提取并利用这些信息将是一个很有 挑战性的课题。 这篇论文中,我们将从计算得到现今已有的所有细菌基因组的一定长度的寡 核苷酸重复序列出发,对这些重复序列的特异性,生物功能和应用作了研究。 我们首先编写了计算重复序列的程序,我们的程序r e p f i n d e r 能精确完全的得 到一定长度的所有细菌基因组中的寡核苷酸重复序列。此外还自己编写了许多 辅助工作的p e r l 程序,来完成中间结果的低复杂度过滤,自重叠过滤等工作。在 计算得到中间结果后,我们做了以下分析,首先我们分析了这些计算结果的统 计显著性,其次我们在具有统计性的串中寻找了一些特殊的种属或者其他分类 级别特异的高度重复寡核苷酸序列并对他们的功能作用做了分析,再次我们搭 4 第一章绪论 建了一个瞰o ns p e c m c0 1 i g o m e rr e p e a t s ( t s o r ) 服务器平台,可以基于用户的需 求返回所查询的t s o r 序列。这些内容将在下面的论文中都会有详细叙述。 5 第二章分类特异性的寡核苷酸重复序列 2 1 研究方法 利用数理统计和k 串的组合学及序列算法,我们对所有已测序的细菌全基因 组计算其所有的精确重复串。计算过程中我们改变串的长度k 。对于这样得到 的数据集,我们采用几种方法从中挖掘分类特异的信息。首先,我们设定某个 串的在某个物种中的最少出现次数d ,同时横向扫瞄其他所有基因组,将这个 串在那些基因组中至少出现d 次的记录在案。这样我们就能得到在某种显著性 条件下,这个串在所有全基因组里的分布状况。其次,我们可以手工选择某一 短长度寡核苷酸序列k = 1 2 作为种子,从这个种子开始沿展出k = 1 5 ,1 8 等含有这 个种子串的序列,并对所有这些序列在d = 2 的情况下横向扫瞄所有基因组,就 可以得到关于这个串如何从广泛分布于一些基因组中到,他的衍生串逐渐收缩 分布到某些特异的菌株中的分类特异图像。 2 2 数据准备 ( 1 ) 从n c b i 的细菌基因组卸网站 3 0 】上我们下载了现已测序的所有细菌 全基因组的序列文件。所有序列文件的列表见t s o r 网站 3 1 】。其中共 有2 9 3 个全基因组,包括古细菌3 门1 0 纲1 2 目1 3 科1 6 属2 4 种2 4 个菌株,真细 菌1 4 门2 1 纲5 6 目7 9 科1 2 0 属1 9 6 种2 9 3 个菌株。( 2 ) 自己设计算法,数据结构并编 写程序,计算所有这2 9 3 个细菌的精确重复的寡核苷酸序列。在计算中,我们需 要两个参数,寡核苷酸序列长度k ,重复的显著性阈值d 。同时我们在计算时选 取适当的k 的取值范围和步进,实际中我们选择k 的范围为9 至2 4 ,步进为3 。在 最严格条件下,我们选择d 为2 ,这样经过计算我们就获得了k = 9 ,1 2 ,2 4 时所有 的在细菌基因组里重复的寡核苷酸序列的集合。( 3 ) 基于步骤( 2 ) 所获得的结果, 我们就可以继续研究串的分类特异性了。 2 3 重复串的统计显著性 为了研究寡核苷酸重复序列,寡核苷酸重复序列的统计显著性必须被评估, 以使他们区分于随机背景。我们选择了一个二阶的m a r k o v 模型来作为我们的 6 第二章分类特异性的寡核苷酸重复序列 背景。做这样的选择的第一个考虑是,一般而言,我们需要选择个3 n + 2 阶 的m a r k o v 模型来做背景。这是因为,细菌基因组中的主要部分全部是编码 片断( 典型情况下,编码区大于9 。) 。考虑阶数为翱+ 2 的m a d v 模型可以保 留礼+ l 阶的密码予偏好性关联。这样做的另一个考虑是,如果我们选择一个比 二高的3 + 2 阶m a f k o v 模型,譬如说5 阶,或更高,这样会默许一个假设,在自 然界中这些稍长的寡核苷酸片断,5 i n e f 或者其它事同等的一致的分布可用的。 而实际的观察却并非如此【2 2 】。 我们使用了s s p a l t 软件来计算统计显著性【3 2 】。玉s c o r e 打分机制被用来对短 串打分。z s c o t e 的定义如下式: z 一= 糟 其中是观察到的短串重复次数,马是从背景模型期望的重复次 p e r c e n to fzv a i u e so nd i f f b r e n td v a i u e s ,k = 15 ,e c o l 计( d 一、,a l u e 图2 1e c 0 娃kn c0 0 0 9 0 7 ,基因组4 酿胁,g c 含量5 l ,k = 1 5 时计算结 果 7 第二章分类特异性的寡核替酸重复序列 数,矿a 是方差。实际上,玉s c o 咒经常用它的对数模式给出。此时,如果 个串的z - s c o r e 比3 2 9 要高,那么就意味着只有o 1 的概率这个观察是一个随 机事件而不是特殊事件。对于统计显著性直接影嫡最大鼬是一个串的重复次 数,c 值。当串的长度k 定时,般而言,越大的c 值,串的统计显著性越 高。除了c 值,另一个影响统计显著性的量是串长k 。同样的c 值下,一般而 言,越长的串其统计显著性越高。最后,还有另个影响统计显著性的量, 既是细菌基因组的g c 含量偏好性。一个g c 含量偏好性很高的基因组相比一 个g c 含量比较均匀的基因组而言,会使同样一个串的统计显著性减弱。 在这里,我们只需要给出一个比较典型的统计显著性与c 值,k 值和g c 含量 偏好性的关系,我们并无必要对所有基因组中的所有寡核苷酸重复串儆评估。 相反,我们仔细选择了两个典型的基因组来例证c 值,k 值,g c 含量偏好性与 统计显著性的关系,我们给出了来自础,谳缸c 鲥o 】5 7 :h 7e d l 9 3 3 ( o j ;k , n c0 0 0 9 1 3 ,4 3 m b ,( 配= 5 0 ) 的和来自x 础舫o m d mo r ) 嘲pk a c c l 0 3 3l ( x a n o r p e r c e n to fzs c o r e so nd i 舱r e n td v a l u e s ,k = 15 ,x a n o r d v a l u e 图2 2x 翘n c 晒8 3 4 ,基园组4 8 m b ,g e 岔量6 s 艮,黠计算结采 8 第二章分类特异性的寡棱苷酸重复序列 n c 瑚6 8 3 4 ,4 8 m b ,g c = 6 8 ) 的结果。如下图2 1 ,2 2 ,2 3 所示,给出了不同z s c o f e 的串占总串数的比例与d 值的关系。从图中我们可知,在无g c 含量偏 好性的e c o l i k 基因组中,当k = 1 5 ,c = 2 时,9 0 以上的重复寡核苷酸串的z s c o r e 大于3 ;而在x 锄。堪因组中到c - 5 时,才有9 0 的寡合营酸串的z s c o r e 大 于3 。当k 增加到1 8 ,此时x a l l o r 基因组中,当c = 2 即有9 0 的寡核苷酸重复串 的z s c o r e 大予3 。因此,如果典型的取阈值晷s c o f e 大于3 ,k = 1 5 时,c 大于5 是保 守的统计显著性阈值;当k = 1 8 起,保守的讲,任何重复的寡核苷酸短串都具有 统计显著性。 2 4 重复串的分类特异性 试图计算得到所有具有分类特异性的串是可能的,但因为计算量庞大,计 算不可行也不必要。在现实的研究中,我们更关心那些自身复制份数高的,同 时又具有分类特异性的串。如此,我们即可以从某个感兴趣的细菌基因组出 p e r c e n to fzs c o r e so nd i f l b - e n td v a i u e s ,k = 18 ,x a n o r d v a i u e 图2 3x a n o f n c 瑚6 8 3 4 ,基因组4 8 m b ,o c 含量6 8 ,k = 1 8 时计算结果 9 第二章分类特异性的寡核苷酸熏复序列 圈2 4在所有细菌基因组中重复的寡核苷酸串数量和l 【值关系图:一 共包括了2 7 5 个物种。 发,以某个复制份数为下限阙值,对高于这个阙值的寡核苷酸序列重复序列再 来检验其特异性。检验特异性的方法就是检查这个串在其他基因组中的出现次 数,在一定长度下,根据统计显著性,我们只需要以重复出现作为标准,如果 该串亦重复出现在某一其他基因组中,他既被认为也出现在该基因组中,如果 该串只在其他基因组出现一次或者不出现,它既被认为不出现在该其他基因组 中。根据这样的出现与不出现定义,我们即可以得到该串出现过的所有细菌基 因组,按分类归并这些基因组,我们即可以得到最后这个串所代表的特异分类 层。这个层次可以是种,属或者其他的分类层次。 此外,考虑到短核苷酸序列长度k 较长时他所代表的分类特异层次会比较 高,可以达到种特异或者属特异等等,而在短核苷酸长度k 减短时,他所代表 的分类特异层次会逐渐降低,会减弱到科特异,层特异等等。可见k 值是控制 串的分类特异性的最关键参数。直观上讲,越短的寡核苷酸其分布就越广,而 越长的就越特异。一个有趣的问题是,在k 值的哪个点上,分布的广泛性开始 】o 第二章分类特异性的寡核苷陂重复序列 向特异性转折。试着回答这个阿题,我们将k - 9 ,1 2 ,2 4 的重复寡核苷酸数 量给每个物种作了图。将这些图并列在一起,我们得到了下图2 4 。从图中可见 重复寡核营酸的数量一般而言在k = 1 2 时达到了一个分界点。此分界点前,随 着k 增大而增多,此分界点后随着k 增加而减小,所以特异性增加。由此可见, 选择k = 1 2 和k = 1 5 作为寻找特异性序列的起始k 值可行。此外观察随着k 长度变 化而变化的串的特异性分化过程,我们甚至可以很直观的看到一些基因组的进 化线索。很多情况下,这些细节甚至包含着区别细微到菌株之间的一些进化信 息。 2 5 一些分类特异的重复串 我们的结果可以从在线的t s 0 r 的w e b 服务器h t t p :t l i f e f u d a n e d u c n x i a l t s o r h t m l 上访问到( 关于t s 0 r 的w e b 服务器的组建和具体使用 会在下一章中有详细讲述) 。这些结果中,我们有代表性的筛选一些分类特异 的寡核苷酸重复序列并对他们进行讨论。 ( 1 ) 古细菌 毋黝c 蹦s 我们的第一个例子来自于b 卿c c 凇属。毋册删中共有三个 种已被测序,分别是毋m c c 船廊一d s ,尸:y r d c d c 伽4 6 y 耐,毋阳c d c c 淞 d 哦琊枷【3 3 】。早先知道在这三个基因组中有一个k = 1 8 的串5 g t i 奴姻协嘲c t l 啪脚3 在各个基因组中均出现,并且重复次数大于2 0 次。 而在该三个基因组以外的其它细菌基因组中均严格的不出现,甚至b l a s t 结 果表明,该串不出现在其它已知生物的基因组中。所以被认为该串是对 于毋m c d c c 船属特异的寡核苷酸短串【3 4 】。在我们的研究中,也发现了该 特殊串。 劓妣n o 扫口c 据一“mf ,醒瑚伽h 幻m 印惭c 淞和a w 缸础如西淞舡培i d 淞。这是我 们第二个例子。这两个基因组共享着一个跨纲特异的k = 2 1 的串5 , a 柏t c a 掣i c c a a a t 星疆辫n - 3 ,在知咖册d 眈配耙一“m 埔f ,m d 口幻打珥砌缸坫基因组 中出现了1 0 7 次而在a n 捕n e 昭z 口扫船触触盯中出现了1 7 1 次。这些串高度集 中于非编码区域,分别只有o 次和1 9 次出现在了编码区。在a 圯h n e 卯如6 “j 向柳幽5 的测序文章中,这个重复序列被称作l s 重复家族【3 5 】。这个重复 序列家族与懿跏缸妇s 印翰缸麻淞和鼬扣白6 辩z 触蠢中的短规则间隔重复 序列( s r s r s ) 在分布上和结构上有很大相似性,而对s r s r s 的研究表明, 他们很有可能是属特异的蛋白质的结合位点【2 5 】。由于肘口确口再曲口c 地h 艄 第= 章分类特异性的寡棱昔酸重复序列 砌g ,加d “幻仰i l 把淞和a 砌卯昭如6 埘a 堙f d i 盯都是化学自养的喜热菌,这 样的重复结构可能在维护基因组在严厉环境下的稳定性有重要作用。 ( 2 ) 真细菌 西曲e 一曲妇f f 。西曲p 一西肠c d “是一个有趣的例子。这个种的四个已 测序菌株髓曲e 一曲缸c 础k 1 2 ,e 幽g h 曲妇c d f fc f l m 3 ,西出砌缸c d 盯 0 1 5 7 :h 7 和西曲口,f c 妇“0 1 5 7 :1 1 7b d l 9 3 3 从共享特异性寡核苷酸的 角度来看,三个野生菌株中的0 1 5 7 :h 7 和0 1 5 7 :h 7e d l 9 3 3 与已测序 的舶船妇雕期p 一菌株2 as 仃3 0 1 和2 a 啦2 4 5 7 t 更接近。而c f t 町3 菌 株则与抬坩拥驰属更接近。详细结果可由向t s o r 服务器”n o i 卜b 1 船r 版本递 交”c o d e = b 1 2 3 1 3 1 ,k = 1 5 ,d = l o 查询得到。而经人工选择多年的k 1 2 菌 株与其他三个菌株却相距甚远。由它们的测序报告可知 2 ,3 “3 9 】,k 1 2 丢 掉了许多转座和移动基因组元素,这可能是之一有趣现象的主要原因。 1 2 第三章寡核苷酸特异序列的发布 3 1t s o r 服务器的设计 设计t s o r ( t a x o n o m i cs p e c i 矗co l i g o t n e rr 印c a t s ) 服务器的目的在于以一种方 便用户查询的方式把寡核苷酸分类特异序列的结果共享给用户。整个寻找特异 序列的流程如下图所示: 其中步骤的详细操作如下: ( 1 ) 基因组数据的准备。如2 2 节所述,同时我们使用d u s t 程序初步过滤下载 基因组中的低复杂度重复序列| 4 0 】。 ( 2 ) 寻找寡核苷酸重复序列。利用两个自做的程 序,r e p f i n d e r 和k r r e p e a t e r 被用来计算过袁达的寡核苷酸重复 序列,这样结果能互相检验。每次计算过程需要两个参数:k 值,计算所寻找 的寡核苷酸重复序列的长度和d 值,最少的复制份数,大于这个份数的出现将 被记录。k 值和d 值可以是自然数的任意组合,在我们的实际研究中,我们d 值 的变化从2 到以上,不同d 值对应的统计显著性已在2 _ 3 中讨论。对于k 值,我们 选择k 从9 变化到2 4 ,步进为3 。k 值的取舍也在2 3 中已讨论。我们使用滑动窗 口的方法对寡核苷酸序列进行计数,但这样的方法会对自我交叠的序列会加多 计数f 4 l 】,所以我们用自己的0 l f i i 卫p l 程序来清除前缀和后缀交叠多达一次的 重复序列。同时我们再使用另一个程序【c 网l t p l 来消除只由一个很小的字母 集来生成的序列,例如只有一个或两个字母,以及在头部和尾部有较长单字母 重复的序列,例如单字母重复占去序列长度的一半以上者。我们对所有的细菌 基因组进行上述操作,这样的结果最终构成我们的中间重复序列数据集。 ( 3 ) 对寡核苷酸重复序列的分类。我们时r s o r 服务器正是基于以上构筑的中 问数据集。在t s o r 的后台脚本中,我们对于每一次查询,先使用e x k d p l 程 序,根据b e r g c y sp b y l o g e n yc o d e f 4 2 】找銎f 重复序列最后能归并到的共同分类级 别。然后,我们用l 0 c a lb l a s t 【4 3 】去筛选剔除那些在归并到的分类级别外尚有低 重复出现次数出现的那些重复序列。使用b a c t 既i a 库作为我们的b 1 a s td 毗a b a s e , 该库是从所有细菌基因组用b 1 a s t 的f o 胁棚b 制作而来的。同时我们定义三个量 来表征该寡核苷酸序列的特异性。第一是s e l f h i tn u m b 或叫s h ,用来记录 来自于同分类层次的l l i t 。另一个叫做o u t h i t n 哪b e r ,或叫0 h ,用来记录来自 1 3 第三章寡核苷酸特异序列的发布 图3 ,l1 s o r 流a 呈图 1 第三章寡核苷酸特异序列的发布 该分类层次外的呲。还有一个叫o u t s i d es t a r i n n u m b 既,或叫o s h ,用来记录来 自于该寡核苷酸序列种子所在菌株基因组之外的s e 啦h 毗 ( 4 ) 检验结果。刚才提到的另一程序,砌衄r l 疆p 队t e r ,整合了上述过 程,可以用来检验结果。它的不同之处在于它每次只能对某一个基因组 做搜索。k 瑚e r r e p e a l 琶r 携带三个参数长度k ,最低报告s h 值s h ,最低报 告o h 值o h 。在实际研究中对不同的k ,d ,s h ,o h 组合进行了研究,一些例子 已经在2 4 节中讨论。 3 2t s o r 服务器的使用举例 我们用几个实际的例子来讲述t s o r 服务器的使用。 如图3 2 所示为向服务器递交查询的用户界面。界面比较简洁,用横线 分割为三部分。第一部分是服务器名和当时的版本号。图中所示为”n o n b l a s t 的o 1 版。第二部分为服务器使用的介绍简单介绍,说明查询递交后,结果 会暂时保存在一个网页中,网页的地址会用电邮发给用户。第三部分是服务器 的递交表格。首先需要填写用户的电邮地址,其次需要用户填写他所关心的分 类层次的b e r g e y s 代码。该代码可根据菌株名在右侧提供的蓝色链接中找到。此 外用户还要设定k 值,d 值。k 值与d 值的含义如第2 章所言。然后点击提交按钮 即可提交任务。第四部分是网站维护者的联系方式。 t s o r 服务器现分为两个版本,一是”b l a s t 版,二是”r 啪- b l a s t 版,两者的异 同在于: ”n o n b l a s t 版,t s o r 服务器会返回所有只被用户所提供的b e r g b y s 代码所代 表的分类层次内的基因组所共享的,并且在某个或某些个基因组中重复次数大 于等于d 值的精确k 串。这个版本能帮助用户迅速筛选在被某个分类层次的基因 组所共享的高显著性的重复k 串。 聊a s t 版,会将”n o n - b l a s t ”版的结果进一步与细菌库做比对。最后 返回的k 串会被表明它的o h ,s h ,和o s h 值。这能帮助用户进一步 从”n o n b l 船t ”结果中进一步筛选分类特异的重复k 串。表3 1 中是用e c o l i k 作 为b e r g e y s 码,d = l o ,k = 1 5 的从, b l a s r 版本的返回结果的节选,原结果多 达3 6 4 条序列,不便全部在此处给出。e c o l i k 并不是一个特例,绝大多数 我们研究的基因组都带有或多或少这样的菌株特异的寡核苷酸序列。使 用r r e p e a t 软件也同样可以得到上述的结果。 有些时候,我们会观察到一些非常显著的特异性重复k 串,他们的d 值可达 1 5 第三章寡核苷酸特异序列的发布 t a x o n o m i c s p e c i 啊co g o m e rr e p e a ts e r v e r n o n - b i a s tv e r $ i o no 1 q u e r ys u b m i s s i o nf o 丌n u s et h i sf o f mt o 矾l b i n 王ty o l 】rr e q u e s tt 0t s o rs e r v c r t s o rs e m r 诵l ld i s c o v e rh 1 et s o r su p o ny o i l r r e q u i 咖t 。r 觑u n sw i l lb ep r c s c n t e do naw e b p 锄g ea n d 山ea d d r e s sw i l lb es e n tt oy o u “ae m a i l y o re m 口i ta d 6 l r e s s : p m v i d e1 破o 唧b e 唱sc o d e :毡选匹塑毡毪 m v 出k 蹦l u 口k :蛐,刖删埘 p r 0 眺d 蹦l 近 d 屯d 2 口b 砌m 聃捌 p 1 e 踮es e n dc m n 咖t sa n dq u e s 廿衄s 均砌口f f 锄出“曲面“m d k :肛f d 【哪衄蚰跏酬如s c 坩“p 胡k 幽呷,b 盯q l 捌口p l b 血2 0 0 5 - 1 41 1 :2 m 4 0 图3 2t s o r 服务器查询递交界面 第三章寡核苷酸特异序列的发布 到1 0 0 以上。表3 2 ,3 3 中我们给出了用”n o n - b 1 嬲t ”版本,k = 2 l ,d = l o o 为参数 下存在非常显著的特异性重复寡核苷酸序列的基因组。更近一步的”m a s f 版本 显示,绝大多数这些重复串也是严格的具有特异性的。 表3 1e c o l i k ,d = l o ,k = 1 5 ,b l 雒tv e 鹞i 锄,t s o r 返回结果的节选 l v l t 奴c 0 d e 0 h g o s c p 吐i ng e n o m e s s p e a 1 1 4 1 1 2 1 3 5 ( s 山t o ) ,1 5 l ( s i l l s o ) s p e b 1 2 2 4 1 12 8 5 2 0 2 科e i l i i a + ) ,1 9 1 ( n e i m b ) s p c b 1 2 3 1 3 1 3 71 2 8 0 1 0 7 ( s h 讯t ) ,1 1l ( s 1 1 i n ) s p e b 1 7 1 1 3 16 1 0 2 ( 蛳n ) ,1 0 6 印i i l f 丰) t 奴c 仪l ca b b r e v m c o d ea b b 把v a 1 1 4 1 。1s u l a cb 1 2 3 9 1 1 p s e p k b 1 2 1 6 8 1b r a a b 1 2 3 9 1 1 p s e p y p b 1 2 2 1 3 3b 哪b 1 2 3 9 1 1p s e p y p b 1 2 2 6 1 - 2a z o 辨b 1 2 3 9 1 1 p s cp _ y v b 1 2 3 11 1 1v i b c bb 1 2 3 9 1 1p s v a r b 1 2 3 1 3 1 2 6p b o l ib 1 2 4 5 2 1g e o s l b 1 2 3 3 1 1x 蛐o fb 1 3 1 2 1 11n e m b 1 2 - 3 3 1 i x a l l c p b 1 4 1 1 2 3t h e m g e n o m e sm a f k e d 木i nt a b l e3 2a l s 0h a v cs p c c m ce x t r a o h g o r 印 组 表3 3带有菌株特晃的寡核萤酸重复序列的微生物基因组 3 3t s o r 序列在实验中的应用 由t s o r 得到的分类特异性序列在实验中可能具有应用价值。一种设想 是从t s o r 的结果中选取一些复制分数较高的特异性序列,同时其在基因组 1 7 第三章寡核苷酸特异序列的发布 中的分布又比较均匀,自身又不会互补。然后以这样的序列作为引物,利 用西2 9 d n a 合成酶对环境基因组进行带偏向性的扩增。在理想状况下可以从 环境基因组中特异性的扩增出该分类特异层次的基因组,从而为鉴定环境基 因组或者做下一步的全基因组测序奠定基础。目前我们已经和实验组合作, 从e c o l i k 中k = 1 5 ,d = 2 0 ,o h 小于5 的结果中选择了一些引物做了初步试验,结 果初步表明具有一定的特异性扩增能力,随着实验的深入,相信会有更大的进 展。 1 8 第四章总结 4 1 存在问题及将来方向 在这篇论文中我们用计算的手段研究了细菌基因缀中具有分类特异性的寡核 苷酸片断。虽然结果比较清晰,但研究中其实还是存在不少问题。 第一,在第2 章中,在实际寻找分类特异的重复序列时因为在k = 9 至1 2 之间 重复出现的短核苷酸太多,筛选计算时往往会出现记录空间需求太大,导致内 存溢出。在计算寡核替酸序列的统计显著性时,s s p a 盯软件在处理列表时会崩 溃,必须条条处理,从而效率低下。对于同一基因组的不同k 值的寡核苷酸, 虽然可以初步看到寡核苷酸从长而专一,到短丽特异性变弱,并且随长度变化 其分类专一层次减弱的个剔现象,但由于受计算能力限制,并且尚无恰当的算 法能穷举的在这些要求下找出符合一次性找出符合这些要求的串。在后续的研 究中,我们要首先,继续研究算法,设法一次计算获得所有需要的串,其次要 找到或自己编写比s s p a t t 效率更高更稳定的软件,加速统计显著性评估。 第二,在第3 章中,虽然t s o r 服务器已经初步具备,但现在其功能还相对简 易,而且底层基因组数据的更新和维护还需要手工。同时由于服务器计算能力 和内存空间的限制,某些k 值,d 值和b e r g c y sc o d e 的组合递交后会导致内存溢 出,从而计算失败,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论