




已阅读5页,还剩62页未读, 继续免费阅读
(生物化学与分子生物学专业论文)lssdca:一个快速的分治多序列对齐算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
致谢 本论文是在导师张耀洲教授和潘杰教授的悉心指导下完成的。两位 导师渊博的学识、严谨的治学态度、富于开拓性的思维和果断的工作作 风,都将使学生终身受益匪浅。值此论文完成之际,谨向两位导师表示 诚挚的感谢。同时,还要特别感谢金勇丰副教授、史锋副教授和朱成钢 博士在本研究工作中所给予的指导、关心和启发,以及为研究工作的完 成所倾注的心血。 本论文全部工作均在浙江大学生物化学研究所完成,三年的学习与工作时 光飞逝而过,难以忘怀求学过程中生化所老师和同学的关心与支持。谨此感谢生 化所的邵爱萍老师、钱震虹老师、朱健红老师、章骥老师等在本研究中所给予 的指导和方便:同时也要感谢浙江博联生物技术中心的毛黎娟、徐渊、朱莹萍、 钱清丽等的大力支持。 本论文的顺利完成离不开生化所已毕业的研究生王莹飞、赵秀玲的 无私帮助:离不开生化所同窗们的大力支持与合作,感谢金荣仲、朱立 成、陈健、张文波、郭冬生、肖海龙、龚朝辉、徐颖、边腾飞等研究生; 还要感谢甘露、孙文夏、付建玉和李宏睿等研究生。还有我们2 0 0 0 级马 长安、任学毅、毛励罡、朱一望、张文伶、王丽鸳等硕士的团结帮助。 这样一个团结互助的群体。让我感到了大家庭的温暖。此外,要特别感 谢我的家人,没有他们在物质上和精神上的支持,我是无法完成本研究 工作的。 最后,谨向参加本文评阅、答辩的各位专家致以最诚挚的感谢! 龚贺华 浙江大学生物化学研究所 二二零零三年五月 缩略词 m s a d c a l s s d p n w s w s a g a c o f f e e o f m u l t i p l es e q u e n c ea l i g n m e n t 多序列对齐 d i v i d e - a i l d - c o n q u e ra l g o r i t h 耐a l i g n m e n t 分治算法对齐 l o n g e s ts i m i l a r i t ys e g m e n t 最长相似片段 d y n 锄i cp r o g r 锄m i n g动态规则 n e e d l e m a n - w u n s c h s m i t h - w a t e m l a 人名 人名 s i m u l a t e d a n n e a l i n g模拟退火 g e n e t i c a l g o r i t h m c o n s i s t e n c yo b j e c t i v ef u n c t i o nf o r a l i g n m e n te v a l u a t i o n o b j e c t i v ef i l l l c t i o n 遗传算法 对齐评估用一致性 目标函数 目标函数 o r f 0 p e nr e a d i n gf r a m e开放阅读框 摘要 随着后基因组时代的到来以及一些新的高通量信息提取技术的开发,d n a 和蛋白质序列数据库中的信息量以爆炸式增长。生命科学研究已经进入了深深依 赖计算机和网络的时代。在所有的计算机工具中,多序列对齐占据核心地位。因 为其它的许多生信息学工具都是以多序列对齐为基础的。由于序列对齐是一个 n p 完全问题所有企图快速产生最优化对齐的想法是不可能实现的。所以,那 些取得对齐质量与对齐时间最佳平衡的程序就是好的多序列对齐程序。分治对齐 方法( d c a ) 就是这样一个比较好的程序。 由于序列对齐的计算复杂性相对于序列长度成指数形式增长,所以将长序列 集分割成短序列子集的d c a 思路可能产生快速的多序列对齐。首先,d c a 将原 序列集在中点附近切断,得到两个含较短序列的序列子集。重复这个处理过程直 至得到充分短的序列集而能轻易的被对齐:接着,最优化对齐这些短序列子集: 最后,通过连接对齐矩阵,得到全序列的对齐。d c a 的关键问题就是如何计算 这些分割点。实际上,d c a 程序以一种贪婪方法计算分割点,而不能使d c a 程 序没有预期的快。 在本文中,我们提出了一种新的多序列对齐算法l s s d c a 。l s s d c a 结合 了d c a 方法和渐近方法的优点,达到了计算速度和对齐质量的较好平衡。 l s s d c a 采用了一种简化的但十分严格的渐近方法来计算序列中显而易见的最 长相似片段( l s s ) 。并在l s s 两端切断序列集,l s s 两边的短序列集重复进行相 同的处理过程,直到所有的l s s 被找出并被对齐。最后,以原序列集中相对应 的序列片段或空格填充l s s 之间的空隙,得到全序列集的对齐。 这种严格的渐近算法十分可能导致不能发现序列集中的相似片段,这将导致 d c a 过程不能进行下去。为尽量避免这种失败,一种纵向的分治( 相对前面的沿 序列的横向分治) 被用来对原序列集进行聚类,将序列集分成多个关系更紧密的 子集。这种聚类过程也是重复进行的,直至所有的序列被归入相应的类而适合横 向d c a 处理。两种d c a 是交叉进行,但横向d c a 具有更高的优先级。只有在 横向d c a 无进行下去时( 找不到l s s ) ,才进行纵向d c a 并对得到的所有类进行 横向d c a 。一种极端情况就是所有的序列都是低相关性而每一条序列被归到不 同的类中。在这种情况下,l s s d c a 的策略就不起作用,只采用c l u s t a l w 对齐 序0 。 我们用v i s u a lc + + 开发了基于l s s d c a 思想的计算机程序,并测试了 l s s d c a 程序的计算时涮和内存要求。用几个序列数据对l s s - d c a 程序进行验 证,对齐结果与其它的6 个对齐程序进行比较。结果表明,l s s d c a 快速产生 质量较好的对齐,但对含有两个以上相似的相似片段的序列集的对齐不理想。此 外,l s s d c a 对内存的要求也较高。 关键词:生物信息学:多序列对齐;分治;最长相似片段 a b s t r a c t w i t ht h ea r r i v a io ft h ep o s t g e n o m ee r aa n dr e c e n td e v e i o p m e n to fn e w h i g h t h r o u g h p u tt e c h n o i o g i e s t om i n ed a t ai n b i o i o g y , v a s ta m o u n t so f s e q u e n c ed a t aa r ef l o o d i n gt h ed n a a n dp r o t e i nd a t a b a s e ss or a p j d i yt h a t t h e r ei sas t r o n qn e e df o re 仟i c i e n la sw e i la se f f e c l i v ec o n l p u t a t i o n a it o o l st o h a n d i et h e s e d a t a a m o n gt h e s el o o i s ,m u p i es e q u e n c ea l i g n m e n t ( m s a ) i s t h em o s ti m p o r t a n tb e c a u s em s a i sc e n t r a it om o s tb i o i n f o r m a t i c st e c h n i q u e s d u et ot h en p - c o m p l e t e n e s so fo p t i m a j m s a ,a n ya t t e m p to fd e v e i o p i n ga f a s t a i g o r i t h mt oc o m p u t eo p 铂m a im u i t i p l es e q u e n c ea i i g n m e n t si se x p e c t e dt of a m s oag o o dm s a p r o g r a m t r e st o9 e tab e s tb a l a n c eb e t w e e na l i g n m e n t q u a i i l y a n dc o m p u t a t i o nt i m e d i v i d e - a n d - c o n q u e ra j i g n m e n t ( d c a ) m e t h o di so n e o f s u c hp r o g r a m s , t h ei d e a lo fd c at h a tc u t i o n gs e q u e n c e s s e ti n t os o m es h o r t e r s e q u e n c e ss e t i s e x p e c t e d t o p r o d u c ef a s tm u p l ea g n m e n tp r o g r a m s b e c a u s et h ec o m p u t a t j o n a lc o m p i e x 计yo fm s a g r o w se p o n e n t i a l i yw i t ht h e i e n g i ho ft h es e q u e n c e s ,a n dd i v i s l o nc a ne x i r e m e i yr e d u c et h ec o n l p u t a t i o n a l c o m p l e x a n dl e a dt of a s t a i i g n m e n ts p e e d e v e n t u a i i y -f l r s t i y , d c ac u t s e q u e n c e si n o r i g i n a lf a m i i ya tap o s i t l o nn e a r t ot h e i rm i d p o i n t a n dt on e w s u b f a m i | i e so fs h o r t e r s e q u e n c e s a r eo b t a i n e d r e p e a t t h i s w a y u n t l l s e q u e n c e s i no b t a j n e dn e ws u b f a m i l i e sa r ee n o u g hs h o r tt ob e a i i g n e de a s i i y ,讯e ra | i g n i n gt h e s en e wf a m i | i e so p 稍m a l i y tt h eo r i g i n a if a m i yi sa i s oa i i g n e db y c o n c a t e n a t j n gt h e s er e s u n ga i i g n m e n t s t h ek e yq u e s t i o na r i s i n gl n d c ai s h o wt oc o m p u t es i i c i n g p o i n t si ne v e r ys e q u e n c e 1 nf a c t 。t h ed g ap r o g r a m c o m p u t e s t h es f i c i n gp o f n tw i t ha g r e e d ym e t h o d a n dt h u st h es p e e do fd c ai s n o if a s ta se x d e c t e d 1 nt h i s p a p e l w ep r e s e n tan e wa i i g n m e n tm e t h o d ( l s s d c a ) t h a t c o m b i n e sl h ea d v a n t a g e so ft h ed c am e t h o da n dp r o g r e s s i v em e t h o d ,a n d t h a tb a l a n c e st h es p e e da n dt h eq u a i i t yb e t t e rl s s d c a e m p i o y s as i m p l i f i e d b u tv e r ys t r i c t p r o g r e s s f v em e t h o dt oi o c a i i z ei h eo b v i o u si o n g e s ts i m i f a m y s e g m e n t s ( l s s ) i nt h es e q u e n c e sa n dt h e nc u tt h es e q u e n c e sa tt h et w o t e r m n a i so fl s s t h ep r e f i x e sa n ds u 仟i x e so fl s sa r er e c u r s i v e l yp r o c e s s e d w i t ht h es a m ew a yu n l a l s s e sa r ed e t e c t e da n da i i g n e d af i n a im s a i s o b t a i n e db yf 川i n gt h ei n t e r v a l sb e t w e e ni o c a i i z e dl s s e sw l t ht h ec o u n t e r p a r t s e q u e n c e ss e g m e n t si no r f g f n a is e q u e n c e so rg a p s t h ep r o g r e s s i v em e t h o dt 0 c o m p u t el s s e sj s s os t r l c t i yt h a ti ti s v e r y p o s s i b f et of i n dn ol s si 九s e q u e n c e s w h l c hl e a d st of a o fd c ap r o c e d u r e i n o r d e rt oa v o i ds u c hf a i l u r e a n o t h e rv e r t i c a i d c _ 、o 气so p p o s e dt oh o r i z o n t a i d c a a l o n gt h es e q u e n c e s ) p r o c e d u r ei s i n t r o d u c e dt oc l o s et h er e i a t i v eo f 3 s e 毽u e n o e sb yc u s t e 薅n gl b e0 f l g ;n a ls e q u e n e e s n 稔t 蚴c l o s e r s e c l u e n o es e 鼍s t h ec i u s t e r n gi si t e r a t i v eu n t i ia l ls e q u e n c e s a r ec i a s s i f i e di n t od i f f e r e n tg r o u p $ t h a 盅牲b e 惫u 牲dl s se 鑫s l y 下h e 圭9 od c a v e 撞i e a l 鑫n c lh o 捱z o n t 鑫穆p e e d u 扛e s a r ec r o $ s 。b u tt h eh or i z o n t a ld e ah a sh j g h e rp r i o r i t y :0 n f yi ft h es e q u e n c e sa r e n o t 讯孙ft h eh o z o n t a ld c ap c e d u r e ,t h ev e r t i c 鑫ld c ai $ e x e c u t e d 。a n e ) ( t r e m t yi st h a ta s e q u e n c e sa r el o n gd i s t a n c e 藏n de v o r ys e q u e n c e1 8 c l a s s i 悄e dd i 斤e r e n tg r o u p s i nt h i sc a s e 。l s s d c a a l i g n e dt h es e q u e n c e s w i t h t h es a m e w a y 穗sc u s t 箍魏麓 a ni m p i e m e n t a t l o no fl s 8 - d c ai sd e v e l o p e da n dt h et i m ea n dm e m o r v 糟c l 疆l 治m e n t 联搬ep g 穗粥鑫治a s s e $ s e 覆s e v e 吲e x 鑫m p l e 8 莲治s h 蝴n 鑫喇 t h ea i i g n m e n tr e s u i t sp r o d u c e db yl s s d c aa r ec o m p a r e d $ y s t e m a t c a l i yt o t h er e $ u | t so f8 i xo t h e r a l i g n m e n tp g f a m s t h e 治s u l t ss h o wt h a tl s s o c a c a np r o d u o eg o o da l i g n m e n tw i t ha 稻s t s p e e d 。b mt h e 限s u 豫a l s o n d i c a t e t h a tt h e r el sak j n do f $ e q u e n c es e t 8i nw h i c hd n eo rm o r et h a no n eo ft h e s e q h e n 游ss h a 治t 哟o rm o 治l h a 拜t 哟s 拜n l a rc o n s e 黼d 治g l o 拜a n dt h a tt h e a i i g n m e n t o ft h o s es e t 8i sn o ta s g o o da so t h e rs e t sp r o d u c e db yl s s ,d c a k e y w o r d s :b i 。j n f o r m a t i c s :m u i “p i es e q u e n c ea i j g n m e n t ( m s a ) :d i v j d e a n d c o n q u e ra i i g n m e n t ( d c ;a ) :l o n g e s ts i m l i a r n ys e g m e n t ( l s s ) 4 第一褰多穿捌对齐在生物学研究中酶意义 1 1 佧噍是多序列对齐 多玲捌对赛是一静璇现捆关序翔匏集会秘计算掘工瑟,它把各祭序列中的掇 似的残基羧行或按歹对弃摊列( 序列对赛的数学定义请既熬二露) 。痔列袋合至 少愿含3 祭痔列,多至数嚣蕞。多垮列鼹骞瑟产生瓣结豢多秘多样,一般霹蔽壤 据强銎类:块黠蹇、片段慰蹇、嗣帮对齐秘全鼹慰莠,觅瓣1 1 ; 转嚣袋瓣蒜# 霉麟撇i 籍辨m 碡 鞫l - l 多净捌对务豹鞠秘鏊搴舆鳌。( a ) 对弃结莱由瑟撩入鞠搿剜麓段块稳藏 转) 兵显 承稠阍戆滓列片段;( e ) 只蠢糍网豹痔穰冀致被瓣_ 寿( 黧抟大写瓣势) ,爨显霹完整垮裂集; ( d ) 尽锊菜蹙医块不相同,熬条序列被对齐l i l 。 赫磬l 一重,爹垂n r 母p 棼so fm 鞋l 蛙p l e i g 疆辍搴撼o f 斑e 鼢m es 文o fs e q u 蝴s a ) t ka l i 群釉e m c o n s i 船o 婚飙畦b l 掊婊s 狂热鐾耩p 弦ds e 罐珏e 辫e s 舒落m e 拜t s ,b ) o n l y 瓢 鞴s 镧# 黼e ss e 辇m e n 砉s c o n s i d e r e dt ob ee q u i v a l e n ta 婶i n c i u d e d 泌t h ea l i 鐾n m e n t ( c ) o n l yt h o s es 湖u e n c e ss e g m e n t s 毒黼s i d e f e 蠢轮堍弼u i 翊e 嫩琏穗娟替翻o w n 籼o a p 诅ll e 缗e 嘲。嫩t h ec o m 静 咖s e 琏u e n c ei s i n c l u d 树籼kd i s p l 移劭拍es 鹎n 嫦s 嚣f e 鑫嚣鞘裾,毒v e 摊fc 嚣攫a 融转g i e 鞋sa 糟辩献轴f 醢t s u p e r p o s a b i e l l l 1 2 多序捌对齐怒生物学研究必嚣鳇一释计算枧王其 测黪技术积捞接技零数进步叛及久类基因鳃谤燃秘其它物耱鍪嚣缝诗翔静 安藏健褥摊a 霸蛋鑫震数辫霹豹摩歹g 数据快速增长。到2 0 豫年8 麓,g e n b 韪n k 中的痔列数这到 8 ,9 7 ,o o o 条,毽禽2 2 。8 1 7 ,0 0 0 ,o o o 个溅蒺。凝瓯赁缝学骊基 瓣袭这分车厅中离遥擞新授术弼生物芯片等的应用,使序捌数据以更快的速魔增 长。褡蓊,擞物穰惑学已超越理论物理和神经计算税模拟,成为入类实践产生数 据量最大的领域川。但是,对于新增序列数据的大部分,都可以从己存在的序列 数据库中找到其同源体。因此,新发现和证实的具有生物学意义的数据不仅适用 于正在研究的蛋白质,我们还可以用这些数据来注释它在序列数据库中的同源 体。这必将导致生物信息被更广泛的利用,最终还可能改变我们对生命的看法、 对生命的环境的看法。 k 1 v 籁 赢 挂 图1 2g e n b a i l l 【中的数据增长趋势 f i g 1 2 g r o w mo f g e l l b a l l l c 对一些微生物基因组序列的测定发现了水平转座予,这种能在多物种之问水平转 移的基因动摇了曾被普遍接受的广泛进化树理论口】。随着人类基因组计划的进 展,大量与发病机理相关的基因被发现。这些潜在的药物作用靶点成为医药工业 巨大的未来商机【4 】。对极端条件下的微小有机物的基因组分析发现了一些在极端 的温度、p h 值、压力和盐条件下具有稳定性和活性的酶,这些酶在生物技术和 工业都可能有潜在的应用价值。所有这些事实表明:用于分析生物信息的方法 和系统必须符合变化的前景。所以,生物信息学的一个主要的挑战就是将大量可 得的生物数据与各种应用联系起来。对生物数据的注释不应只限于简单的功能转 换,应该是一个协同和整合的过程。 多序列对齐在序列注释和分析过程中有着十分重要的作用。尽管没有明显地 提及,基因组计划许多的计算方法实际上都涉及了多序列对齐。近来开发的数据 库搜索技术和其它新方法吲都严重地依赖于多序列对齐。一些用于全基因组的比 较和分析的整合系统的核心就是多序列对齐,如g e n e q u i z 峨m a g p i e 【7 1 、a l f r e s c o 8 1 和i m a g e n e 吼 随着后基因组时代的到来,生命科学的研究也从以往的单基因蛋白质的研 究转向整个基因组的分析( 如高通量生物学) 。为了更完全理解特定基因的功能 及分子间相互作用,我们必须把它在细胞内的位置、降解和修饰、2 d 3 d 结构、 突变及与突变引起的疾病、进化上下文等多种信息整合联系起来。在这些数据的 整合和分析中,多序列对齐扮演关着键角色。通过确定序列在总的相关家族中的 位置,多序列对齐不仅可以横向分析整条序列,还可以纵向研究蛋白的进化关系。 因此,多序列对齐是序列数据交差验证和揭示序列数据各种信息的一个理想的工 作标准。 1 3 多序列对齐在后基因组时代中的核心作用 在这全新的数据时代,我们需要一系列综合的方法来分析整个基因组和更深 入的认识生命。基因的确认和注释仅仅是全面重建令人迷惑不解的生命活动的第 一步。从新构建生命包括生物活动各方面,如:总基因组的组织、相关联的蛋白 质作用网络、细胞的代谢路径和物种的进化历史等。在基因组序列大量的涌现的 同时,d n a 芯片和r n a 表达芯片加快了转录组学和蛋白质组学研究的进程,提 供我们理解蛋白质相互作用、蛋白质修饰和降解的线索。加上来自自动基因组注 释的数据和来自传统生物学方法和高通量技术的实验数据,生物信息学正在进行 着一场数据的“雪崩”。在基于基因组的生物学研究的每个领域,生物科学需要 一种强大的生物信息学工具来处理个序列分析的每一步骤。由于多序列对齐以综 合的视野来处理序列内及它与其同源序列间的关系,多序列对齐是后基因时代一 种卓越的研究蛋白质的工具。多序列对齐在后基因组时代中的核心作用主要表现 l 在以下几个方面,见图1 3 。 图1 3 利用多序列对齐获取信息的示意图。在本例中,两个同源蛋白质家族被对齐。第一 家族由细菌蛋白序列组成,而第二家族由细菌、古细菌和真核的3 组蛋白序列组成。从对齐 结果预测的一些特征( 磷酸化位点、保守残基) 可以清楚地显示出两个蛋白家簇的特异性。 在第一个家族中,一条序列有不合常规的n 端延伸,这表明可能存在一个o r f 的误判。对 于第二个家族,根据保守模式可以分成三组:有些残基在组间保守,而有些在类内保守。根 据这些信息可以进行聚类预测:两个家族的原核成员蛋白都有跨膜区,而真核蛋白具有n l s 保守区。【1 】 f i g 1 3 s c h e m 撕co v e r v i e wo ft l l ei n f o n m 血0 na c c e s s i b l ef h m u 出ag l o b a lm u l t i p l ea l i p 叫n e n t h 1 血i se x a m p i e ,t o wh o m o l o g o u sf a m i i i 髓o fp r o t e i i l sa f ea l i 霉l e d :t h ef i r s tf a m i l yi sc o m p o s e d e n 硅r e l yo fb a c t 甜a ls e q u c e sa n dt h es e c o n df h m i l yh a s 糟p 瑚锄伽v e si nm et l 】r e ed o m a i n s s o m e 删i c t e d 锄n l r 髓g u c h 船p h o s p h o r y l a n o ns i t e sa n dan u m b e ro fr e s i d l l 嚣( i nb l a c k ) a r e c o n s 豇v e da c m s sm em of 豳i l i 髂b u tt 1 1 ed o m a i no 碹姐i z a d o n 舭ds o i r l ef h n c t i o n a lr e s i d u e s ( i n g r e y 柚dv i o l e t ) d e f i i l e 也es p e c i f i c i t yo f m et w o 觚i l i e s h it h e 丘曙t 鼬姐y ,o n es c q u e n c ee x h i b i t s a i la t y p i c a l n - t e l l n i l l a le x 渤s i o n w h i c h m 8 yr 喇l 觚啪i n o r fd e 蛐撕o n 1 1 1 m es e c o n d f h m i l y ,t l l es e q u e n c e sc 蛆b ed i v i d e di l l 也r e eg r o u p sa c c a 幽gt od 衙rc o n s e r v a t i o np a n e n l :s o m e r e s i d u e sa r ec o n s a v e dw i m i i le a c hg m u pb u tn o t 咖o n gt l l et h r t a x a s o m e 删i c t e df e a t l l r e s l i n k e dt o1 0 c a i i z a t i o ne x l l i b i tap a m c u l a rc l l l s 劬gs c h 锄e :订a i l s m 锄b r a n er e g i o n sa r ep r c s e l l ti n t 1 1 ep r o k a r ) ,o t i cm e m b e r so fb o t l lf h m i l i e sw h i l en u c l e a r1 0 c a l i 髓6 0 ns i 掣l a la r ec o n s di i lt h e e u k a d r o d cs c q u e n c e s 【” 1 3 1 功能确认( f u n c t i o n a la s s i g n m e n t s ) 功能预测是基因组学的第一步,因为在其之m 进行的更高水平的序列分析过 程都取决于它的准确性。经典的做法就是通过搜索己注释的同源数据库来预测基 因和蛋白的结构和功能。常规的本地数据库搜索方法o 川广泛地应用于生物学研 究。一些自动注释系统也集成了此功能。近年来,数掘库搜索技术取得的进步, 可以使我们比较距离越来越远的同源序列3 1 “l 。结合己存在的结构域数据库和 “序列诊断”1 ( 确认氨基酸序列的特征,如无规则折叠区,跨膜区和胞内定位 信号区) ,同源搜索技术能越来越准确地预测基因和蛋白质的特性。 但是,即使最好的自动信息提取系统也可能导致注释错误。这种错误由于被 不断引用而最终在数据库内扩散1 6 ”l 。减少蛋白家族的偏差和确定具有相同功能 的同源蛋白质决不是一项小工程,而是十分复杂的,并且正随着多结构域蛋白质 和不同同源程度蛋白家族的出现而变得更加复杂【l7 t l ”。通过基因组的比较发现: 进化关系十分近的物种间的蛋白质家族的保守区域可能有很大的差别,相同残基 百分比并不能构建可靠的同源性预测。因此,全局多序列对齐产生的同源对准是 确认蛋白质功能的必需步骤,而且还能对对齐的质量进行控制。如表1 1 显示了 以含苯丙氨酸t r n a 合成酶b 亚基的m y c o p l a s m ag e n i t a l i u m 序列y 4 4 9 m y c g e ( a c c e s s a i o nn u m b e rp 4 7 6 8 7 ) 为模板,b l a s t p 搜索的最高同源性序列。而这些 序列的全局对齐结果表明搜索结果只有对齐部分的合成酶家族( 图1 4 ) 。根据 3 d 结构信息文献9 1 可知序列中同源区域为陔亚基的b 2 结构域。b 2 结构域为公 认的反密码子结合位点,并不参与氨基酸的酰化反应。所以,多序列对齐结果表 明,同源性查询并没有e 确的反映合成酶功能1 6 j 。 1 3 2o r f 正确性验证( o r f v a i i d a t i o n ) 通过同源家族的对齐,全局多序列对齐可以显示o r f 的不一致,进而验证 0 r f 的有效性。例如,在m y c o p l a s m ap n e u m o n i a 的基因组注释中,d a l l d e k a r l 2 0 1 等就利用多序列对齐来预测蛋白阅读框的c 端延伸。表1 2 中列出了序列 y 0 2 9 一m y c p n ( a n p 7 5 0 8 2 ) 的b i a s t p 查询结果。序列y 0 2 9m y c p n 与表中的 其它序列有2 3 6 5 的相似度,但只限于保守区域。人工检测表明,原来的o r f 可以通过终止密码子的突变而延伸。多序列对齐( 图l + 5 ) 同时还暗示在 m e t h a n o c o c c u s j a n n a s c h i i 基因组序列y 9 6 7 一m e t j a 上可能存在一个起始密码子 9 图1 5b 1 t p 查询结果的对齐。对齐结果指示序列y 0 2 9m y c p n 可能存c 端延伸。相似度 大于8 0 的列以阴影标记。公认的i y c o p l m ap n e u m o n i 和d m s o p h i l a m e l a n o g a s t c r 以小 写字母表示。 f i g - 1 - 5 m u l t i p l ea l i g n m e n ti n d i c “n gap o t e n t i a lc - t e r m i n a le x t e n s i o nt ot h em y c o p l a s m a p n e u m o n i a cs e q u e n c ey 0 2 9m y c p n c o l u m n sc o n t a i n i n g 8 0 s i m j i a rr e s i d u e s 盯es h a d e d p u 诅t i v ec o r r e c t i o nt ot h eo l t f si nm y c o p l 鹊m ap n e u m o n i a ea 1 1 dd m s o p h i l am e l a i l o g a s t e ra r e s h o w ni nl o w e rc a s e 的错位。用同样的方法,全局多序列对也可以发现外显子内含子边界预测的潜 在错误。这种边界预测错误问题随着越来越多的真核基因组测序完成而变得更加 突出。 1 3 3 保守模式分化( d i 肌r e n t i a lc o n s e r y a t i o np a t t e r n s ) 通过检测序列中特定位点的界定蛋白家族或亚家族的特征,如保守结构域、 缀脆定位信号决定功缝熬关键残整等,多痔刭砖弃露数揭示爨鑫戆送识魏寒 翔l 。这种进化约束不仅猩确定残基反应特性的实验生物学中起关键性作用,而 鼓在基于生亿特 正的精确耗自律潮菜一特定蛋白瑷的药裼设计串寄重要意义邵1 。 多序列对齐能显示保守模式中的细目分类,如两个有相同祖先的蛋白质家族中的 具有很高的同源憾但有一定功能麓异的t : 剐残基( 闰l - 3 ) 。因此,通过确认保守 模式的细微差别,多序列对齐有黝于减少出复杂基因关系导致的功能注释错误。 1 3 4 进化研究( e v o i u t i o n a r ys t u d i e s ) 传统的分子送纯研究取决予多序列对齐产生豹耪释黼静系统发生关系f “。在 厝基因组时代,进化研究进入一个全新的境界,因为我们w 以从覆盖物种进化图 谱的全蛋白质组采研究分予进化。蛋白质组水平的进化研究不仅发现了进化过程 中的大爨基因丢失,两旦还进一步揭示了进化过程中的基因横肉转移的燕要性 - 2 6 2 ”。构建基于骚白质缎的全集进化树w 以用来评估单个基因棚对基于r r n a 懿糖静避纯雯豹变诧壤嚣,遴瑟攥示伐澎路径兹避纯。进化组学熬方法,赡丈援 模重建和分析进化关系,被用来预测一些未知蛋囱质家族的功能m l 。这些新方法 郝菝赖予参与圈一代滚臻经懿蒸瓣靛逶能籀关性。鲷鲡,p e l l e 舒n i l ”提密瓣系统 发生模式能预测愈基因组中每一个蛋白质的存在或缺失。这种预测基于这样一种 假设:买有掴骰样式倾商静蛋白旗在功煞上有福驻关联憔。 l 。3 。5 结构域毒揭( d o m a i no 毯a n i z a l i o n ) 多序列对齐的另一个十分重疆的应用就是确认一个骚白质家族的结构域布 怒e 在避他过程串,经常发生蛋彝蒺结构域瓣醛会耪分离。迸嚣绥蛋鑫家羧结构 里现复杂的折叠税式。这种折叠花式的复杂性是蛋白功能自动注释产生错误的一 个主要原豳。对予未知功髓的蛋国质,根据m a r c o t t e l 蚓的w 从多序瓢对齐程序产 生的结构域布局圈来推测蛋白质的相互作用。m a r c o t t e 豹方法蘩于这样种发 现,即不同物种来源的能相互作用的f 面源骚白质裰功能上总是有定联系的,例 如参与袒阏静代谢路径或形成摆毅戆分予复会物等。 1 3 6 同源结构建模( h o m o l o g ys t r u c t u r em o d e l i n g ) 序列土的褶钕通常意味着在绱构上宵一定的箱象。在越来越多的三维结构原 形被确定的情况下,精确的序列对齐可以作为结构模拟的一个实用工具。因此, 1 2 多序列对齐被广泛地应用于2 d f 3 l ,3 2 1 和3 d 【3 3 捌1 结构预测。一个基于多序列对齐和 线程技术的预测方法检测了m y c o p i a s m ag e n i t a l i 啪基因组,识别出4 6 的o r f 与己知结构的蛋白有显著的相关性1 1 9 l 。随着以覆盖整个蛋白质折叠空间为目标的 功能基因组学研究取得的进展p 5 3 7 l ,越来越多的实验数据被获取,同源结构模 拟的应用范围显著扩大,并且预测的准确性也大大提高。 1 3 7 信息繁殖( i n f o r m a t i o np r o p a g a t i o n ) 通过解析蛋白质的结构布局、功能、结构和进化等信息,多序列对齐提供了 一种可靠的信息繁殖:根据同源性比较,从特性已知的序列来注释新序列的特性。 例如,在p y m c o c u u sa b y s s i 基因组的注释过程中,多序列对齐自动构建了基因组 中的每一个0 r “。表1 3 为基因组序列p a b 0 2 7 9b l a s t p 查询e 值小于o 1 的结 果。图1 6 显示了查询结果的序列对齐结果。在这个例子中,最高得分的序列包 含几个未完全确定的蛋白质和两个已知蛋白质( 只给出e c 数值而没有功能描 述) 。实际上,被注释的序列都是酪氨酸特异性蛋白质磷酸化酶( p t p 邪e ) ,其性 质是确定,并且这些磷酸化酶都有两部分组成:可溶性p t p a s e 和含p t p a s e 的跨 膜受体蛋白。从对齐结果可知,序列p a b 0 2 7 9 也有可溶性p t p a s e 和含p t p a s e 的跨膜受体蛋白两部分,并且p t p a s e 的信号序列是保守的。因此,可以认为 p :a b 0 2 7 9 也是一个蛋白磷酸化酶,而且它的作用位点也能可靠的确定。 图1 6 查询结果的多序列对齐。( a ) 由s 谢s s p m t 注释的结构特征示意图,序列中的保守 区域由黑框表示;( b ) 保守区域的多序列对齐结果,相似度大于8 0 的列由阴影标记。 f i g 1 6 m u l t i p l ea l i 卸髓e i l to fm et o p - s c 耐n gs e q u c e sd e t c c t c db yb l a s t p ( a ) as c h e i n a t i c r 印】船t a d o no ft l l es e q u 曲c e s ,s h o 耐n gm ed o m a i n 砌n l r 髓a n n o t a t e di ns 惭s 印r o t 1 1 1 er e 百o n c o n s c r v c di 1 1a l lm es o q u e n c 髓i so u n i n e dw i t l lab l a c kb o x ( b ) p a no ft h ed o b a lm u l t i p l e a i i 鲫e n t ,s h o w i l l gm ec o n s c r v c dr e 酉o n c o l 啪n sc o n t a i n i n g 8 0 s i m i l a rr e s i d u e sa r es h a d e d 多序列对齐是一种强大的整合工具,能应用于从蛋白功能关键位点确定到蛋 白进化一系列的生物学研究。但是,由于在处理复杂蛋白特别是非线性蛋白时的 不可靠性,多序列对齐还不能适合大规模的基因组序列分析。蛋白质的一些非线 性特征,如重复子、插入子、环状重复、低复杂性区、跨膜蛋白和无规则卷曲, 给多序列对齐程度造成很大的麻烦o ”。随着越来越多的真核基因组被测定,出现 了越来越多的多结构域大蛋白。真核蛋白比原核蛋白具有更高比例的结构重复和 单氨基酸重复短片段,而跨膜蛋白占到总蛋白的2 吐3 0 。在多序列对齐程度 进行高通量分析基因组之前,还有许多问题需要解决。 1 4 |rf【基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年注册验船师考试(C级船舶检验法律法规)复习题及答案一
- 海滩公务员面试题及答案
- 2025年医疗器械公司招聘销售代表笔试模拟题与面试技巧
- 2025年市场营销部销售代表招聘面试题集
- 2025年裂解反应工程实践技能考核题库
- 2025年证券从业资格考试预测试题与标准答案
- 2025年企业碳排放管理与减排技术中级模拟题集及答案
- 2025年网络安全工程师面试题库及答题技巧指南
- 2025年心理咨询服务技能培训与考核标准
- 2026届天津市滨海新区大港八中高三化学第一学期期中质量检测试题含解析
- 幼师面试精 选题目及答案解析
- 通信技术对生活方式的改变
- 医院招聘面试题目及参考答案
- 神经外科护士进修汇报:专业提升与实践应用
- 建筑工地基孔肯雅热防控和应急方案
- 人教版三年级数学下册第五单元《面积》-长方形和正方形面积专项练习卷含答案
- 消防监督员业务培训课件
- 特级建筑集团资金管理副总职责
- (高清版)DB34∕T 486-2025 霍山石斛
- 升降平台车培训
- 2025年高考山东卷物理试题讲评及备考策略指导(课件)
评论
0/150
提交评论