(应用数学专业论文)生物序列的相似性分析及种系发生树的构建.pdf_第1页
(应用数学专业论文)生物序列的相似性分析及种系发生树的构建.pdf_第2页
(应用数学专业论文)生物序列的相似性分析及种系发生树的构建.pdf_第3页
(应用数学专业论文)生物序列的相似性分析及种系发生树的构建.pdf_第4页
(应用数学专业论文)生物序列的相似性分析及种系发生树的构建.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 随着人类和一些模式生物基因组计划的相继完成和全面实施,产生了大量的生 物序列数据。对这些数据的保存、处理、分析和研究推动了分子生物学、数学以及 计算机科学的结合,由此发展起来的计算分子生物学也逐渐成为自然科学中异常活 跃的一个研究领域。计算分子生物学的研究内容非常丰富,本文在其两个重要的课 题生物序列的相似性分析和种系发生树的构建方面进行了研究,主要成果有: 在序列与结构的比较分析方面:f 1 ) 给出了一种分析d n a 序列相似性的方法, 该方法基于两序列间的差别度量,不需要进行序列比对。为了说明差别度量的合理 性,对两组数据进行了相似性分析。( 2 ) 提出了一种r n a 二级结构的图形表示方 法。该方法基于c g r 及构成r n a 的四种碱基的化学性质分类。进一步地,从图形 表示中提取数值特征分析了1 6 个r n a 二级结构的相似性。( 3 ) 提出用偏序集刻画蛋 白质序列,偏序关系基于氨基酸的解离常数及氨基酸在序列中出现的位置。从蛋白 质序列的广义哈斯矩阵表示中提取数值特征比较了9 个神经基因的蛋白质序列。( 4 ) 提出了一种分析蛋白质二级结构相似性的方法,并将其应用到一组蛋白质数据来进 行蛋白质结构分类,为蛋白质结构类的划分提供了一种辅助性方法。 在进化树构建方面:f 1 ) 基于序列间的差别度量给出了两种序列问的距离度量, 选取1 0 个物种的3 - g l o b i n 基因序列、2 0 个物种的线粒体基因组编码的全部1 3 条蛋 白质序列为数据,构建的系统进化树与传统的根据物种形态和其他方法得到的进化 树完全一致;并且基于氨基酸的物化性质对蛋白质序列进行了重新描述,进而将其 运用到基于蛋白质序列的进化分析中。( 2 ) 根据构成r n a 二级结构的碱基的化学 性质以及区别自由基和基对,将一个r n a 二级结构编码成一条f 0 ,1 ) 序列。采用 l e m p l e - z i v 压缩算法进行进化分析,构建了两组r n a 二级结构的进化树。 关键词:d n a 序列;蛋白质序列jr n a 二级结构;蛋白质二级结构;差别度量;图形 表示;偏序集;哈斯矩阵;蛋白质结构类;种系发生树 大连理工大学博士学位论文 t h es i m i l a r i t ya n a l y s i so fb i o l o g i c a ls e q u e n c e sa n dc o n s t r u c t i o no f p h y l o g e n e t i ct r e e s a b s t r a c t w i t ht h ec o m p l e t i o n d e v e l o p m e n to ft h eg e n o m ep r o j e c t so fh u m a na n ds o m e m o d e lo r g a n i s m ,l a r g en u m b e r so fs e q u e n c e sd a t ah a v eb e e ng e n e r a t e d t h es t o r a g e , m a n a g e m e n ta n da n a l y s i sf o rt h e s es e q u e n c e sd a t ap r o m o t et h ei n t e g r a t i o no fm o l e c u l a r b i o l o g y , c o m p u t e rs c i e n c ea n dm a t h e m a t i c s t h ec o n s e q u e n td e v e l o p m e n to fc o m p u t a - t i o n a lm o l e c u l a rb i o l o g yh a sb e c o m eah o tr e s e a r c ha r e ao fs c i e n c e t h er e s e a r c ha r e a o fc o m p u t a t i o n a lm o l e c u l a rb i o l o g yi sv e r yw i d e ,t h i sd i s s e r t a t i o nm a i n l yf o c u so nt h e s i m i l a r i t ya n a l y s i so fb i o l o g i c a ls e q u e n c e sa n dt h ec o n s t r u c t i o no fp a y l o g e n e t i ct r e e s , t h em a i nr e s u l t so b t a i n e di nt h i sd i s s e r t a t i o nc a nb es u m m a r i z e da sf o l l o w s : f o rt h ec o m p a r a t i v es t u d yo ns e q u e n c e sa n ds t r u c t u r e s :( 1 ) as i m i l a r i t ym e a s u r e f o rd n a s e q u e n c e si sp r o p o s e d ,w h i c hi sb a s e do nt h ed i s c r i m i n a t i o nm e a s u r eb e t w e e n t w os e q u e n c e s t h en e wm e t h o dd o e sn o tr e q u i r es e q u e n c ea l i g n m e n t t oi n u s t r a t e t h eu t i l i t yo fo u rm e t h o d ,w ea p p l yi tt ot w os e t so fd a t af o rt h es i m i l a r i t ya n a l y s i s 。( 2 ) b a s e do nc h a o sg a m er e p r e s e n t a t i o n ( c g r ) ,w ep r o p o s ea3 dg r a p h i c a lr e p r e s e n t a t i o n f o rr n a s e c o n d a r ys t r u c t u r e si nt e r m so fc l a s s i l i c a t i o n so fb a s e so fn u c l e i ca c i d s t h e s i m i l a r i t i e sa m o n g1 6r n as e c o n d a r ys t r u c t u r e sa r ec o m p u t e db a s e do nt h en u m e r i c a l c h a r a c t e rs e l e c t e df r o mt h ec h a r a c t e r i s t i cm a t r i x ( 3 ) w ep r o p o s et ou s et h ep a r t i a l o r d e r e ds e tt oc h a r a c t e r i z ep r o t e i ns e q u e n c e s ,t h ep a r t i a lo r d e ri sb a s e do nt h ed i s s o - c i a t i o nc o n s t a n to f3 2 n i n oa c i d sa n dt h e i rp o s i t i o n si nt h es e q u e n c e b yc a l c u l a t i n g s o m em a t h e m a t i c a li n v a r i a n t so ft h ea u g m e n t e dh a s s em a t r i xr e p r e s e n t a t i o no fp r o - t e i ns e q u e n c e s ac o m p a r i s o nf o rt h es i m i l a r i t i e sa m o n gn i n ep r o t e i ns e q u e n c e so fn e r v e g e n e si sm a d e ( 4 ) w ep r e s e n tas i m i l a r i t ym e a s u r ef o rp r o t e i ns e c o n d a r ys t r u c t u r e s f u r t h e r m o r e w ea p p l yi tt oas e to fp r o t e i nd a t at oc l a s s i f yt h ep r o t e i ns t r u c t u r e t h er e s u l ti n d i c a t e st h a ti tc a nb eu s e dt oc o m p l e m e n tt h ec l a s s i f i c a t i o no fp r o t e i n s e c o n d a r ys t r u c t u r e s f o rt h es t u d yo nc o n s t r u c t i n gp h y l o g e n e t i ct r e e s :( 1 ) w ep r o p o s et w on e ws e q u e n c e d i s t a n c eb a s e do nt h ed i s c r i m i n a t i o nm e a s u r eb e t w e e n t w os e q u e n c e s t h ef l - g l o b i n g e n es e q u e n c e so f1 0s p e c i e sa n da l lt h e1 3p r o t e i n se n c o d e di nt h eh s t r a n do fm t d n a a r ec h o s e nf o rp h y l o g e n e t i ca n a l y s i s t h et r e ep r e s e n t e di si nc o m p l e t ea g r e e m e n tw i t h t h er e s u l t so b t a i n e db yo t h e rm e t h o d s i na d d i t i o n ,b yt a k i n gt h ep a y s i c o c h e m i c a l i i i 生物序列的相似性分析及种系发生树的构建 p r o p e r t i e so fa m i n oa c i d si n t oa c c o u n t ,w ed e f i n ear e d u c e da l p h a b e tr e p r e s e n t a t i o no f p r o t e i ns e q u e n c e s t h eo b t a i n e ds e q u e n c e sa l eu s e df o rt h ep r o t e i n b a s e dp h y l o g e n e t i c a n a l y s i s ( 2 ) i nt e r m so fc l a s s i f i c a t i o n so fn u c l e i ca c i d sa n dt h ed i f f e r e n c e sb e t w e e nt h e f r e eb a s e sa n dt h e p a i rb a s e s ,w ee n c o d ee a c hr n as e c o n d a r ys t r u c t u r ei n t oa ( 0 ,1 ) s e q u e n c ea n de m p l o yt h el e m p e l z i va l g o r i t h mf o rt h ee v o l u t i o n a r ya n a l y s i s t h e u t i l i t yo fo u rm e t h o di si l l u s t r a t e db yc o n s t r u c t i n gt h ep h y o l g e n e t i ct r e ef o rt w o s e t s o fr n as e c o n d a r ys t r u c t u r e s k e yw o r d s :d n as e q u e n c e ;p r o t e i ns e q u e n c e ;r n as e c o n d a r ys t r u c t u r e ;p r o t e i ns e c - o n d a r ys t r u c t u r e ;d i s c r i m i n a t i o nm e a s u r e ;g r a p h i c a lr e p r e s e n t a t i o n ;p a r t i a lo r d e r e d s e t ;h a s s em a t r i x ;p r o t e i ns t r u c t u r a lc l a s s :p h y l o g e n e t i ct r e e i v 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学 位论文版权使用规定,同意大连理工大学保留并向国家有关部门或机 构送交学位论文的复印件和电子版,允许论文被查阅和借阅本人授权大 连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文 作者签名: 导师签名:丞鲤 年一月一日 7 9 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:超日期:掣2 大连理工大学博士学位论文 1 绪论 本章简要介绍了计算分子生物学的产生和发展,以及与本文的研究内容相关的 一些分子生物学的基础知识,并且在最后给出了本论文的研究计划和主要工作。 1 1 计算分子生物学的产生及其发展 1 9 5 3 年,美国科学家詹姆斯沃森与英国科学家弗朗西斯克里克共同提出 了d n a 分子的双螺旋结构模型,并由此建立了遗传密码和模板学说。之后,围 绕d n a 的结构和作用,科学家们继续开展研究,于1 9 6 1 年成功破译了遗传密 码,d n a 双螺旋结构的正确性因此得到了证实。d n a 双螺旋结构模型的提出,揭 开了分子生物学的新篇章,开启了生命科学的新阶段,此后人类开始进入改造及设 计生命的新征程。2 0 0 3 年,与阿波罗登月计划、曼哈顿原子弹计划并称为人类自然 科学史上的三大计划之一的人类基因组计划f h u m a ng e n o m ep r o j e c t ,h g p l 顺利完 成,人类在认识自我、揭示生命奥秘的漫漫长路上又迈出了重要的一步。人类基因 组计划是由美国科学家于1 9 8 5 年率先提出,1 9 9 0 年正式启动,美、英、法、德、日 和中国科学家经过1 3 年努力共同完成的一项伟大的科学计划。这一计划旨在完成人 类所有染色体中的3 0 多亿个碱基对的序列测定。人类基因组计划的成果不仅可以揭 示人类生命活动的奥秘,而且几千种单基因性疾病和严重危害人类健康的多基因易 感性疾病的致病机理有望得到彻底阐明,为这些疾病的诊断、治疗和预防奠定了坚 实的基础。同时,人类基因组计划的实施还带动了医药业、农业、工业等相关行业 的发展,产生了极其巨大的经济效益和社会效益。 人类基因组计划顺利完成后,科学家们相继对诸如大肠杆菌、酵母、线虫、果 蝇、小鼠、鸡、拟南芥、水稻、玉米等模式生物的基因组也进行了测序,生物序列 ( 包括d n a 、r n a 和蛋白质) 信息发生了爆炸性的增长。到2 0 0 7 年1 0 月,美国国 家生物技术信息中心( n c b i ) 发布的g e n b a n k 数据库中的序列纪录达到了7 7 ,6 3 2 ,8 1 3 条,总共包含了8 1 ,5 6 3 ,3 9 9 ,7 6 5 个碱基对,并且碱基对的数量还在以每1 8 个月就基 本上增加一倍的速度在急剧增长。在此基础上派生和整理出来的数据库已达5 0 0 余 个。这一切构成了一个生物学数据的海洋。这种科学数据的快速大量积累,在人类 的科学研究历史中是空前的。数据并不等于信息和知识,但却是信息和知识的源 泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类 1 生物序列的相似性分析及种系发生树的构建 相关知识的增长却十分缓慢。这就构成了一个极大的矛盾,这个矛盾催生了一门新 兴的交叉学科:计算分子生物学。生物信息学是计算分子生物学的“孪生 学科。 人们常常不加区别地使用这两个名称。严格来讲,生物信息学还包括对各种生物信 息存储和查询的研究。 计算分子生物学作为现代信息科学、计算机科学、生命科学、数学、物理学、 化学等很多学科相互渗透形成的一门崭新的学科,正在逐渐成为现代生物学研究的 重要方法之一,它已成为生命科学中异常活跃的一个研究领域。基因和蛋白质是现 代生命科学研究的主要对象。生物学家们从研究单个基因或蛋白质发展到研究d n a 序列信息、蛋白质结构信息以及它们之间的相互作用,破译每一水平的生物信息提 出了与基因或蛋白质有关的数学问题。计算分子生物学所研究的对象就是这些与基 因和蛋白质序列有关的数学问题,它的主要课题有:序列组合、序列分析、生物信 息数据库、基因认定、种族树构建以及蛋白质三维结构预测等【1 】o 普遍认为,计算 分子生物学和生物信息学是当前生命科学和自然科学领域中最关键、最重要的部 分,是2 1 世纪自然科学的核心领域之一【2 叫。 1 2 分子生物学的基础知识 本节介绍了分子生物学的一些基本概念,提供一些主要的信息,以便能够了解 本文所涉及的一些生物学背景知识。生命的基本单位是细胞,它是由细胞膜、细胞 质和细胞核三者组成,遗传信息储存在细胞核中。构成细胞的分子有两类:大分子 和小分子。大分子有三种类型:d n a 、r n a 和蛋白质,它们是由某些小分子聚合在 一起形成的。 1 2 1 核酸 核酸是生命的遗传物质。生物体包含两类核酸:脱氧核糖核( d e o x y r i b o n u c l e i c a c i d ) ,简写为d n a :核糖核酸( r i b o n u c l e i ca c i d ) ,简写为r n a 。 1 2 1 1d n a d n a 是遗传的主要物质基础,它主要存在于细胞核中,细胞质中的线粒体、 叶绿体也含有少量的d n a 。d n a 是由称为核苷酸f n u c l e o t i d e l 的小分子生成的聚合 物。核苷酸分子是由核苷f n u c l e o s i d e l 和一个磷酸残基组成的。核苷又可以进一步水 解,分成2 7 一脱氧核糖和碱基( b a s e ) 。所以d n a 分子的基本单元由糖、磷酸和碱基 组成。 在d n a 分子中有4 种碱基,分别是:腺嘌呤( a d e n i n e ,a 1 、鸟嘌呤( g u a - n i n e ,g ) 、胞嘧啶( c y t o s i n e ,c ) 和胸腺嘧啶( t h y m i n e ,t ) 。在核酸分子中,一个核 2 大连理工大学博士学位论文 苷酸分子的3 7 一羟基与另一个核苷酸分子的5 一磷酸基脱水形成磷酸二脂键将两个 核苷酸分子连接起来。由四种脱氧核苷酸连接而成的长链高分子多聚体就构成了 d n a 分子的一级结构。d n a 分子中的第一个核苷酸的5 7 磷酸基与最末一个核苷酸 的3 7 一羟基都未参与形成磷酸二脂键,分别称为5 7 一端和3 一端。因此,d n a 分子具有 方向性( o r i e n t a t i o n ) ,一般从5 7 开始到3 7 结束。图1 1 为单链d n a 分子的示意图。 图1 1d n a 分子的单链结构图示 f i g 1 1s i n g l es t r a n do fd n a d n a 分子是双链结构。两条链缠绕在一起形成双螺旋,此著名的双螺旋 ( d o u b l eh e l i x ) 结构是由j a m e sw a t s o n 和f r a n c i sc r i c k 在1 9 5 3 年发现的。两条链结 合的机制是一条链的碱基与另一条链的碱基配对,碱基a 与碱基t 配对,碱基c 与 碱基g 配对,如图1 2 和1 3 所示。 n i s u 啡一,c 囤 ,c 2 气h , 一n h + c 一珥 h + k庐 n - c ? 一c 一c 码 t h y m i n e 一c s 叩r fc g u a n i n 剑 净 吣一弋 u n 7 f v 巨。,n 丑_n _ n 氏= 于叫 匝至盈n 一 图1 2d n a 分子中两种w a t s o n - c r i c k 碱基配对的图示。a t ;g c f i g 1 2w a t s o n c r i c kb a s ep a i r i n gi nd n a a t :g c 由图1 3 我们能看出,在a t 配对时,有两个氢键连接,而在g c 配对时有三 3 生物序列的相似性分析及种系发生树的构建 图1 3d n a 分子的双链结构图示 f i g 1 3d o u b l es t r a n do fd n a 个氢键连接。因此,我们把a 、t 称为弱氢键碱基,把g 、c 称为强氢键碱基。一 般地,我们可以把d n a 分子看成是由字符集q = a ,c ,g ,t ) 生成的字符串,每一 个字符代表一个碱基。图1 4 是d n a 的“串表示”,将一串字符置于另一串字符之 上来表示双链d n a 。 5 卜一atggtgc 3 ll 3 h taccacg 5 7 图1 4 双链d n a 的字符串表示 f i g 1 4t h ec h a r a c t e rs t r i n go fd o u b l es t r a n do fd n a 1 2 1 2 r n a r n a 分子与d n a 分子非常相似,但有以下组成和结构上的不同:( 1 1r n a 中,核糖取代了d n a 分子中的2 7 一脱氧核糖。f 2 ) r n a 中,胸腺嘧啶t 被尿嘧啶u 取代,u 和t 一样能够与a 配对。( 3 ) r n a 通常不形成双螺旋结构,而是通过碱基 互补与同一分子的其它部分结合。 r n a 分子同样可以看作是由字符集人:f a ,c ,g ,u 生成的字符串。同样具有 方向性,左端通常记为5 ,另一端记为3 ,。在r n a 分子中a 与u 配对,g 和c 配 对构成r n a 二级结构,这对参与蛋白质的合成起着决定性的作用。图1 5 给出了一 种r n a 的二级结构图。 4 大连理工大学博士学位论文 c g ,小、g 1 2 2 蛋白质 cr 图1 5r n a 二级结构:三叶草 f i g 1 5 c l o v e r l e a fs t r u c t u r eo fr n a a i a 核酸是遗传信息的携带者,而蛋白质是信息转化为生物结构和功能的表达者。 蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命 活动的重要物质基础,几乎一切生命现象都要通过蛋白质的结构与功能而体现出 来。因此,在分子生物学中,深刻阐明蛋白质的结构与功能,是探索生命奥秘最基 本的任务。 蛋白质是由氨基酸( a m i n oa c i d ) 分子聚合而成的。每一个氨基酸有一个中心碳 原子,称为q 碳原子( g ) 。g 连接着1 个氢原子( h ) 、1 个氨基f n h :) 、1 个羧基 ( 一c o o h ) 和1 个侧链,正是这个决定了氨基酸间的差异。图1 6 中给出了两个氨基 酸的分子结构示意图。 我们在自然界中发现了2 0 种不同的氨基酸,表1 1 列出了这些氨基酸,这是蛋 白质中最常见的2 0 种,另外还有几种非标准的氨基酸。在蛋白质合成时,一个氨基 酸的羧基和另一个氨基酸的氨基缩水形成肽键f p e p t i d eb o n d ) 。所以,蛋白质也是有 方向的一维链,带氨基的一头称为n 端( n ) ,另一头带羧基称为c 端f c ,) 。蛋白质 同样可以看作是由字符集圣= a ,r ,d ,n ,c ,e ,q ,g ,h ,i ,l ,k ,m ,f ,p ,s ,t ,w , 5 生物序列的相似性分析及种系发生树的构建 h o c 埯。 c h l h 2 n c _ 一c o o h i 图1 6 氨基酸分子结构示意图 f i g 1 6m o l e c u l a rs t r u c t u r eo fa m i n oa c i d y ,v ) 生成的字符串。 蛋白质按外形和在生物组织中的位置和作用,可分为三大类:纤维蛋白f f i b r o u s p r o t e i n ) 、膜蛋白和球蛋白。其中球蛋白的种类最多,功能也最重要。一般地,球蛋 白质的结构分为一级结构、二级结构和三级结构,除此之外还有超二级结构和四级 结构等。它的一级结构就是指这个蛋白质的氨基酸本原序列。二级结构是指蛋白质 多肽主链在空间中的趋向,是一级结构通过折叠产生的。二级结构中主要有两类:q 螺旋和口折叠。蛋白质的三级结构是蛋白质的肽链中全部氨基酸残基的相对空间位 置,也就是整条肽链所有原子在三维空间的排布位置。 1 2 3 分子遗传学机制 d n a 携带遗传材料,即生物功能所要求的信息f 某些病毒除外,它们的遗传材 料是r n a ) ,而且生物体通过d n a 将遗传信息传给下一代。在真核生物中,d n a 被保存在细胞核内,而由细胞质形成的蛋白质在细胞核的外面,携带核外信息的中 间分子是r n a 。 1 2 3 1 基因和遗传密码 由于机体中合成r n a 和蛋白质的信息编码于d n a 分子中,d n a 分子被称为 “生命蓝图。每一个细胞都有几个非常长的d n a 分子,每一个这样的分子称为染 色体( c h r o m o s o m e ) 。d n a 中仅有一部分连续的片断编码构建蛋白质信息。而每一种 不同的蛋白质仅对应一段d n a 序列,该段序列称为基因f g e n e ) 。因为某些基因编码 r a t a 分子,因此更正确的说基因是编码蛋白质或r n a 的连续的d n a 序列。 贮存在d n a 上的遗传信息通过m r n a 传递到蛋白质上,m r n a 与蛋白质之间 的联系是通过遗传密码的破译来实现的。m r n a 上每三个核苷酸翻译成蛋白质多肽 链上的一个氨基酸,每个三联核苷酸称为密码子f c o d o n ) 。三联核苷酸和与氨基酸之 间的对应关系称为遗传密码f g e n e t i cc o d e ) ,见表1 1 。 6 渊oc 一 喝1l h n 如 大连理工大学博士学位论文 表1 1 蛋白质中发现的2 0 种常见氨基酸以及氨基酸的遗传密码 t a b 1 12 0a m i n oa c i d sa n dt h e i rg e n e t i cc o d e g e n e t i cc o d e氨基酸3 个字母1 个字母 g c u ,g c c ,g c a ,g c g丙氨酸( a l a n i n e ) a l aa a g a ,a g g ,c g u ,c g c ,c g a ,c g g 精氨酸( a r g i n i n e la r g r g a u g a c 天冬氨酸( a s p a r t i ca c i d la s p d a a u a a c 天冬酰胺( a s p a r a g i d e l a s nn u g u u g c 半胱氨酸( c y s t e i n l c v sc g a a g a g 谷氨酸( g l u t a m i ca c i d l g 1 ue c a a c a g 谷氨酰胺( g l u t a m i n e l g l n q g g u ,g g c ,g g a ,g g g 甘氨( g l y c i n e lg l y g c a u c a c 组氨酸( h i s t i d i n e l h i sh a u u a u c a u a 异亮氨酸( i s o l e u c i n e ) i l ei c u u ,c u c ,c u a ,c u g ,u u a ,u u g亮氨酸( 1 e u c i n e l l e ul a a a a a g 赖氨酸( 1 y s i n e ll y s k a u g 甲硫氨酸( m e t h i o n i n e l m e tm u u u u u c 苯丙氨酸( p h e n y l a l a n i n e l p h ef c c u ,c c c ,c c a ,c c g脯氨酸( p r o l i n e l p r op a g u ,a g c ,u c u ,u c c ,u c a ,u c g丝氨酸( s e r i n e l s e rs a c u ,a c c ,a c a ,a c g苏氨酸( t h r e o n i n e l t h rt u g g 色氨酸( t r y p t o p h a n )t r p w u a u u a c 酪氨酸( t y r o s i n e l t 、曙y g u u g u c 。g u a g u g 缬氨酸( v a l i n e l v 融v 从表1 1 中可以看出,在6 4 种三联体密码子中有三个终止密码子u a a 、u a g 和u g a ,其余的6 1 个密码子编码了2 0 种氨基酸,因此很多氨基酸都有多种编码f 简 并) :亮氨酸( l ) 、丝氨酸( s ) 和精氨酸( r ) 有6 重简并编码;缬氨酸( v ) 、脯氨酸 ( p ) 、丙氨酸( a ) 、甘氨酸( g ) 和苏氨酸( t ) 有4 重简并编码;有3 重简并编码的 是异亮氨酸( i ) 和终止密码子;苯丙氨酸( f ) 、酪氨酸( y ) 、组氨酸f h ) 、谷氨酰胺 ( q ) 、天冬酰胺( n ) 、赖氨酸( k ) 、天冬氨酸( d ) 、谷氨酸( e ) 和半胱氨酸( c ) 有2 重 简并编码;只有甲硫氨酸( m ) 和色氨酸( w ) 是单重编码。 1 2 3 2 中心法则:转录、翻译、蛋白质的合成 一个识别基因或基因簇起始的机制是启动子f p r o m o t e r ) 。启动子是基因前面的 一段d n a 序列,指征位于其后面的基因。密码子a u g ( 编码甲硫氨酸) 则是基因开 7 生物序列的相似性分析及种系发生树的构建 始的信号。识别出基因的起始点后,基因到r n a 的拷贝就开始了,合成的r n a 称 为信使r n af m r n a ) ,其序列与d n a 中的一条链相同,但u 代替了t ,该过程称 为转录f t r a n s c r i p t i o n ) 。 蛋白质的合成是在细胞内的核糖体中进行的。核糖体由蛋白质和称为核糖体 r n af r i b o s o m a lr n a ,r r n a ) 的大分子组成。遗传信息从r n a 传到蛋白质的过 程称为翻译f t r a n s l a t i o n ) 。实际上,遗传密码的翻译是由t r n a 实现的,它连接密 码子和其所编码的氨基酸。当m r n a 穿过核糖体内部时,t r n a 匹配当前的密码 子,即当前位于核糖体内部的m r n a 密码子,与它结合,并带进对应的氨基酸。 随着t r n a 与密码子结合,新结合的氨基酸紧靠先前已形成的氨基酸链,一个合适 的酶则催化该氨基酸加入肽链,然后释放t r n a 。蛋白质按这种一个氨基酸接一个 氨基酸的方式合成起来。当出现终止密码子时,没有t r n a 与之对应,合成便终 止,m r n a 被释放,并被降解成核糖核苷酸,降解物可循环用于其他r n a 合成。 图1 7 总结了上述的过程,对细胞内遗传信息流动的观点通常用中心法则f c e n t r a l d o g m a ) 来说明。关于分子生物学更详细的知识可参考5 ,6 1 。 复制 1 3 本文主要工作 图1 7 分子生物学的中心法则 f i g 1 7 c e n t r a ld o g m a 计算分子生物学的研究内容非常丰富,本文针对计算分子生物学中两个重要的 研究课题进行了相关的研究:一个是序列相似性分析,另一个是种系发生树的构 建。序列的相似性分析是许多研究工作的基础。传统的方法被专门称之为序列比对 f s e q u e n c ea l i g n m e n t ) 。尽管人们在这方面已经作了大量的出色的工作,但是基于序 列比对的比较方法具有较高的时间复杂度,并且比较的结果受到打分函数的影响。 这促使人们开始寻找一些非比对的方法来比较序列。本文主要是在基于非比对方法 的生物序列和结构的相似性分析以及种系发生树的构建方面做了一些研究和探讨, 具体工作如下: 在第二章中,f 1 1 给出了一种分析d n a 序列相似性的方法。该方法基于两序列 间的差别度量,不需要进行序列比对。为了说明差别度量的合理性,对两组d n a 数 8 大连理工大学博士学位论文 据进行了相似性分析。此外,该度量适用于任何的线性序列,例如r n a 序列、蛋白 质序列等。f 2 ) 基于c g r 方法及构成r n a 序列的四种碱基的化学性质分类,给出了 一种r n a 二级结构的3 d 图形表示,r n a 二级结构中基的分布和组成的相关信息 能够被直观反映出来。然后基于3 d 表示提取特征矩阵进而提取矩阵的一些数值特 征分析了1 6 个r n a 二级结构的相似性。( 3 ) 基于氨基酸的解离常数这一重要的理化 性质及氨基酸在序列中出现的位置,我们构造了一个蛋白质序列的偏序关系。每条 蛋白质序列都可由一个广义哈斯矩阵来刻画,进而提取矩阵的一些数值特征比较了9 个不同神经基因的蛋白质序列。( 4 ) 蛋白质二级结构是决定蛋白质空间结构的重要因 素,其相似程度也能在一定程度上说明蛋白质空间结构的相似度。我们提出了一种 分析蛋白质二级结构相似性的方法,进一步将其应用到一组数据f 1 3 个蛋白质二级 结构序列) 来进行蛋白质结构分类,为蛋白质结构类的划分提供了一种辅助性方法。 在第三章中,f 1 ) 基于序列间的差别度量给出了两种序列间的距离度量,把它应 用到生物系统进化树构建的研究中。选取1 0 个物种的卢- g l o b i n 基因序列、人类等2 0 个物种的线粒体基因组编码的全部1 3 条蛋白质序列为数据,得到的结果与传统的 根据物种形态和其他方法构建的系统进化树完全一致;并且基于氨基酸的物化性质 对蛋白质序列进行了重新描述,进而将其运用到基于蛋白质序列的进化分析中。f 2 ) 根据构成r n a 二级结构的四种碱基的化学性质分类以及区别自由基和基对,将一 个r n a 二级结构编码成一条0 、1 序列。鉴于l e m p l e - z i v 压缩算法能够比较好地挖 掘不同序列之间共享子序列的信息,我们利用序列的l e m p l e - z i v 复杂性来帮助揭 示r n a 二级结构编码序列之间的相似关系以此来代替r n a 二级结构之间的相似关 系,以r n a 编码序列间的l z 复杂性距离来代替r n a 二级结构之间的距离来进行 进化分析,并且构建了两类r n a 二级结构( 5 s r r n a ,r n a s ep 和r n a s em r p ) 的进 化树来验证这个方法的有效性。 9 大连理工大学博士学位论文 2 生物序列的相似性分析 本章的主要内容是围绕d n a 序列、r n a 二级结构、蛋白质序列和蛋白质二级 结构的比较而展开的,并且针对不同的分析对象给出了一些相应的比较方法。 2 1引言 生物序列的相似性分析是通过生物序列的比较来实现的。在计算分子生物学 中,序列比较是最重要和最常用的原始操作,是许多其他更复杂操作的基础。将未 知序列f 主要是指序列的结构和功能未知) 同已知序列进行比较分析,如果两个序 列之间具有足够的相似性,就推测二者在进化上具有同源性,经过序列内残基的替 换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。注意, 序列相似和序列同源是不同的概念,序列之间的相似程度可以定量分析,即有一个 多或少的判断;而序列是否同源需要有进化事实的验证。显然,如果未知序列与已 知序列具有同源性,将会大大节省我们重新测定未知序列结构和功能的时间和精 力。因此在计算分子生物学中,序列相似性的研究非常重要。 传统的序列比较方法是将两个或多个核酸序列或蛋白质序列进行比对f a l i g n - m e n t ) ,通过比对未知序列与已知序列f 尤其是功能和结构已知的序列) 之间的相 似性来预测未知序列的功能。序列比对最常用的方法是n e e d l e m a 3 2 一w u n s c h 和 s m i t h - w a t e r m a n 的动态规划算法【7 ,8 】,以及在此基础上产生的数据库搜索程序家族 f a s t a 【9 】和b l a s t z o 。然而由于序列比对方法计算量大,打分函数带有一定主观 性,同时全基因组序列又比较长f 最小的单细胞生物大肠杆菌大约有5x1 0 6 基对) , 所以利用以上我们提到的方法来分析这些序列是比较困难地,因此现在人们致力于 寻找一些新的方法来进行生物序列尤其是全基因组序列的比较分析,我们把这些方 法统称为非比对方法f a l i g n m e n t f r e em e t h o d s ) z 1 。非比对方法不是具体比较基对, 而是将序列看成是一个整体并将其转化为数学对象,最终借助于数学工具对其进行 分析比较。从数学的角度讲,这些方法大致可以分为代数方法和几何方法两类。代 数方法的基本思想是把生物序列变换为代数对象,如数值序列、向量、矩阵等,然 后利用线性代数、概率统计等数学理论工具对这些对象进行研究,最终把对生物序 列的分析比较问题转化为对其数学对象的研究问题 z 2 - z g 。几何方法通常也被称为图 形表示方法或者生物序列的可视化方法。1 9 8 3 年,e h a m o r i 和j r u s k i n 最先提出了 1 1 生物序列的相似性分析及种系发生树的构建 d n a 序列的一种三维图形表示( 2 0 】。此后,这一思想在研究领域迅速渗透,国内外的 不少学者也相继提出了许多不同形式的图形表示方法【2 1 - 3 5 。其基本思想是建立一组 映射,将碱基( 氨基酸) 映射成平面或空间的点,然后将点连接起来得到空间曲线。 进一步地,我们还可以从这些图形表示中提取生物序列的数值特征,利用这些数值 特征进行序列分析。将生物序列与空间曲线对应起来,这样能够更加快速、直观地 对生物序列进行比较分析。由于在从序列到其数值特征的转换过程中,很多隐含在 生物序列中的信息会丢失,并且已有的数值特征如矩阵特征值在对较长序列的研究 时计算量巨大,因此如何根据得到的数学对象的性质特点寻找更加简单有效的数值 特征来分析生物序列是一个值得深入研究的课题。 d n a 是携带生物遗传信息的主要大分子,而r n a 也是生命活动中的一个重要 生物大分子,它是大部分病毒的遗传物质,并且还参与蛋白质的合成,与细胞分 化、代谢、记忆的储存等有重要关系。由于r n a 具有这些特殊属性,越来越多的人 开始关注r n a ,通过剖析r n a 的结构来了解其功能。很多学者给出了不同的算法 预测r n a 的二级结构和比较r n a 二级结构的相似性 3 6 - 3 9 。所有这些比较相似性算 法都是建立在字符串的比对上,它们的共同特点是给出插入、删除、替换的距离函 数,通过计算结构之间的距离来比较相似性。但是这些方法缺乏合适的理论模型而 更多带有主观色彩,存在选取罚分函数的随意性,而选取罚分函数的好坏直接影响 相似性分值,另外这些方法都忽略了组成基的化学性质和化学结构,且不适用于带 假结以及较大的r n a 二级结构相似性比较。为了避免这些缺陷,很多人试图寻找其 它方法来比较r n a 二级结构序列。s h a p i r o 和z h a n g 基于树结构的拓扑不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论