(应用数学专业论文)曲率在生物序列相似性分析中的应用.pdf_第1页
(应用数学专业论文)曲率在生物序列相似性分析中的应用.pdf_第2页
(应用数学专业论文)曲率在生物序列相似性分析中的应用.pdf_第3页
(应用数学专业论文)曲率在生物序列相似性分析中的应用.pdf_第4页
(应用数学专业论文)曲率在生物序列相似性分析中的应用.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着人类基因组,微生物基因组和水稻基因组全序列测定项目的完成和快速进展, 以及各种生物的基因和蛋白序列的研究,产生了越来越多的庞大的分子序列数据。对这 些数据的科学分析,处理和保存促进了分子生物学和数学以及计算机科学的结合,产生 了一门崭新的学科计算分子生物学。计算分子生物学不仅有重大的科学意义,而且 具有巨大的经济效益。它既属于基础研究,以探索生物学的自然规律为己任;又属于应 用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。近几年来, 计算分子生物学已成为生命科学中非常活跃的一个研究领域。计算分子生物学是现代信 息科学,计算机科学,生命科学,数学,统计学,物理学,化学等很多学科相互交叉的 学科,主要是研究分子生物学与基因和蛋白质序列有关的复杂计算问题。其中,生物序 列的比较是分子生物学中最基本的问题,因为对于d n a 序列,即使我们考虑它的一个 很短的片段,我们也不可以直接得出它表示的对象所具有的全部信息,然而如果我们比 较不同的生物序列就有可能得到某些重要信息,但是这个问题非常复杂,至今还有许多 未解决的问题。总之,对生物序列进行分析和比较是计算分子生物学最基本也是最重要 的课题之一,同时对生命科学的研究具有深远意义。本文将在生物序列的相似性分析方 面进行研究,研究成果有: 将由三次样条函数光滑化的曲线的曲率引入生物序列的相似性分析,提出用曲率作 为新的不变量。并且以九种物种的b 球蛋白基因的第一个外显子编码序列为例,利用 该方法分析了他们之间的相似性。本文的方法具有准确性高,计算简单等优点。 关键词:d l q a 序列;相似性分析;图形表示;曲率 曲率在生物序列相似性分析中的应用 t h ea p p l i c a t i o no fc u r v a t u r ei nt h es i m i l a r i t ya n a l y s i sf o rb i o l o g i c a l s e q u e n c e s a b s tr 。a c - t b a s e do nt h ec o m p l e t e n e s so fg e n o m es e q u e n c i n gp r o j e c t so ft h eh u m a na n dt h er 印i d h e a d w a yo fm i c r o o r g a n i s ma n dr i c e ,m o r ea n dm o r em o l e c u l a re n o r m o u ss e q u e n c e sd a t a h a v eb e e ng e n e r a t e d t h en e e dt oa n a l y z e p r o c e s sa n ds t o r et h e s ed a t ae x p e d i t e st h e c o m b i n a t i o no fm o l e c u l a rb i o l o g y ,m a t h e m a t i c sa n dc o m p u t e rs c i e n c e s a n dc r e a t e dan e w i n t e r d i s c i p l i n a r yf i e l d c o m p u t a t i o n a l m o l e c u l a rb i o l o g y i tn o to n l yh a sg r e a ts c i e n c e s i g n i f i e a n c e ,b u ta l s oh a sh u g ee c o n o m i c a lb e n e f i t i tb e l o n g st ob a s i cr e s e a r c h ,f o c u s i n go n e x p l o r i n g t h eb i o l o g i c a lo r d e ro fn a t u r e ;a l s ob e l o n g st oa p p l i e dr e s e a r c h ,m a n yo fi t sr e s e a r c h f n f i t sc a nb ei n d u s t r i a l i z e di n t op r o d u c t sw i t hh i 【g hv a l u ei m m e d i a t e l yo rs o o n r e c e n t l y , c o m p u t a t i o n a lm o l e c u l a rb i o l o g y ihasb e e nav e r ya c t i v er e s e a r c hf i e l dnt h el i f es c i e n c e s i ti s c o m p o s e do fi n f o n n a t i o ns c i e n c e ,c o m p u t e rs c i e n c e ,l i f es c i e n c e ,m a t h e m a t i c s , s t a t i s t i c s ,p h y s i c s ,c h e m i s t r ya n ds oo n i tm a i n l y f o c u s e so nc o m p l e xc o m p u t a t i o n s i n v o h d n gg e n es e q u e n c e s ,p r o t e i ns e q u e n c e sb ym a t h e m a t i c a la n dc o m p m e rs c i e n c e t h e c o m p a r eo fb i o l o g i c a ls e q u e n c e si st h em o s tb a s i ci s s u e ,a sf o rd n as e q u e n c e s ,e v e ni fw e c o n s i d e ras h o r ts e g m e n to f 也e m w ec a r ln o to b t a i nt h ew h o l ei n f o r m a t i o no ft h eo b j e c ti t d e p i c t sd i r e c t l y h o w e v e r ,i fw ec o m p a r ed i f f e r e n tb i o l o g i c a ls e q u e n c e s ,w ec a r to b t a i ns o m e i m p o r t a n ti n f o r m a t i o n b u ti t sv e r yc o m p l e x ,m a n yi s s u e sa r en o ts o l v e dy e t a n y w a y ,t h e c o m p a r ea n da n a l y s i so ft h eb i o l o g i c a ls e q u e n c e si s o n eo ft h em o s tb a s i cm a dt h em o s t i m p o r t a n ti s s u e s ,i ta l s oh a sg r e a ts i g n i f i c a n c et ot h er e s e a r c ho fl i r es c i e n c e s t h i st h e s i s m a i n l ys t u d i e dt h es i m i l a r i t ya n a l y s i so fb i o l o g i c a ls e q u e n c e s t h em a i nr e s u l t so b t a i n e di n t h i st h e s i sc a nb es u r m n a r i z e da sf o l l o w s : w eu s e dt h ec u r v a t u r e so fc u r v e ss m o o t h e db yt h eb s p l i n ef u n c t i o nt oa n a l y z et h e s i m i l a r i t yo ft h ed n as e q u e n c e sf o rt h ef i r s tt i m ea n dp r o p o s e dt h ec u r v a t u r e sa san e w i n v a r i a n t w ea n a l y z et h es i m i l a r i t i e so ft h ec o d i n gs e q u e n c e so ft h ef i r s te x o no fb - g l o b i n g e n eo f9d i f f e r e n ts p e c i e sb yo u rm e t h o d o u rm e t h o d i ss i m p l ea n dh a sh i g hv e r a c i t y k e yw o r d s :d n as e q u e n c e ;s i m i l a r i t ya n a l y s i s ;g r a p h i c a lr e p r e s e n t a t i o n ;c u r v a t u r e 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名: 曲率在生物序列相似性分析中的应用 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名:牟蔓垄窆扯 新签名:坛眨导师签名:憋墅尘 卑年月丑日 大连理工大学硕士学位论文 1 绪论 本章介绍了生物序列研究的背景,理论意义及应用价值。以生物序列的比较分析为 背景,介绍了生物序列的图形表示的产生,发展和研究概况以及图形表示在计算分子生 物学中的广泛应用,并且指出了不同图形表示方法的优缺点。同时列出了本文取得的主 要结果。 1 1 生物序列研究的背景,理论意义及应用价值 随着人类基因组测序计划( h g p ) 的完成,人们的研究重点由测序转向功能基因组 的研究。应用计算机程序,在基因组水平上比较基因组研究和分子进化的研究是当前科 学研究的热点问题。人类基因组测序计划的进一步发展,使得生命科学进入了后基因组 时代。现代生命科学的主要研究对象是基因和蛋白质。过去,单个基因和蛋白质是生物 科学家们的研究课题。现在和将来,生物序列信息,蛋白质结构信息以及它们之间的相 互作用将是科学家们着重研究的对象。破译每一水平的生物信息产生了与基因或蛋白质 有关的统计和组合数学问题。生物信息的急剧增长也带来了对计算机科学的挑战。为此, 计算分子生物学便应运而生。计算分子生物学不仅有重大的科学意义,而且具有巨大的 经济效益。它既属于基础研究,以探索生物学的自然规律为己任;又属于应用研究,它 的许多研究成果可以较快或立即产业化,成为价值很高的产品。它的这一特点在现有的 许多学科中几乎是独一无二的。普遍认为,计算分子生物学是当前生命科学和自然科学 领域中最关键,最重要的部分,是2 l 世纪自然科学的核心领域之一l l 删。 计算分子生物学作为现代信息科学,计算机科学,生命科学,数学,统计学,物理 学,化学等很多学科相互渗透形成的一门崭新的交叉学科,主要是研究分子生物学应用 上那些与基因和蛋白质序列有关的复杂计算问题。研究对象主要是与基因和蛋白质序列 有关的组合和计算问题,主要研究课题有:序列组合,序列分析,生物信息资料库,基 因认定,种族树的构建以及结构预测等【4 】。目前结构预测( 包括蛋白质二级,三级结构 和r n a 二级结构) ,分子进化和比较基因组学,d n a 语言学是最重要的三个课题。 计算分子生物学的产生将生物学,信息学,数学,计算机科学,物理学等多门学科 有机的整合为一个新兴的学科,这一学科领域的建设必然会推动上述诸多学科的进一步 发展。与此同时,在计算分子生物学建设的过程中,又以此为基础萌生出一系列分支科 学,如d n a 计算等。所有的这一切,最直接的意义就是给各个领域带来了无限的商机, 孕育了一个广大的市场。另一方面,随着计算分子生物学的发展,人类必将解释更多的 曲率在生物序列相似性分析中的应用 生命活动本质规律,其中当然会有很多适于人类自身健康,疾病衰老等相关的生物信息, 而他们的发展必然导致新药物的设计与研发周期大幅度变短以及基因治疗的最终实现, 从而彻底的改变人类自身的命运。在这一过程中产生的巨大经济效益是现在无法估量 的。 计算分子生物学利用生物学,计算机科学和信息技术综合分析大量而复杂的生物数 据,揭示其所蕴含的生物学意义。随着计算分子生物学算法的不断完善,已能进行生物 序列家族或同源性分析;进行生物序列的聚类,建立进化树并确定生物序列间的进化关 系;进行代谢途径相关基因的同源性分析,以及获取其他生物代谢途径的相关信息等。 其中生物序列的比较是分子生物学中最基本的问题,因为对于d n a 序列,即使我们考 虑它的一个很短的片段,我们也不可以直接得出它表示的对象所具有的全部信息,然而 如果我们比较不同的生物序列就有可能得到某些重要信息,但是这个问题非常复杂,至 今还有许多未解决的问题。总之,对生物序列进行分析和比较是计算分子生物学最基本 也是最重要的课题之一,同时对生命科学的研究具有深远意义i “】。 1 2 生物序列的图形表示的产生,发展和研究概况 生物序列一般是指d n a ,r n a 序列或蛋白质序列。而d n a ,r n a 和蛋白质序列 都是有比较小的单元组成的无分枝的线性聚合体大分子。d n a 序列的传统表示是由a ( 腺嘌呤) ,c ( 胞嘧啶) ,g ( 鸟嘌呤) ,t ( 胸腺嘧啶) 这四个字母来表示的;对于 r n a ,它是由a ,c ,g ,u ( 尿嘧啶) 来表示的;而蛋白质序列是由2 0 种氨基酸表示 的,分别为a ( 丙氨酸) ,c ( 半胱氨酸) ,d ( 天冬氨酸) ,e ( 谷氨酸) ,f ( 苯丙 氨酸) ,g ( 甘氨酸) ,h ( 组氨酸) ,i ( 异亮氨酸) ,k ( 赖氨酸) ,l ( 亮氨酸) , m ( 甲硫氨酸) ,n ( 天冬) ,p ( 脯氨酸) ,q ( 谷氨酸) ,r ( 精氨酸) ,s ( 丝氨酸) , t ( 苏氨酸) ,v ( 颉氨酸) ,w ( 色氨酸) ,y ( 酪氨酸) 。这样,一个d n a ( r n a ) 序列可以看作是一个有4 个字母的字母表n = a ,c ,g ,t ,( u ) ) 上的字( w o r d ) ,同样,蛋白 质序列也可以看作是一个在2 0 个字母表m = 八c d e ,f ,g ,h ,i ,k l ,m ,n ,p ,q ,r , s ,t ,v ,w ,y ) 上的字( w o r d ) 。而r n a ( d n a ) 二级结构是由自由基( f t e eb a s e ) 和基对a - u ( a t ) 和c g 组 成的,在一定程度上,r n a ( d n a ) 二级结构经过处理后都可以转化为线性序列。 生物序列的传统表示方法是由字母表示出来的,这种表示具有自身的优点,但是随 着计算机技术的发展和可视化要求的提高,它固有的缺点也随之暴露出来。在生物序列 的研究分析中,对生物序列的有效表示,发挥很大的作用。1 9 8 3 年,e h a m o r i 和j r u s k i n 提出了d n a 序列图形表示的思想:将d n a 序列表示为一条平面或空间中的曲线【l5 1 , 2 大连理工大学硕士学位论文 把d n a 序列的研究带入了一个新的领域。国内外不少化学专家如张春霆、郭晓峰,m r a n d i d ,a n a n d y 等人提出了众多的图形表剥1 删。m r a n d i 6 等人还基于他们的图形 表示,将d n a 序列转化为矩阵等数学表示1 2 5 - 3 1 ,迸一步用矩阵不变量来研究d n a 序 列,取得了很好的结果。生物序列的图形表示主要用在序列相似性分析和基因识别方面。 我国著名理论物理专家张春霆院士也提出了一种d n a 几何图形表示z 曲线,z 曲 线是表示d n a 序列的一个等价的三维空间曲线。通过对z 曲线的研究来对基因组序列 进行研究是一种几何学的途径。这种新颖的学术观点为引进更多的数学工具来分析生物 序列提供了广阔的前景。天津大学生物信息中心用这种思路研究了真核和原核基因组中 若干重要问题,这样的思路是切实可行的。原则上说,基因组中的许多问题都可以通过 这种途径加以解决,这种研究思路已经得到国内外学术界的普遍好评和认可。越来越多 的同行,主要是国外同行,加入到对z 曲线研究的行列中来。可以预期,用几何学方法 研究基因组将会有一个广阔的发展空间1 3 2 删。 不过已有的几何图形表示都还有各自的缺陷,主要表现在以下三点:( 1 ) 有退化 现象;( 2 ) 对完整序列而言,使用的数学变量计算太复杂,有的甚至还没有算法解决; ( 3 ) 缺乏表征生物序列特征的更多的灵敏度足够好的数学不变量。另外,有关图形表 示的应用研究还很少。 1 3 本文的主要工作 计算分子生物学的研究对象是与基因和蛋白质序列有关的组合和计算问题。计算分 子生物学的主要课题有:序列组合,序列分析,生物信息资料库,基因认定,种族树的 构建以及结构预测等,这些问题从计算理论的角度来讲,他们都是不好处理的,因为我 们并不知道是否存在有效的算法去解决这些问题。目前的研究都集中在设计好的近似算 法或概率算法;这些算法虽然并不能对有关问题的每一个实力都能求出好的解,但对大 多数实例却行之有效。本文就针对某些方法的不足,考虑用其他方法来解决问题。 本文对生物序列图形表示方法的不变量进行了探索,提出用光滑曲线的曲率代替原 来的矩阵不变量作为新的不变量。利用这一新的不变量来比较和分析生物序列。本文的 主要内容如下: 在第二章,系统详细地介绍d n a 序列的各种几何图形表示方法和它们在序列相似 性分析方面的矩阵不变量。 在第三章,给出了d n a 序列相似性分析韵一种新方法:利用已有的d n a 序列的 图形表示寻求新的数值特征,即光滑曲线的曲率,利用这些数值特征来比较d n a 序列 曲率在生物序列相似性分析中的应用 的相似性。并利用这些新的数值特征作为d n a 序列的不变量分析了h u m a n , g o a t , o p o s s u m , l e m u r , m o u s e ,r a b b i t , r a t , g o r i l l a 等9 个物种的b 一球蛋白基因的第一个外显子 d n a 序列的相似性和非相似性。 本文的主要内容是作者近期获得的一些结果,我们希望这些工作能在将来的研究中 探讨数学与生物两大学科的汇合点。由这些内容的讨论看到,许多数学理论与工具可在 分析生物序列领域内应用,这些问题数据丰富,背景明确,将成为研究生命科学的有力 工具。但由于生物序列结构的复杂性,许多问题远远没有解决,因此继续深入研究的发 展空间巨大。 4 大连理工大学硕士学位论文 2 d n a 序列的几何图形表示及相似性分析 本章系统详细地介绍了d n a 序列的九何图形表示方法的产生,发展及研究概况。 同时指出了各种方法的优缺点。并且介绍了这些方法在d n a 序列相似性分析的应用。 2 1 引言 d n a 序列图形表示的基本思想就是把d n a 序列表示成一条空间曲线。这一思想由 e h a m o r i 和j r u s k i n 在1 9 8 3 年提出。对于d n a 序列,由于序列是有表示四种核苷酸 基的字母a c g t 构成的序列,直接从原始序列寻找信息非常困难,所以人们利用各种工 具对原始序列进行改造并进行分析。利用几何图形表示d n a 原始序列就是其中之一, 它使得d n a 序列能被直观分析。 2 2d n a 序列的几种几何图形表示 2 2 1g - 曲线和h _ 曲线 1 9 8 3 年,h a m o r i 首先提出表示d n a 序列的图形方法g 曲线和h 曲线。g - 曲线 是一种5 维空间表示,其中4 个坐标方向分别为四种核苷酸,另一个方向说明d n a 序 列核苷酸的位置特征,这一方法不能实现可视化。当用两个坐标轴的四个方向表示四种 基( a n w ;c n e ;g s e ;t s w ) ,另一个方向表示d n a 序列核苷酸的位置时,曲 线就变成3 维空间的曲线,这样的曲线被称为h - 曲线【1 5 1 。但这种方法要实现最佳可视 化效果就需要2 维投影。h a m o r i 和r u s k i n 用h 曲线发现,b a c t c r i o p h a g em 1 3 、h u m a n i m m u n o d e f i c i e n c y 啊n 】s ( h ) 以及e p s t e i nb a r rv i r u s ( e b v ) 等几种病毒基含量有剧烈变化 的区域【1 6 j 。 2 2 2 r 图 1 9 9 0 年,j e f f r e y 最先提出c g r ( c h a o sg a m er e p r e s e n t a t i o n ) 方法嘲。这种方法 将序列对应于一张揭示其固有分形结构的图,不同的d n a 序列在图中显示出不同的模式, 从外形上看相似于许多自然现象,如山、云、珊瑚、人脑等等。其几何上的应用以及处 理基因组分析问题的应用已经显示了很好的结果 3 6 - 3 5 。c g r 图的方法( 见图2 1 ) 是按 照如下步骤产生的【3 9 】: 1 将d n a 序列中的a 、g 、t 、c 四种碱基分别放到单位正方形的四个顶点,代表正 方形四个顶点的碱基排列顺序不同,可得到不同类型的c g r 图,a 、t 作为对角线 曲率在生物序列相似性分析中的应用 的c g r 图称为a t - c g r 图。类似的,以a 、g 作为对角线的c g r 图称为a g c g r 图,以a 、c 作为对角线的c g r 图称为a c c g r 图。以a t - c g r 图为例说明其构 造算法; 2 以正方形的中心作为起点,从d n a 序列g t c g c 中取第一个核苷酸g ,连接中心 和顶点g ,用这条线段的中点表示d n a 序列中的第一个核苷酸,如图2 1 ( a ) 所示; 3 d n a 序列的第二个核苷酸t 则表示为代表前一个核苷酸的点与顶点t 连线的中点, 如图2 1 ( b ) 所示; 4 重复第3 步直到将d n a 序列中最后一个核苷酸表示为正方形中的点,如图2 1 ( f ) 所示: , 气 g n k l ; 蝴回 图2 1 序列g t c g c 的c g r ( c h a o sg er e p r e s e n t a t i o n ) 图的构造 f 蟾2 1 c o n s t n m f i o no f c g r ( c h a o sg a m er e p r e s e n t a t i o n ) t h es e q u e n c eg t c g c 如果在d n a 序列中不存在显著的模式,则c g r 图中的点将会是完全随机分布的; 反之,如果模式存在,例如重复的核苷酸和核苷酸片段,或者是缺失某种核苷酸或几种 核苷酸的组合,那么正方形区域中的点将会有些地方密集,有些地方稀疏,这在c g r 图中就表现为一定的分形结构。 d n a 序列的c g r 图具有如下基本性质: 1 d n a 序列中的核苷酸与c g r 图中的点一一对应,因此c g r 图中的可视模式对应于 d n a 序列的某些固有模式; 6 大连理工大学硕士学位论文 2 d n a 序列的起点到其对应的核苷酸的子序列也与c g r 图中的点一一对应,如图 2 1 ( e ) 所示; 3 屏幕的清晰度限制了c g r 图的某些细节,然而由于分形结构,图的任一部分都可以 被放大,显示更精细的结构; 4 d n a 序列中的邻近碱基在c g r 图中并不互相靠近( 除非第一点靠近一个碱基顶点, 而序列中的下一个核苷酸是同样的碱基) ,同样地,在c g r 图中相互靠近并不意味 着在d n a 序列中也相互靠近,根据性质2 ,c g r 图中的邻近两点也不一定对应于 d n a 序列中的相近子序列; 5 c g r 图所表现出来的可视模式是d n a 序列的整体模式,而不是局部模式,在某一 区域中点的密集或稀疏程度对应于在这个区域里的子序列在整个d n a 序列中的多 或少。 正因为d n a 序列的c g r 表示具有以上性质,故从c g r 图中提取的特征不仅真实 的反映了d n a 序列的特征,还突出了d n a 序列的整体模式。j e f f r e y 的研究结果显示, 对于图的“d o u b l e - s c o o p ”模式,脊椎动物的c g r 图要多于非脊椎动物,类似的其它特 殊模式的差异也相继被发现,还有的研究小组进行了用于区分d n a 序列的e x o n 和 i n t r o n 甚至整个基因的数据试验。 2 2 3 二维曲线表示 2 2 3 1 相似的三种二维表示 1 ) 1 9 8 6 年m 丸g a t e s 构造出最早的二维表示 堋,规定+ x 轴单位方向为t ,x 轴方向为 a ,+ y 轴方向为c ,y 轴方向为g 。 2 ) 1 9 9 4 年a n a n d y 给出的二维表示例为:+ x 轴单位方向为c ,- x 轴方向为a ,+ y 轴 方向为g ,- y 轴方向为t 。 3 ) 1 9 9 5 年p m l e o n g 和s m o r g e n t h a l e r 提出另一种二维表示【1 9 1 :+ x 轴单位方向为g , x 轴方向为a ,+ y 轴方向为c ,- y 轴方向为t 。 上述三种情况,均以原点为起点,每增加一个基就按照其所给出的方向增加一个单 位向量。图2 2 给出了基的定义及人b 球蛋白基因第一个外显子序列的图形表示。这三 种图形表示的曲线上点的坐标分别为: 7 f x f = g ,一a f 1 y i = c ,一乃 4 正 一 一 c q = = t 办 ,j、l 4 g 一 一乃c = = 儿 ,j、 曲率在生物序列相似性分析中的应用 总结:此三种表示可以根据化学上核苷酸基的分类来解释,即:( 1 ) 按照弱、强氢 键分类:w = 气t ,s = c ,g ;( 2 ) 按照酮基、氨基分类,m i - a ,c ,k = g ,t ;( 3 ) 按 照嘌呤、嘧啶分类:i 净 a ,g ,y = c ,t ;分别对应上面3 个图形关于x 轴方向上的取 值。 ,4 争曲蝌嘣巾l 簌黜, 。 扭l 图2 2 g a t e s n a n d y , l e o n g 的二维表示中基的定义及人b - g l o b i ne x o n 一1 序列图形表示 f i g 2 2 t h ed e f i n a t i o no f t h eb a s e sa n d2 dg r a p h i c a lr e p r e s e n t a t i o no f h t l m a n 争g l o b i ne x o n - 1b ym a g a t e s ,a n a n d ya n dp m l e o n g 但其共同的缺点是都有一定程度上的退化( 指图形的交叉、重叠) ,从而导致一定量 的信息丢失。如在g a t e s 的图形表示中:a t 、a t a t 、a t 恤t 的图形表示难以区别。 2 2 3 2 “四水平线”图形表示 r a n d i 6 基于平面上的四条水平线于2 0 0 3 年提出了一种2 维表示:将所要讨论的生 物序列沿x 轴正方向排列开,每个基之间的距离是一个单位长度;同样地,选择四个基 的某种排列方式沿y 轴的正方向放置,并延伸出四条平行于x 轴的直线,从原点出发, 以序列中的基所在的y 轴线与x 轴基产生的垂直于x 轴线的交点为图形点,然后连接所 有相邻的交点,如图2 3 所示【删。 优点:完全避免了退化问题,不造成信息丢失;方法简便,没有方向选择的任意性。 图2 3r a n d i 6 的人p 球蛋白第一个外显子序列前1 0 个基a t g g t g c a c c 的图形表示 f i g 2 3 n o v e lg r a p h i c a lr e p r e s e n t a t i o no f t h es e q u e n c ea t g g t g c a c cb yr a n d i 6 t h er e c t a n g l e s ( d o t s ) d e n o t et h eb a s e sm a k i n gu pt h es e q u e n c e 8 大连理工大学硕士学位论文 一 o 弗 4- 2o248钟 图2 4 人b - 球蛋白第一个外显予序列的图形表示 f i g 2 4 t h ec o m p a c tg r a p h i c a lr e p r e s e n t a t i o no f h u m a np g l o b me x o n - 1 2 2 3 3 一种荷清的2 维表示 该方法也是由r a n d i 6 提出来的。它是用二进制数来定义核苷酸基:a = 0 0 ,g - - - 0 1 , c = 1 0 ,t = l l ;将一个序列用2 维图形表示时,以原点为出发点,垂直的单位线段表示 一个基,水平的单位线表示相邻基之间的连接,如果基的表示中含有代码1 ,则对应于 1 所在的前后,在线段端点上用黑色点表示,如果基的表示含代码0 ,则不作任何改变。 该曲线是以原点为中心,作顺时针的转变,而且一个垂直单位线接连一个水平单位线。 人的b 球蛋白第一个外显子序列图形表示如图2 4 所示【4 1 1 。 优点:既完全避免了退化,不丢失原序列的信息,又可以节省表示空间,如一个长为2 0 0 0 的基序列仅需要5 0 5 0 的平面面积即可。 2 2 4 三维曲线表示 张春霆 4 2 4 3 将d n a 序列的四个基看作一个正四面体的四个顶点,建立一个x y z 坐 标系。具体的做法描述如下: l 将d n a 序列中的四个基按照它们的化学结构分类:嘌呤r j a ,g 和嘧啶弘 c , t ) ;氨基h 仁 a ,c ) 和酮基k = g ,t ;弱氢键w a ,t 和强氢键s _ c ,g 。 2 建立礤陀坐标系,其中x ,y ,z 轴的正方向分别对应着r ,m ,w 基;它们 的负方向分尉对应着y ,k ,s 基。 3 画d n a 序列的3 维图形如下:观察d n a 序列从左到右一次一个基,根据观察 到的基所属的集合元素的个数在三维坐标下画出这个序列的3 维几何图形。 9 曲率在生物序列相似性分析中的应用 显然,对于不同的序列,它们的几何图形也不同,序列和图形之间有一一对应关系。 现考虑一d n a 序列,设它共有个碱基,则z 曲线上每个基的数学表达式可表为: l x 。= ( a 。+ g j 一( c 。+ 丁。) y 。= ( 么。+ c 。) 一( g 。+ r 。) 伽5 j ,2 , 7 ) , l z 。= ( a 。+ 丁j 一( g 。+ c j 其中,以,g ,c 和分别是前栉个基的子序列中基a ,g ,c 和丁的个数。 这一公式有直接的生化意义。另外,z 曲线还具有等步性、回路性、渐近性、对称 性等优良性质,它在分析限制性内切酶对d n a 序列的识别等方面有重要的应用。 这种3 维图形表示有很强的数学意义,然而有一个缺陷,即存在退化序列,如序列 a c g t g t c a 和a c g t g t c 从c g t b t c a 。虽然它们的几何表示应该是不一样的,然而 并不能从它们的图形中表现出来。 与之不同,袁春欣构建的三维空间表示f 4 4 l ( 图2 5 所示) ,克服了上述3 维图形表 示的退化现象,构造如下:让g = - 9 1 9 z 踟表示一条任意的d n a 序列,构造映射l i , 映射g 到一个点集。 ( _ l 0 ,o ( 1 ,0 , 0 ( 0 ,一1 ,o ( o ,l ,f ) i f g 。= a i f g = g , i f g = t , i f g 。= c 琴。一? 。? 。”一一”。鼍 图2 5y u a n 等人给出的人b - 球蛋白第一个外显子序列前1 0 个基的图形表示 f i g 2 5 t h e3 dg r a p h i c a lr e p r e s e n t a t i o no f t h es e q u e n c ea t g g t g - c a c c b yy u a ne ta l l o * k ? ,;一。,tr“#,“#藩 大连理工大学硕士学位论文 优势在于它不存在上述3 维图形表示的退化现象,而且仅有三种不同的图形表示,分别 对应于四个基的三种不同分类。 2 3 生物序列的比较和相似性分析 2 3 1 生物序列比较的生物学背景 在计算生物学中序列比较是计算分子生物学中最重要和最常用的原始操作,是许多 其他更复杂操作的基础。粗略的讲,这一操作包括两方面:发现序列的类同和序列的不 同。 2 3 2 生物序列相似性的定义 首先,我们先说明什么是两序列之间的一个比对。比对就是在序列中任意位置插入 空格使得序列的长度相同。等长后,扩展的序列能够完全相互重叠,产生两序列字符间 或字符与空格间的对应,但不得有两空格的对应。空格甚至可以插入在序列的头部和尾 部。 给定两序列间的个比对,按如下方法赋予其一个计分。比对的每一列根据其内容 获得一个值,比对的总值就是各列值的和。如果一列为两个相同的字符,则称为一个匹 配,其值为+ i ;着一列为两个不同的字符,则称为一个失配,其值为1 :列中含有一个 空格则值为2 。当然,随着空格插入位置的不同,两序列间将会得到不同的计分。最佳 比对就是最大计分的比对,这个最大计分称为两序列间的相似性,记为s i m ( s , t ) ,s 和t 是序列。一般地,两序列问可存在多个具有相同最大计分的比对。 计算两序列相似性的一个办法是产生所有可能的比对,然后选择最佳的【9 】。 2 4 图形表示应用千序列相似性分析的矩阵不变量方法 用于序列比较中的定量分析方法作为图形表示的主要应用近年来得到了广泛的发 展,其思想和方法归纳如下: 2 4 1 由图形表示提取特征矩阵 对于d n a 原始序列,因序列太长,很难直接从序列本身提取信息。d n a 原始序列 的图形表示提供了解决这个问题的一种方法,它能使得我们更直观的观察。用矩阵表示 d n a 序列的信息从另一个角度来解决这个问题。这一工作最早有m r a n d i 6 等人1 3 0 】提 出。具体的做法有下面几种: 曲率在生物序列相似性分析中的应用 1 e 矩阵:其中( i ,j ) 元由曲线上两个基对应点的欧氏距离得到。 2 m m 矩阵:其中( i ,j ) 元由曲线上两个基对应点的欧氏距离与它们之间存在的单位线 段数之比( 即1 ) 得到。 3 l l 矩阵( 也称d d ( d i s t a n c e d i s t a n c e ) 矩阵) :其中( i ,j ) 元由曲线上两个基对应点 的欧氏距离与它们之间的图论距离( 曲线上两点间的线段长的和) 之比得到,主对角线 元为零,所有元素都小于或等于l 。这种矩阵来源于d n a 原始序列的二维几何图形 表示。利用这种矩阵的最大特征值可以给出d n a 原始序列的几何图形的折叠度的一 种结构性解释。 4 高阶矩阵:o l k l 矩阵,亦为一对称矩阵,其c o ( i j ) 元由l l ( d i d ) 矩阵中每个元取k 次幂得到;6 u b l 矩阵,为一0 ,1 矩阵,即对k 】l ,k l 矩阵中每个元对k 趋近于正无穷 时取极限得到。其优点是能够使原来的信息差别更显著。 2 4 ,2 常用矩阵不变量 1 九。矩阵最大特征值。这一不变量具有很大的优越性,已证实能比较好的反映 序列的信息,但当序列长度较大时,矩阵特征值计算量很大,这就需要寻求其它的 量来代替。 1 2 ,= 三罗矾,平均行和。 栉。 3 瓦= a 。,平均带宽。 j - 一j = k ” 2 4 3 不变量用于序列相似性比较的一般方法 利用d n a 序列的矩阵不变量,可以对d n a 原始序列进行相似性比较。其做法是: 对所要比较的几个d n a 基本序列先进行处理,即先求出它们的矩阵和相应的矩阵不变 量,如矩阵的特征值、行列式值、矩阵所有项的平均值、最大( 小) 行和、矩阵的迹等 等。把某种不变量作为一个指标,对相应的序列进行相似性比较。如同一序列的图形表 示中,必须由几个图形才能完全表示出所有的序列信息。每一种图形表示提取一个矩阵, 对应一个矩阵不变量,得到的k 个矩阵不变量构成一个k 维向量。 设u 1 = ( u l l ,u 1 2 ,u i k ) 和u 2 = ( u 2 i ,2 2 ,u 2 k ) 分别是两个序列a 、b 所对应的k 维 向量。通常地说,如果两个向量所指向的方向越相近则我们就认为那两个序列越相似。 对于这个假设,我们有三种方法可以计算:( 1 ) d 1 ,u 2 ) ,即两个向量的欧氏距离,d 越 小,就认为这两个序列越相似;( 2 ) 0c 0 1 ,u 2 ) ,即两个向量的相关角,如果两个向量所 大连理工大学硕士学位论文 成相关角越小,就认为这两个序列越相似;( 3 ) c o s 0 ( u 1 ,u 2 ) ,即两个向量相关角的余弦 值,如果余弦值越大,则认为这两个序列越相似。 大连理工大学硕士学位论文 3 曲率在生物序列相似性分析中的应用 本章在生物序列的二维图形表示的基础上,利用曲率作为新的不变量,比较了生物 序列的相似性。我们以包括人类等9 个物种的1 3 一球蛋白基因的第一个外显子编码序列 为例来说明该不变量的应用。 3 1 引言 序列比较是计算分子生物学中最重要和最常用的原始操作,是许多其他更复杂操作 的基础。这一操作一般包括两方面:发现序列的类同和序列的不同。核酸序列之间的比 较是最常见的比较。生物序列的相似性分析是通过生物序列的比较来实现的,但又不同 于符号序列的序列比对。其理论基础是进化学说,即如果两个序列之间有足够的相似性, 就可推测二者可能有共同的进化祖先,经过序列内残基的替换,残基或序列片段的缺失, 以及序列重组等遗传变异过程演化而来。序列相似和序列同源是不同的概念,序列之间 的相似程度是可以量化的参数,而序列同源性的判断是质的判断,序列之间要么同源要 么不同源。 序列比较的常用方法有:动态规划算法,压缩矩阵方法,图形表示的数值刻画方法。 所有这些方法只考虑了序列的组成( 由四种核苷酸组成的字符串) 以及每个基的位置。 然而,生物序列的表示,存储,比较都应当体现每个基的自身的化学性质和化学结构, 传统的动态规划算法就存在这方面的缺陷。压缩矩阵方法最早由r 锄d i c 等人提出来的 【3 1 1 。它来源于计算化学中化学指标计算。他的基本思想实现构造一个适当的矩阵来表示 一个序列,这样序列之间的比较就转化为矩阵之间的比较,而且如果矩阵是数值矩阵就 可以选择一个适当的不变量进而把矩阵之间的比较转化为比较这些不变量。这样一来, 复杂的问题就简单化了。压缩矩阵方法不同于比对方法直接去比较生物序列,而是考虑 这些生物序列的不变量。这些不变量是从生物序列对应的矩阵中提取出来,即把初始的 生物序列转化为数值序列,而这些数值序列的长度可以依靠被选择的不变量的性质并按 照自己不同的需要进行修改。并且,由于不变量的刻画非常简单,两个生物序列的比较 被转换了生物序列对应的数学对象的比较。但是缺点是在用不变量来刻画和比较生物序 列时会有某些结构方面的丢失。由于序列比对的动态规划方法和压缩矩阵方法有如上所 述的一些缺陷,使得很多人试图寻找其他的方法来进行生物序列的比较。最近,不少学 者提出了一些图形表示方法。他们共同的思想是:将生物序列转化为图形( 曲线) ,利 曲率在生物序列相似性分析中的应用 用图形构造矩阵,再利用矩阵不变量( 如最大特征值,次对角线上所有元素和的平均值, 最大( 小) 行和,矩阵的迹等) 来比较生物序列的相似性。 上述所得到的曲线都是非光滑的,这样一来,表示曲线特征的一些元素比如曲线的 曲率就没有得到很好的利用。因此,本章中我们提出用光滑后的曲线的曲率来代替特征 矩阵的最大特征值。这样,就不用进行繁杂的计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论