




已阅读5页,还剩68页未读, 继续免费阅读
(计算数学专业论文)dna序列及蛋白质序列的分析与比较.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 d n a 、r n a 和蛋自质都是由较小的单元组成的无分枝的线性聚合体大分子。对于 d n a ,这些单元是a ( 腺嘌呤) 、c ( 胞密啶) 、g ( 鸟瞟呤) 和t ( 胸腺嘧啶) 这4 种核苷酸 残基;对于r n a ,这些单元是a 、c 、g 和u ( 尿嘧啶) 这4 种核苷酸残基;对于蛋 白质这些单元是2 0 种氨基酸残基,即a ( n 氨酸) 、e ( 半胱氨酸) 、d ( 天冬氨酸) 、e ( 谷 氨酸) 、f ( 苯丙氨酸) 、g ( 甘氨酸) 、h ( 组氨酸) 、i ( 异亮氨酸) 、k ( 赖氨酸) 、l ( 亮氨 酸) 、m ( 甲硫氨酸) 、n ( 天冬酰氮酸) 、p ( 脯氮酸) 、q ( 谷氮酰胺酸) 、r ( 精氨酸) 、s ( 丝 氨酸) 、t ( 苏氨酸) 、v ( 缬氨酸) 、w ( 色氨酸) 和y ( 酪氨酸) 这样,一个d n a ( r n a ) 序列可以看作是在一个有四个字母的字母表= a ,g ,g ,t 渺) ) 上的字( w o r d ) ,同样,蛋 白质也可以看作是一个在2 0 个字母上的字在相当大的程度上,d n a 、r n a 和蛋自质 分子的化学性质编码在这些基本单元的线性序列中。因此,宇上的组合学和统计学的工 具和方法可以在研究生物分子单元线性序列上发挥很大的作用。 本文的主要工作包括以下几个方面: 在第一章,利用代数中同态的思想和物理学中的。粗粒化”思想,根据d n a 序列中 四种核苷酸a 、g 、c 和t 的化学结构分类,提出d n a 序列的特征序列的概念一 个d n a 序列的特征序列是一组( 0 , i ) 序列,它们中的每一个都是这个d n a 序列的一个 简约表示,而且用它们中的任意两个都可以重新构造出这个序列;然后,利用特征序列 中所有【0 , 1 ) 三元组出现的总数构造了一组2 2 矩阵来表示序列进一步,我们计算这 种压缩矩阵的最大特征值并把它作为d n a 序列的一种不变量基于这些d n a 序列的不 变量我们分析了h u m a n ,g o a t ,g a l l u s ,o p o s s u m ,l e m u r ,n l o u s e ,r a b b i t ,r a t 等八个物种的球蛋 白( g l o b i n ) 基因序列的第一个外显子序列的相似性和非相似性;另外,我们试图通过比较 特征序列来找出嘌呤嘧啶。酮基一氨基,弱氢键强氢键分类可能显现出的生物功能 第二章研究d n a 序列的特征序列在基因识别算法中的应用。首先,我们给出d n a 序列的特征序列的一种数值刻划利用这种数值刻划给出一个基因识别算法,并将这种 算法用在模式生物酿酒酵母菌基因组的分类数据库中,准确性超过9 5 反过来将算法 应用到酿酒酵母菌基因组中进行基因识别,得到了一个酿酒酵母菌基因组申基因总数的 估计5 8 9 7 ,与普遍接受的酿酒酵母菌基因组中基因数目5 8 0 0 - 6 0 0 0 相符 在第三章,我们将d n a 序列的特征序列推广到蛋白质序列中根据2 0 种氨基酸的 物理化学性质,给出一种蛋白质序列的特征序列的概念来表示氨基酸的疏水性质和电价 性质,并给出蛋白质序列的特征序列一种数值刻划然后,通过比较这些特征序列的数 值刻划得到一些蛋白质二级结构类全。螺旋,全卢折叠。和叩类蛋白质的一些关于疏 水性质和电价性质的信息 在最后一章,我们利用代数的方法分析d n a 序列和它们的三维图表示首先,我 们给出d n a 序列的三维图表示( d n a 曲线) 的一些代数的运算,并用对称群& 作用到 d n a 曲线上,从而得到d n a 曲线的一些性质其次,对于d n a 曲线,我们定义了两种 等价关系,并得到一些与这两种等价关系相关的计数公式在这一章的最后我们证明一 个与等价类的熵有关的不等式 关键词:生物信息学、d n a 序列、特征序列、蛋白质、蛋白质二级结构类、基因 组、基因识别算法、压缩矩阵、特征序列的数值刻划。 a b s t r a c t d n a ( d e o x y r i b o n u c l e i ca c i d ) ,r n a ( r i b o n u c l e i ca c i d ) ,a n dp r o t e i na r ea l lm a c r o m o l e c u l e s w h i c ha l - eu n b r a n c h e dp o l y m e r sb u i l tu pf r o ms m a l l e ru n i t s i nt h ec a s eo fd n a ,t h e s eu n i t sa r e t h ef o u rn u c l e o t i d er e s i d u e sa ( a d e n h :l e ) ,c ( c y t o s i n e ) ,g ( g u a n i n e ) a n dt ( t h y m i n e ) w h i l ef o r r n a ,t h eu n i t sa r et h ef o u rn u o l e o t i d er e s i d u e sa ,c ,ga n du ( u r a c i l ) f o rp r o t e i n lt h eu n i t s & r et h et w e n t ya m i n oa c i dr e s i d u e sa ( a l a n i n e ) ,c ( c y s t e i n e ) ,d ( a s p a r t i ea c i d ) :e ( g l u t a m i ca c i d ) , f ( p h e n y l a l a n i n e ) ,g ( g l y c i n e ) ,h ( h i s t i d i n e ) ,i ( i s o l e u c i n e ) ,k ( 1 y s i n e ) ,l ( 1 e u c i n e ) ,m ( m e t h i o n i n e ) , n ( a s p m a g i n e ) ,p ( p r o i n e ) ,q ( g l u t a m i n e ) ,r ( a r g i n i n e ) ,s ( s e r i n e ) ,t ( t h r e o n i n e ) ,v ( v a i n e ) ,w ( t r y p t e p h a n ) a n dy ( t y r o s i n e ) t h u s ,ad n a ( r n a ) s e q u e n c e c a l lb ei d e n t i f i e dw i t haw o r do v e r t i l ea l p h a b e t = a ,c ,g ,丁( u ) ) a n dap r o t e i ns e q u e n c ec a l lb et a k e na sas t r i n go ft w e n t y l e t t e r st oac o n s i d e r a b l ee x t e n t ,t h ec h e m i c a lp r o p e r t i e so fd n a ,r n aa n dp r o t e i nl n o l e c u l e s a r ee n c o d e di nl i n e a rs e q u e n c e so ft h e s eb a s i cu n i t s s o ,t h et o o l sa n dm e t h o d si nc o m b i n a t o r i c s o nw o l d sa n ds t a t i s t i c sw i l lp l a yi m p o r t a n tr o l e si ns t u d y i n gl i n es e q u e n c e so f b i o m o l e c u l a ru n i t s t h em a l nc o n t e n t sa r el i s t e da sf o l l o w s : i nc h a p t e r1 ,b a s e do nt h ei d e a so fh o m o m o r p h i s mi na l g e b r aa n dc o a r s e - g l a i n i n gi np h y s i c s , w ei n t r o d u c et h ec o n c e p to ft h ec h a r a c t e r i s t i cs e q u e n c e so fad n a p r i m a r ys e q u e n c ea c c o r d i n g t ot i l ec l a s s f i c a t i o n so fc h e m i c a ls t r u c t u r eo ff o l l rn u c l e o t i d er e s i d u e sa ,c ,ga n dt ,t h ec h a r a c t c r i s t i cs e q u e n c e so fad n a p r i m a r ys e q u e n c ea r eag r o u po f ( 0 ,1 ) s e q u e n c e s ,e a c ho fw h i c h i sar e d u c e dr e p r e s e n t a t i o no ft h eg i v e nd n a p r i m a r ys e q u e n c e ,a n dt w oo fw h i c hc a nu n i q u e l y r e c o n s t r u c tt i l ep r i m a r ys e q u e n c e b yc o u n t i n ga l l ( 0 ,1 ) t r i p l e t so fc h a r a c t e r i s t i cs e q u e n c e s ,w e c o n s t iu c tas e t , o f2x2m a t r i c e st or e p r e s e n tad n a p r i m a r ys e q u e n c e s f u r t h e r m o r e ,t h e l e a d i n ge i g e n v a l u e so ft h e s em a t r i c e sa l ec o m p u t e da n dc o n s i d e l e da sak i n do fi a v a r i a n t sf o r t h ed n a p r i m a r 3 s e q u e n c e s s i m i l a r i t ya n dd i s s i m i l a r i t ya n a l y s i sb a s e do ni n v a r i a n t so fd n a p r i m a r ys e q u e n c e sa r eg i v e nf o re i g h te x o n lg e n e so f 卢一g l o b i na b o u te i g h ts p e c i e s :h u m a n ,g o a t , g a l l u so p o s s u n l , e n l u l ,l n o n s e ,r a b b i ta n dr a t i na d d i t i o n ,t h l o u g h c o m p a r i s o no f c h a r a c t e r i s t i c s e q u e n c e s ,w et r yt of i n dt h eb i o l o g i c a lf u n c t i o n so fp u r i n e - p y r i m l d i n e ,a m i n o k e t og r o u p sa r i d w e a k s t r o n gt t b o n d s ,r e s p e c t i v e l y i l l c h a p t e r2 ,w ep r e s e n ta na p p l i c a t i o no ft h ec h a r a c t e r i s t i cs e q u e n c e so fd n ap r i n l a r y s e q u e n c e si ng e n er e c o g n i t i o no fg e n o m e f i r s t ,w es u g g e s tan u m e r i c a ld e s c r i p t i o no ft h e c h a r a c t e r i s t i cs e q u e n c e s ,b a s e do nt h i sd e s c r i p t i o n ,an e w p r o t e i nc o d i n gg e n ef i n d i n ga l g o r i t h m s p e c i f i cf o rt h ey e a s tg e n o m ea tb e t t e r9 5 a c c u r a c yw a ss u g g e s t e df u r t h e r m o r e a p p l y i n gt h e a l g o r i t h m ,w eo b t a i nt h et o t a ln u m b e ro fp r o t e i nc o d i n gg e n e si nt h ey e a s tsc e r e v i s i a eg e n o m e c o i n c i d e n tw i t h5 8 0 0 6 0 0 0 ,w h i c hi sw i d e l ya c c e p t e d i nc h a p t e r3w eg e n e r a l i z et h ec o n c e p to ft i l ec h a r a c t e r i s t i cs e q u e n c e so fd n a p r i m a r y s e q u e n c e st ot h ep r o t e i np r i m a r ys e q u e n c e s a c c o r d i n gt ot h ep a r s i c o c h e m i c a lp r o p e r t i e so f a m i n oa c i d s ,w ec o n s t r u c tc h a x a c t e r i s t i cs e q u e n c e st or e p r e s e n tt h eh y d r o p h o b i c i t ya n dc h a r g e d p r o p e r t i e so ft h ep r o t e i ns e q u e n c e ta n d g i v eak i n do fn u m e r i c a ld e s c r i p t i o no ft h ec h a r a c t e r i s t i c s e q u e n c e s b yc o m p a r i s o no ft h ec h a r a c t e r i s t i cs e q u e n c e s ,w eg e ts o m ei n f o r m a t i o na b o u tt h e h y d r o p h o b i c i t ya n dc h a r g e dp r o p e r t i e so fa m i n oa c i d so nt h r e ek i n d so fs e c o n d a r ys t r u c t u r a l c l a s s e so fp r o t e i n s :a l l h e l i x ,a l l8 - s t r a n d 。a n d8 0k i n dp r o t e i n 、r e s p e c t i v e l y i nl a s tc h a p t e r ,w ea n a l y s ed n as e q u e n c e sa n dt h e i r3 - d i m e n s i o n a lg r a p h i c a lr e p r e s e n t a - t i o n su s i n ga l g e b r a i cm e t h o d ,f i r s t ,w ed e f i n es o m eo p e r a t i o n so nd n a - c u r v e sa n do b t a i ns o m e p r o p e r t i e so ft h ed n a c u r v eu s i n gg r o u p & a c t i n go nt h ed n ac u r v e b e s i d e s ,w ed e f i n et w o e q u i v a l e n tr e l a t i o n so nt h ed n a - c i x v e s a n dc o u n tt h en u m b e r o ft h e e q u i v a l e n c ec l a s s e so fd n a s e q u e n c e s i na d d i t i o n ,a ni n e q u a l i t yr e l a t e dt ot h ee n t r o p yo fe q u i v a l e n ts e q u e n c e si sp r o v e d k e y w o r d s :b i o i n f o r m a t i c s ld n as e q u e n c e s ,c h m a c t e r i s t i cs e q u e n c e s lp r o t m n ,s e c o n d a r y s t r u c t u r a lc l a s s e so fp r o t e i n ,g e n o m e ,g e n er e c o g n i t i o na l g o r i t h m ,c o n d e n s e dm a t r i x ,n u m e r i c a l c h a r a c t e r i z a t i o nf o rc h a r a c t e r i s t i cs e q u e n c e s 0 前言 随着人类基因组计划( h g p ) 实施的进一步深入,生命科学已步入后基因组时代 “海量”的d n a 序列的数据被收集汇编在各种数据库中,如何来消化这些如此庞大的 的数据,分析和理解这些d n a 序列所表示的生物意义成了我们迫切的任务所以,生物 信息学已成为整个生命科学发疑的重要组成部分,成为生命科学研究的前沿这是- - i 2 运用数学、信息科学、计算机科学和系统科学的理论与方法研究生命现象、分析和处理 呈指数增长的生物学原始数据并进行加工、分析和建立计算模型的- - f 新兴学科 广义地说,生物信息学是对生物信息的获取、加工、储存、分配、分析和释读,并综 合运鼹数学、信息科学、计算机辩学、系统辩学和生物学工其,以达瓤理解数据库中各 种数据的生物学含义的目的与此对应,生物信息学具有三方面的科学基础:首先,它 需要发达的、复杂的、可互相交流的数据库系统;其次,生物信息学需要强有力的创新 算法和软件来获得持续的发展;最后也是最重要的是生物信息学需要一个大规模、高通 量的生物学研究方法和平台技术。这些技术既是产生生物信息的数据的主要方法又是在 利用生物信息分析结果的基础上进一步获取或验证生物学知识的关键手段 具体地说,生物信息学是把基因组d n a 序列信息分析作为源头,找到基因组序列中 代表蛋白质和r n a 基因的编码区,阐明非编码区的信息实质、破译隐藏在d n a 序列中 的遗传语言规律;同时,归纳、整理与基因组遗传语言信息释放及调控相关的转录谱和 蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律 生物信息学的内容包括三个层次;基因组信息学、蛋白质的结构计算与模拟以及分 子药物设计这里基因组信息学是生物信息学的源头和基础;蛋白质的结构计算与模拟 是基因组信息学发展的必然结果;分子药物设计是利用蛋自质结构与功能信息造福人类 的有力工具 生物信息学的研究内容非常丰富,例如序列的比较和分析、构造进化树、基因预测、 r n a 和蛋白质结构预测、d n a 和蛋白质序列的表示、药物设计等等,其中序列的比较是 生物信息学中最基本也是最重要的问题,因为对于d n a 序列,即使我们考虑它的一个很 短的片段,我们也不可骺直接得出它表示的对象所具有的信息。然而如果我们比较不同 的序列就有可能得到某些信息然而这个问题非常复杂,至今还有许多未解决的问题 本文主要在d n a 序列的比较和分析、基因预测、蛋白质二级结构类分析以及d n a 序列 的图形表示方面做了一些研究和探讨 本文的主要内容如下:在第一章,根据d n a 序列中四种核苷酸a 、g 、c 和t 的 大连理工大学博士学位论文td n a 序列及蛋白质序列的分析与比较 化学结构分类,提出d n a 序列的特征序列的概念利用特征序列中每种( o ,i ) 三元组出 现的频率,构造出一种压缩矩阵进一步,把它的最大特征值作为一种d n a 序列的不变 量给出了一种序列比较的方法+ 此外试图通过比较特征序列来找出嘌呤一嘧啶,酮基一氨 基,弱氢键- 强氢键分类可能显现出的生物功能 在第二章,给出d n a 序列的特征序列的一种数值刻划( o ,1 ) 序列的正规高度利用 这种数值刻划绘出一种基因识别算法,并用酿酒酵母菌基因组数据库中的数据评估了这 个算法,准确性超过9 5 进一步,将这种算法用在模式生物酿酒酵母菌基因组的分类 数据库中识别基因,得到基因组中基因的个数的一个估计值5 8 9 7 ,这个数与普遍接受的 酿酒酵母菌基因组中基因数目5 8 0 0 - 6 0 0 0 相符 在第三章,推广d n a 序列的特征序列的概念到蛋白质序列中根据2 0 种氨基酸的 物理化学性质,给出一种蛋白质序列的特征序列的概念来表示氨基酸的疏水性质和电价 性质,并给出了蛋白质序列的特征序列一种数值刻划利用这种数值刻划,得到了蛋白 质二级结构类全a 螺旋类、全p 折叠类和a 口类蛋白质的一些关于疏水性质和电价性质 的信息 在最后一章,我们利用代数的方法分析d n a 序列和它们的三维图表示。给出d n a 序列的三维图表示( d n a 曲线) 的一些代数的运算,并用对称群瓯作用到d n a 曲线上, 从而得到d n a 曲线的一些性质另外,定义了两种等价关系,得到一些与这两种等价关 系相关的计数公式最后。证明了一个与等价类的熵有关的不等式:设和n 都是非负 整数,则 ( n 墨1a 。i ) ( :,q ) - 。 、:l 毗 ( n :1 ( 啦+ 七) ( 。t + k ) ) ( ln + 础) - 1 :饕1 戗+ n k 当且仅当g 1 = a 2 = = a no r ;0 时等式成立 ( 0 0 1 ) 本文的第一到三章,研究的对象主要是d n a 序列和蛋白质序列的特征序列这个 概念的主要是来自于代数中“同态”的思想和物理学中的“粗粒化”思想对于很多看起 来很不相同的事物,如果我们把具有某种特定性质的事物看作是同一类的东西,这就使 我们将注意力集中于事物的这种特定性质而忽略其它一些我们认为不重要的性质,这就 是我们常说的“粗粒化”思想h a o 5 6 】这种思想其实已广泛地应用于数学与物理学的许 多领域,只不过在不同的领域有不同的说法本文中我们将具有共同化学结构或物化性 质的残基或氨基酸看作是一样的,并用0 或i 表示,这样就把一个生物序列约化成一个 ( 0 , 1 ) 序列,从而完成“粗粒化”过程对这种( o ,i ) 序列的重新分析并与序列加以对比, 就有可能找出这种化学结构或物化性质所能显现的生物功能 本文的第四章主要在z h a n g ( 1 6 1 】的基础上作了一些简单的推广和初步的探讨,我们 希望能在将来的工作中对这个问题做进一步的研究 2 1 d n a 序列的特征序列 1 1 背景及综述 比较是科学研究中最常见的方法通过将研究对象相互比较来寻找对象可能具备的 特性并获得有用的信息。在生物信息学研究中,比较是最常用和最经典的研究手段最常 见的比较是蛋白质序列之间或核酸序列之间的两两比较通过比较两个序列之间的相似 区域和保守性位点,寻找二者可能的分子进化关系进一步的比较是将多个蛋白质或核 酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和轮廓( p r o f i l e ) , 从而探索导致它们产生共同功能的序列模式此外,还可以把蛋白质序列与核酸序列相 比来探索核酸序列可能的表达框架;把蛋自质序列与具有三维结构信息的蛋自质相比, 从而获得蛋白质折叠类型的信息 序列比较的理论基础是进化学说如果两个序列之间具有足够的相似性,就推测二 者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列 重组等遗传变异过程分别演化而来 在生物信息学中,序列的比较是通过将两个或多个核酸序列或蛋白质序列进行比对 ( a l i g n m e n t ) 通过比对未知序列与已知序列( 尤其是功能和结构已知的序列) 之间的相似 性得到它们的同源性来预澳f 未知序列的功能注意,序列相似和序列同源是不同的概念, 序列之间的相似程度是可以量化的参数,即数量上的多或少的判断而序列的同源性判 断是质的判断;序列之间要么同源要么不同源,这需要有进化事实的验证 序列的比对主要是研究序列间的优化对应,即用一个距离函数来度量两个序列间的 相似性和非相似性一般的认为,两个序列间的主要不同是由替换和对换引起的,所以 序列间的优化对应研究被看作是序列的置换或比对( 或者匹配) 首先我们介绍当前应用 最广的序列比对算法,有关序列比对的参考文献和网上的使用工具,在每一本有关生物 信息学的参考书中都有详细的介绍例如,j i a n g 【6 4 ,m o u n t 9 1 】和w a t e r m a nf 1 3 5 l 等 1 1 1 序列比对 早期的序列比对是全局的序列比对,但由于蛋白质具有的模块性质,可能由于外显 子的交换而产生新蛋白质,因此局部比对会更加合理通常用打分矩阵描述序列两两比 对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数 越高则说明两个残基越相似因此,序列比对问题变成在矩阵里寻找最佳比对路径 3 大连理工大学博士学位论文:d n a 序列及蛋白质序列的分析与比较 下面简单介绍一下序列比对算法: 1 序列比对:这里只介绍d n a 序列的比较对于每一个d n a 序列,我们都能把它看 作是一个在四个字母的字母表= a ,c ,g ,t 上的字首先,我们把这个字母表扩充为 五个字母的字母表刀= a ,c ,g ,t ,一) ,这里横线是一个虚拟的元素,表示插入空格或删除 字母然后我们在这个扩充的字母表上定义一个罚分函数,记为d ( a ,b ) 函数满足非负性, 对称性和三角不等式三个公理设 1 = a l a 2 。, 2 = b i b 2 k ,是两个d n a 序列, 长度分别为n 和m 按照上面的扩充,我们将两个序列变为两个长度相同的序列w i 和”玉 它们的长度记为这时d ( ”i ,u :) = 墨。d ( ,6 ;) 其中u j = 西畦n _ ,w ;= 6 l 鸲 a n dd ( w ;,”:) 表示两个序列之间的罚分函数 2 序列比对的问题:对两个d n a 序列w l 和”2 ,求出它们的扩张序列,使得它们的扩 张序列的罚分d ( m 0 ”5 ) 为最小序列比对算法是一个动态规划算法,最早是n e e d l e m a n 。 w u n s c h 动态规划算法,在此基础上又改良产生了s m i t h w a t e r m m l 算法和s i m 算法 自后又有许多算法被提出,它们的要点是下列递归公式:d ( i ,j ) = m i n d ( i 一1 :j ) 4 - d ( ,一) ,d ( i 一1 ,j 一1 ) + d ( o :,) ,d ( i ,j 一1 ) + d ( 一,蛄) ) 这里d ( i ,j ) 表示两个序列的前面长 为t 的字首与前面长为j 的字首之间的最小距离 利用上面的递归公式,我们能用一个矩阵表逐一求出两个扩张序列的所有字首的最 小距离 序列的比较问题从一开始提出就得到了研究者们的关注,并且有大量的可适用的软 件来用于处理序列的比较现在所用的软件基本上都是基于上面的序列比对算法两作的 推广 序列两两比对的做法实际上是来自计算机算法中的字符串比较算法在进行序列两 两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分粗糙的比对方法 仅仅用相同或不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功 能的不同影响效果空位罚分是为了补偿插入和缺失对序列相似性的影响由于没有什 么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主 观色彩一般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,另一个对空 位的延伸罚分对于具体的比对问题,采用不同的罚分方法会取得不同的效果 由于序列比对有上面的一些缺点,使得很多人试图寻找其它的方法来比较d n a 序 列最近,n a n d y 【9 5 一 9 8 】,r a n d i c 【1 0 5 一【1 1 1 】,r a y c h a u d h u r y 【1 1 4 】等人提出了一种新的方 法来进行序列的比较,这就是所谓的压缩矩阵的不变量方法 1 1 2 压缩矩阵的不变量方法 压缩矩阵最早是由r a n d i c 等人提出来的它来源于计算化学中的化学指标计算。它 的基本思想是先构造一个适当的矩阵来表示这个序列这样序列之间的比较就转化为短 阵之间的比较,而且如果矩阵是数值矩阵就可以选择一个适当的不变量而把矩阵之间的 比较进而转化为比较这些不变量 4 第1 章d n a 穿列的特征序列 利用压缩矩阵方法来比较d n a 序列,不同于以前的方法去直接比较d n a 序列,而 是去考虑这些d n a 序列的不变量这些不变量是从d n a 序列对应的矩阵中提取出来, 即它把初始的d n a 序歹转换为数值序列,丽这些数值序列的长度可以依靠被选择的不 变量的性质并按照自己不同的需要进行修改目前,主要的有如下几种压缩矩阵: ( 1 ) d n a 序列的普通压缩矩阵型 将d n a 序列中的四个核酸基按行与列构成一个4 4 矩阵计数1 6 种核酸基对x y ( 这 里x ,y 表示a e ,g ,f ) 的总数由于这释矩阵攘对篱单,可能导致序列的许多信息丢失, 使用这种矩阵时,可以再多建几个类似的矩阵以减少信息的丢失具体的方法是:在第一 个矩阵中核酸基对x y 是连续的,我们可以类似的建立核酸基对x y 中间相差一个基, 两个基,三个基见文献1 1 0 7 】【1 0 9 此外,在文献i i i 0 】中,作者还以d n a 序列中每一 个可能的三联体在序列中出现的个数,建立了一组压缩短阵计数6 4 种核酸基对x r z ( 这 x ,z 表示a ,c ,g ,t ) 的总数来进行序列的比较 ( 2 ) s s 矩阵 s s 矩阵是从d n a 序列直接得到的假设一个d n a 始序列的长度为m 即它有n 个基构成构造一个n n 阶对称矩阵如下:它的瓴j ) 项为s e t s i 2 ,这里s 】是核酸基对 x y ( 这里x ,y 表示a ,g ,g ,丁) 中基x 在d n a 序列中出现的序数,s 。2 表示基y 在序列 中的位置与“l 的差,见文献 1 0 6 ( 3 ) d j s t a n e e d j s a n c e 矩阵 这种矩阵来源于d n a 序列的二维( 三维) 几何图形表示假设一个d n a 序列的长度 为n ,即它有n 个基构成构造一个n n 阶对称矩阵如下:它的( ,j ) 项为如d 1 2 1 这里 吐1 是几何图形表示中曲线的第i 个点和起点之问的e u c l i d e a n 距离d i 2 是几何图形表示 中曲线的第z 个点和起点之间的图论意义上的距离利用这种矩阵的最大特征值可以给 出d n a 序列的几何图形表示申曲线的折叠度( t h ed e g r e eo ff l o d i n g ) 的一种结构性解释, 见文献f 1 0 6j 【1 0 9j 【i i ij f n 2 利用d n a 序列的压缩矩阵,可以对d n a 序列进行相似性比较其做法是:对所要 比较的几个d n a 序列先进行处理,即先求出它们的压缩矩阵和相应的矩阵不变量,如矩 阵的最大) 特征值,行列式值,矩阵所有项的平均值,矩阵的迹与最大( 小) 行和等等 把这个不变量作为一个指标,比较相应序列的相似性 利用不变量来刻划和比较d n a 序列的优势在于不变量的刻划和比较非常简单,两 个d n a 序列的比较被转换成了d n a 序列对应的数学描述的序列的比较然而它所付出 的代价是在用不变量来刻划和比较d n a 序列时同时会伴随着某些结构方面的信息的丢 失所以如何能找到更好的指标来比较d n a 序歹 j 是一个值得进一步研究的课题 1 1 3 其它的d n a 序列的相似性比较方法 最近,有些研究者来尝试利用d n a 序列的图形表示的数值刻划来比较d n a 序列 例如,在【9 5 j 中,n a n d y 直接利用d n a 序歹l j 的几何图形表示给出了一种可比较的指标, 5 大连理工大学博士学位论文;d n a 序列及蛋白质序列的分析与比较 称为曲线的散度t 首先定x t n 个量p z = 斋墨lz ( m ) 和蜥= 斋篓1y ( n 。) ,这里。( m ) 和”) 分别表示几何图形表示中的第i 个点的,y 坐标用g r = ( p :+ p :) 表示d n a 序列图形的半径对于两个d n a 序列,用d ( g l ,9 2 ) = ( “;一疋) 2 + ( 一成) 2 p 求出它们 之间的距离 还有一些其它的做法,参见n a n d y 【9 6 一 9 s 】,g u o 【4 8 】和r a n d i c1 1 1 3 】等。 在这一章,基于代数中同态的思想和物理学中粗粒化思想,我们提出了用特征序列 来表示d n a 序列利用压缩矩阵的方法。我们构造特征序列的压缩矩阵来比较d n a 序 歹l i 。 1 2 d n a 序列的特征序列 d n a 序列的表示、储存、比较都应当体现每个基的自身的化学性质和化学结构然 而在以前的研究中,这个问题被忽略了不管是时下最常用的序列比对算法,还是近年 来提出的压缩矩阵的不变量方法以及d n a 序列的图形表示的数值刻划方法,主要考虑 的是四种核苷酸基的组成和位置 我们从四种核苷酸基的化学结构入手,将它们分类,然后在d n a 序列和一组f o ,1 ) 序列建立一种对应用这组( o ,1 ) 序列表示d n a 序列具体说明如下: 由分子生物学知识( 图6 2 ) 我们知道,d n a ( r n a ) 序列中的四个核酸基的环有两种, 即单环嘧啶和双环嘌呤。记r 为嘌岭,y 为嘧啶;即r = a ,q 和y = ( c ,丁 同样的可 以将这四个核酸基分为酮基和氨基两类:即m = a ,c 和k = g 研从d n a 双螺旋结 构的构成还可以把四个核酸基分为弱氢键和强氢键两组:即w = ( a ,t 和s = f c ,g 对 于上面的每一种分类,我们髓傲下面的操作使得每一个d n a 序列对应一个( 0 , 1 ) 序列: 若基是属于r ,则记它为1 否则,若它属于y 则记为o 在这样的操作下,d n a 序列就 变为了( 0 , 1 ) 序列在这种变换下,有很多d n a 序列对应这一个( o ,1 ) 序列,这样d n a 序 列自身的某些信息将会丢失,然而这种变换使得我们更容易对d n a 序列比较和分析更 进一步,通过比较这些( o ,1 ) 序列,我们可能显示出嘌呤和嘧啶分类的生物功能。对于同 一个d n a 序列,我们还可以根据另两种分类做相同的运算,进而可以显示酮基和氨基、 弱氢键和强氢键在序列中的生物功能用数学形式表示如下: 设g = g t 9 2 是一个d n a 序列根据上面的分类,我们定义三个字上的同态映射 氟( g ) = a ( g i ) a ( 9 2 ) r 一, = 1 ,2 ,3 ,其中 r1i fo ,r 毋1 ( 野) 。1 o i f z y 1 ( 1 2 1 ) r1i f 口i m 2 ( 钉) 1 0 i f z k ( 1 22 ) 和 r1i fo i w c a ( g j ) 2 1n f z f q ( 1 23 ) 6 第1 章d n a 序列的特征序列 这样我们从一个d n a 序列得到三个( 0 , 1 ) 序列,分别称它们为这个d n a 序列的 ( r ,y ) 一,( m ,k ) ,和( 暇s ) 一特征序列,或简称为特征序列。下面的数学定理说明这三个特 征序列给出了这个d n a 序列的所有信息 定理1 1 一个d n a 序列被它的三个特征序列中任意两个所唯一决定 证明:设g = 9 1 9 2 是一个d n a 序列则我们有g 的( r ,y ) ,( m ,k ) 和( 彬s ) 特征序列a ( g ) = i ( 9 1 ) 也( 9 2 ) ( i = 1 ,2 ,3 ) ,这里,如果卯r 则也( 卯) = 1 ,如果西y , 则l ( d ) = o ,如果d m 则2 ( g j ) = l ,如果g j k ,则2 ( 卯) = 0 ;如果卯w ,则 ( 岛) = 1 ,如果彩s ,则如( g j ) = o 由上述映射的定义,对于d n a 序列的每一个基鲂我 们有一个( 0 ,1 ) 三元组( 如( 毋) ,锄( g j ) ,如( 毋) ) 与它对应,并且有定义可以看出a 一( 1 ,1 ,1 ) , e 一( 0 ,1 ,o ) ,g 一( 1 ,0 ,0 ) 和t 一( 0 ,0 ,1 ) ,由这些对应可以立即得到定理中的结论 口 由特征序列的定义,不同的d n a 序列可能对应同一个特征序列,这可能会引起一 些序列的信息丢失,但上面定理告诉我们,只需要两条特征序列就能将d n a 序列的全部 信息表现出来,即在一个特征序列中丢失的那部分信息一定包含在另外任意的一个序列 中所以,当进行d n a 序列比较时,只要比较对应的特征序列就可以了在下一节我们 将构造特征序列的压缩矩阵并用它来比较d n a 序列的相似性 1 3 特征序列的压缩矩阵 在进行物种的进化分析时,一般的做法是把这些物种的同一个基因位点上的同一种 基因进行比较并做同源性分析,以此来判断这些物种之间的同源关系在这一节,我们 取八个不同的物种的卢一g l o b i n 基因的第一个外显子,它们被认为是非常保守的序列,即 进化很慢的序列表11 列出了这八个序列我们先写出它们的特征序列,然后搜索每一 个特征序列中三元组出现的个数,并利用这些个数进行比较它们的特征序列见表1 2 , 其中第一行为它们的( r ,y ) - 特征序列,第二行为( m ,k ) 。特征序列,第三行为( 彬s ) 特 征序列在这八个物种的卢一g l o b i n 基因的第一个外显子序列中,序列的长度从8 6 b p 到 9 3 b p 在 1 1 0 中,r a n d i c 等人利用d n a 序列中三元组出现的频率,构造了一种4 4 x4 立方体矩阵,并利用这种矩阵给出了一种d n a 序列比较的方法类似于他们的做法,我 们用特征序列8 种可能出现的三元组代替他们文章中的6 4 种可能出现的三元组,即0 0 0 , 0 0 1 ,0 1 0 ,0 1 1 ,1 0 0 ,1 0 1 ,1 1 0 ,1 1 1 ,这样,我们得到一个2 2x2 立方体矩阵,矩阵的元素 表示每种三元组出现的频率,即聪= 1 0 0 m 氖( 一2 ) ,这里m x k 表示在特征序列x 中 ( 0 , 1 ) 三元组巧出现的个数,表示d n a 序列的长度这样做的目的是为了计数时无 需再考虑序列的长度 用f 8 ,f m 和f 来表示( r ,y ) ,( m ,k ) - 和( w ,s ) 特征序列的立方体矩阵对于每一 特征序列的立方体矩阵f x ,将它们拆分成两个2 2 的矩阵瑶。和掣,这里礤= ( 戚) 和竹o = ( 席k ) ,x 表示r ,m 和w 中的一个,即为下面的形式 7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年英语教师学期工作总结模版
- 放学后班级管理
- 软件培训课件制作规范
- 湖北省恩施州鹤峰县2025届七年级数学第二学期期末检测模拟试题含解析
- 2025届湖北省武汉市新观察八年级数学第二学期期末监测模拟试题含解析
- 大学生职业规划大赛《建筑电气与智能化专业》生涯发展展示
- 大学生职业规划大赛《新能源材料与器件专业》生涯发展展示
- 动态护理查房
- 小儿常见急症护理
- 公司培训系统构建与实施
- 《狼王梦》读书分享PPT
- 电力市场交易模式
- 妇科门诊护理质量控制管理考核标准
- 第四课《单色版画》 课件
- 秋收起义-完整版课件
- 朝阳区编制外岗位应聘人员报名表
- 自动喷水灭火系统质量验收项目缺陷判定记录
- 人教版一年级起点小学二年级英语下册全套教案
- T-CCIAT 0043-2022 建筑工程渗漏治理技术规程
- 供货、安装、调试、验收方案
- 电气设备-开篇绪论汇编
评论
0/150
提交评论