(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf_第1页
(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf_第2页
(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf_第3页
(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf_第4页
(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(应用数学专业论文)f10及g11木聚糖酶家族的数学建模与分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! 一 工 一 摘要 摘要 基因序列的相似性研究是生物信息学研究的热门问题之一随着人类基因组计划的 相续完成,大量的基因序列被相续测序,蛋白质序列的相似性研究变得越来越复杂工 作量越来越大因此,研究新的序列比对方法便成了迫切的问题而基因序列的图形表 示方法则是研究基因序列相似性的一种行之有效的方法 本文的主要工作包括以下几个方面: l 、在d n a 序列的混沌游走方法( c o r ) 及d n a 序列的4 线图谱表达方法( 4 l g r ) 的基础上,提出了一种新型d n a 序列的表达方法矩阵图谱表达法( m g r ) 进一步。在 d n a 序列的上述三种表达式基础上,分别建立了基于经典h p 模型的蛋白质序列的图谱 表达法,而且对蛋白质序列的相似性进行了比较验证 。 2 、基于经典h p 模型下,利用蛋白质序列的矩阵图谱表达法( m g r ) , g t 数值刻划的思 想提出了一种新的蛋白质序列的比对方法通过观察蛋白质序列的数值刻划图及计算两 蛋白质序列之间的欧氏距离d ,对木聚糖酶两家族的蛋白质序列进行了相似性分析 3 、在石秀凡及朱平等人提出的拟氨基酸编码方法的基础上,计算了f 1 0 和g il 木 聚糖酶家族的同义密码子的二个相对使用度,即r s c u 和q r s c u 通过分析和比较得 到,基于拟氨基酸的编码方法能更明显的展示出密码子家族中对同义密码子的一致偏好 性也就是说,基于拟氨基酸编码方法下的f 1 0 与( 3 1l 木聚糖酶家族更偏好使用密码 一子一反密码子结合作用强的密码子,恰好是以加结尾的密码子这些结果与前人的偏好 性研究结果一致,并且我们进一步验证了拟氨基酸的编码方法与密码子偏好性的研究结 果密切相关 4 、本文采用j e f f r e y 于1 9 9 0 年提出的描绘d n a 序列的混沌游走方法( c g r ) 给出了f 1 0 及( 3 1 1 木聚糖酶家族的核酸序列的c g r 图,计算了相应的马尔可夫两步转移概率,进而 计算了f 1 0 和g 1 1 家族同义密码子的偏好使用度通过以上分析得出的结论是,碱基的 偏好使用情况与序列的g c 含量和分子进化成正相关性 文中的研究结果表明,上述的研究是有意义的,其具有实用价值,对今后的这一方 面的研究具有极大的帮助 关键词:木聚糖酶;经典h p 模型;混沌游走表达;4 线图谱表达;矩阵图谱表达;相 似性;拟氨基酸;密码子偏好性;r s c u ;q r s c u a b s t r a c t n e s i m i l a r i t yr e s e a r c ho fg e n es e q u e n c ei so n eo ft h em o s th o tq u e s t i o ni nt h ea r e ao f b i o i n f o r m a t i c s w i t ht h ec o m p l e t i o no fh u m a ng e n o m ep r o j e c t ,al a r g en u m b e ro fg e n e s e q u e n c e sa r em e a s u r e d ,s i m i l a r i t yr e s e a r c ho fp r o t e i ns e q u e n c e sb e c o m em o r ec o m p l e xa n d w o r k l o a dm o r eh e a v y t h e r e f o r e ,t h es t u d yo fn e wm e t h o d so fs e q u e n c ea l i g n m e n th a s b e p x ) m eau r g e n ti s s u e i nf a c t ,g r a p h i c a lr e p r e s e n t a t i o nm e t h o do fg e n es e q u e n c e si sa l l e f f e c t i v em e t h o do fr e s e a r c hs e q u e n c es i m i l a r i t y t h em a i n sc o n t e n t sa r el i s t e da sf o l l o w s : l 、b a s e do i lt h ec h a o sg a m er e p r e s e n t a t i o nm e t h o d ( c o r ) o fd n a s e q u e n c e sa n d 4l i n e g r a p h i c a lr e p r e s e n t a t i o nm e t h o d ( 4 l g r ) o f d n as e q u e n c e s ,w ep r o p o s e da n o v e lg r a p h i c a l r e p r e s e n t a t i o nm e t h o do fd n as e q u e n c e s - - m a t r i xg r a p h i c a lr e p r e s e n t a t i o n ( m g r ) f u r t h e r , o nt h eb a s i so ft h ea b o v et h r e ek i n d so fd n as e q u e n c e sm o d e l ,w ee x t e n dg r a p h i c a l r e p r e s e n t a t i o no fp r o t e i ns e q u e n c e sb a s e do nt h ed e t a i l e dh pm o d e lr e s p e c t i v e l y t h e n ,t h e s i m i l a r i t yo fp r o t e i ns e q u e n c e si sc o m p a r e d 2 、b a s e do nt h ed e t a i l e dh pm o d e l ,u s i n gt h ei d e ao fm a t r i xg r a p h i c a lr e p r e s e n t i o no f p r o t e i n ( m g r ) a n dn u m e r i c a ld e s c r i p t i o n ,w ep r o p o s e dan e wm e t h o dt oa l i g nt w op r o t e i n s e q u e n c e s t h r o u g hr e v i e wn u m e r i c a ld e s c r i p t i o ng r a p ho fp r o t e i ns e q u e n c e sa n dc o m p u t e e u c l i d e a nd i s t a n c edb e t w e e nt h a tt w os e q u e n c e s ,w ea n a l y s et h es i m i l a r i t yo fp r o t e i n s e q u e n c e sa b o u tt w ox y l n a s ef a m i l y 3 、a c c o r d i n gt ot h ew o r ko fs h ix i u f a na n dz h up i n ge ta l ,t h ep a p e rc o m p u t e s t h e r e l a t i v eu s a g ed e g r e eo ft h es y n o n y m o u sc o d o no ff 1 0a n dg 1lx y l a n a s e :( r s c ua n d q r s c u ) t h r o u g ht h ea n a l y s i sa n dc o m p a r i s o nw e c a ns e et h a tb a s e do nt h ec l a s s i f i c a t i o no f t h eq u a s i a m i n oa c i dc a r lm o r ea b v i o u ss h o wt h ec o n s i s t e n tp r e f e r e n c et ot h es y n o n y m o u s c o d o n t h a ti st os a y , b a s e do nt h ec l a s s i f i c a t i o no fq u a s i - a m i n oa c i d s ,f ioa n d ( 3 11 x y l a n a s ep r e f e rt ou s et h ec o d o u sw i 廿ls t r o n gc o m b i n a t i o no ft h ee o d o n a n t i c o d o n ,j u s tt h e c o d o u se n d i n g 诵也e g o t h ec o n c l u s i o na c c o r d sw i t ht h ep r e f e r e n c es t u d y i n ga b o u tt h e7 8 h u m a ng e n e s a n df u r t h o rv e r i f i e dc o d o np r e f e r e n c ec l o s e l yr e l a t e dt oq u a s i a m i n oa c i d s c o d i n gm e t h o d 4 、a c c o r d i n gt ot h ec g r o ft h ed n as e q u e n c e sp r o p o s e db yj e f f r e yi n19 9 0 ,t h ep a p e r r e s e a x c h e dt h eg e n es e q u e n c e so f f 1 0a n dg i l lf a m i l ya n dg i v e dt h ec g ro f g e n es e q u e n c e s a tt h es a m et i m e , w ef u r t h e r 百v e dt h ec o r r e s p o n d i n gp r o b a b i l i t ym a t r i xf o rt h es e c o n d - o r d e r m a r k o vc h a i nm o d e la n dc o m p u t e dt h er e l a t i v eu s a g ed e g r e eo ft h es y n o n y m o u sc o d o n 1 r t 呻t h ea n a l y s tw ec 缸s t h a tt h eu s eo fp r e f e r e n c e so ft h es y n o n y m o u sc o d o nc l o s e l y r e l a t e dt ot h eg cc o n t e n ta n dm o l e c u l a re v o l u t i o n k e ? o r d s :x y l a n a s o ;l e d e t a i l e d h pm o d e l ;c g r ;4 - l g r ;m g r ;s i m i l a r i t y ;, q u a s i 。a m i n oa c i d s ;c o d o n b i a s ;r s c u ;q r s c u i i ! 目录 目录 摘! 耍i a b s t r a c t 1 i e j 录i 第一章绪论。l i 1 生物信息学简介l 1 2 木聚糖酶2 1 3 本论文的主要研究内容2 第二章基本知识和序列比对方法5 2 1 基本知识5 2 r 1 蛋白质序列的经典h p 模型5 2 1 2 蛋白质序列的特征序列5 2 2 基因序列的比对及图谱表示方法j 6 第三章基于矩阵图谱表达法的蛋白质序列的相似性分析1 1 3 1 两木聚糖酶家族蛋白质序列的收集及处理1 l 3 2 理论与方法:1 l 3 2 1d n a 序列的矩阵图谱表示1 1 3 2 2 基于经典h p 模型的蛋白质序列的矩阵图谱表示l 1 2 3 3 数据处理与结果比较1 3 3 4 本章小结l5 第四章f i o 和( 3 1 l 木聚糖酶家族蛋白质序列的相似性分析1 7 4 1 前言1 7 4 2 数据来源及处理_ l7 4 3 理论与方法17 4 3 1 改进的特征序列及其数值刻划l7 4 3 2 蛋白质序列的相似性分析算法1 8 4 4 结果与分析。1 9 4 5 本章小结2 3 第五章基于r s c u 与q r s c u 的f 1 0 及g il 木聚糖酶家族密码子偏好性的比较研究 2 5 5 1 引言。2 5 5 2 材料与方法2 5 5 2 1 数据库的构建2 5 5 2 2 密码子的相对使用度2 5 5 2 3 密码子偏好性强度划分2 6 目录 5 3 结果与分析2 6 5 3 1 基于氨基酸编码方法下的密码子偏好情况分析3 0 5 3 2 基于拟氨基酸编码方法下的密码子偏好情况分析3l 5 3 3 两种编码方法下密码子偏好性对比3 2 5 4 本章小结3 3 第六章总结与展望3 5 6 1 总结3 5 6 1 创新之处:3 5 6 3 展望3 5 参考文献3 7 附录:作者在攻读硕士学位期间发表的论文4 l 致谢4 3 n 第一章绪论 1 1 生物信息学简介 第一章绪论 生物信息学是一门运用数学、信息科学、计算机科学以及系统科学的理论与方法研 究生命现象,分析和处理呈指数增长的生物学原始数据进行加工、分析和建立计算机模 型的一门新兴学科伴随着人类基因组计划的实施及相续完善,生命科学的研究工作已 进入了后基因组时代,与此同时,大量的d n a 序列和蛋白质序列被测序并收集在数据 中,这无疑给人们的研究带来了极大的便利,但也给人们的研究带来不可避免的麻烦。 如如何来筛选这些庞大的基因序列、分析和理解这些基因序列所代表的生物意义等一系 列的工作便成为学者们迫切需要解决的问题【l 】 基因是生命的蓝图,蛋白质是生命的机器而我们知道蛋白质序列是由d n a 序列 所决定的,是通过对d n a 序列的转录和翻译得到的,所以生物体的d n a 序列决定了该 生物体的蛋白质序列,而2 0 世纪5 0 年代a n f i n s e n 等人的研究表明蛋白质空间结构的所 有信息均隐藏在蛋白质的线性结构里面,即隐藏在氨基酸序列里面进而d n a 序列在 一定程度上决定了蛋白质序列的结构和功能通常情况下,d n a 序列是由a ( 腺嘌呤) 、 g ( 鸟嘌呤) 、c ( 胞嘧啶) t ( 胸腺嘧啶) 这四种字母组成的长链,当人们直接观察一条很长的 字母序列时,并不能给人一个直观的信息,1 而人们发现d n a 序列的图谱表达在分析 d n a 序列时能够给人们更直观的信息因此,人们发展了很多d n a 序列的图谱表达方 法进行基因序列的相似性分析,并将其推广到蛋白质序列,用以研究蛋白质序列的相关 特性本文是在学者们用图谱表达方法研究d n a 序列和蛋白质序列的相似性的基础上 提出了新的图谱表达方法及比对方法在生物信息学中序列比对是最重要和最常用的操 作,是许多其它复杂操作的基础粗略地讲,这一操作包括发现d n a 序列和蛋白质序列 的相似与不相似之处d n a 序列和蛋白质序列的相似性是通过序列的两两比对来实现的, 但它又不同于符号序列的序列比对,其理论基础是生物进化学说,通过比对已知序列 ( 尤其是结构和功能) 与未知序列之间的相似性来预测未知序列的特性,如果两个序列之 间具有足够的相似性,那么我们就推测二者可能具有共同的祖先注意基因序列的相似 性与基因序列的同源性不是同一个概念,基因序列之间的相似性程度是可以量化的,其 相似程度是数量上的大或小的判断而基因序列是否同源则需要有进化事实的验证序 列的同源性判断是质的判断,基因序列之间的同源性情况有两种:要么同源要么不同源 弘j 目前常用的基因序列的图形表示有:a n a n d y 提出的基因序列的二维图形表示、 j e f f r e y 提出了d n a 序列的混沌游走方法、m i l a nr a n d i c 提出了d n a 序列的4 线图谱表 达方法等而序列比对的常用方法有:动态规划算法;压缩矩阵方法;图形表示的数值 刻划方法等 江南大学硕士学位论文 1 2 木聚糖酶 木聚糖酶是可将木聚糖降解成低聚木糖和木糖的一类酶的总称,它可以将木聚糖降 解为寡聚木糖、木糖和少量单糖其主要分为f 1 0 和( 3 1 1 两个家族f 1 0 和g 1 1 木聚 糖酶家族在其空间结构上具有两种不同的折叠类型首先,f i o 木聚糖酶家族的蛋白质 序列的三维结构为函p ) ,折叠桶类型g i i 木聚糖酶家族蛋白质序列的三维结构是以 折叠片为主所构成的单个结构域本文之所以选择木聚糖酶作为研究对象主要是因为 目前木聚糖酶广泛应用于工业领域,如制浆造纸、饲料加工、酿酒、烘焙食品、制备功 能性低聚糖、临床、环境保护等领域也正是由于木聚糖酶在工业应用方面的重要作用, 长期以来,人们对其做了大量研究【i 5 】而在对f 1 0 和( 3 1 1 木聚糖酶的研究中,其重要 的内容之一便是对其同义密码子的研究比如,刘亮伟等人【3 - 5 用生物信息学的方法,研 究了f i o 和g i i 木聚糖酶氨基酸二联体同最适温度、最适p h 值的关系、木聚糖酶的 分子进化以及用主成分分析的方法对f i o 和g i i 木聚糖酶分类等一系列的问题 科学技术的进步给2 l 世纪的人们带来了极大的便利,然而也给人们带来了前所未 有的压力如:人口爆炸、能源危机、环境污染、资源匮乏等,而造成这些问题的一切根 源是能源危机工业生产对于能源的过度利用以及化学能源的不可再生特性造成了能源 危机、环境污染、以及由此而引发的资源匮乏与能源匮乏相矛盾,自然界通过光和作 用赋予人们大量的可再生资源如:纤维素和半纤维素众所周知,我国是一个农业大国, 其每年的秸秆产量高达几亿吨,约占世界秸秆总量的十分之三,而秸秆中的半纤维素含 量占其干重的2 5 - - 5 0 ,在自然界中虽然微生物可以利用这些资源,然而由于这些资 源的结构非常复杂,所以被人们直接利用的效率极低,而要得到能够利用的单糖就必须 通过以木聚糖酶为主的半纤维素酶系的协同作用进行水解而完成,因此除了筛选合适的 菌种外人们希望通过生物工程手段改造木聚糖酶的性质来将这些生物资源降解成能够 直接利用的单糖这就需要了解基因序列同结构与功能之间的关系当然对基因序列进 行相似性研究也是必须的根据a n f i n s e n 等人的研究我们可以得出蛋白质空间结构的所 有信息均隐藏在氨基酸序列里面,而氨基酸序列是由于d n a 序列转录和翻译得到的, 因此研究f 1 0 和g i f 木聚糖酶两家族d n a 序列和蛋白质序列的特性就成了本文研究 的一个关键问题 1 3 本论文的主要研究内容 本文主要对蛋白质序列的相似性及d n a 序列的密码子偏好性进行了研究,具体内 容如下: 第二章简单介绍了本文研究所需要的基本知识和序列比对方法 第三章我们在d n a 序列的混沌游走方法( c g r ) 及d n a 序列的4 线图谱表达方法 ( 4 - l g r ) 的基础上,提出了一种新型d n a 序列的表达方法矩阵图谱表达法( m g r ) ,并 进一步的,在d n a 序列的上述三种表达式基础上,分别推广建立了基于经典h p 模型的 蛋白质序列的图谱表达法。而且对蛋白质序列的相似性进行了比较验证 2 第五章在石秀凡及朱平等人提出的基于氨基酸编码方法和拟氨基酸编码方法关于 密码子偏好性研究的基础上,计算了f i o 和g l l 木聚糖酶家族的同义密码予的相对使 用度,即r s c u 和q r s c u 第六章总结了本论文所做的工作,并且对下一步工作进行了展望 3 4 第二章基本知识和序列比对方法 2 1 基本知识 第二章基本知识和序列比对方法 2 1 1 蛋白质序列的经典h p 模型 生物序列一般指d n a 、r n a 或蛋白质序列而d n a 、r n a 或蛋白质序列是由小 单元组成的线性聚合体大分子如:d n a 序列是由a ( 腺嘌呤) 、g ( 鸟嘌呤) 、c ( 胞嘧 啶) t ( 胸腺嘧啶) 这四种核苷酸残基组成的;r n a 序列是由a ( 腺嘌呤) 、g ( 鸟嘌呤) 、c ( 胞 嘧啶) 和u ( 尿嘧啶) 这四种核苷酸残基组成的;对于蛋白质序列则是由2 0 种氨基酸组成 的,即丙氨酸( a l a n i n e ,简记为a l a ) ,精氨酸( a r g i n i n e ,简记为a r g ) ,天冬酰氨 ( a s p a r a g i n e ,简记为a s n ) ,天冬氨酸( a s p a r t i c , 简记为a s p ) ,半胱氨酸( c y s t e i n e ,简记为 c y o ,谷氨酸( g l u t a m i c ,简记为o l u ) ,谷氨酰胺( g l u t a m i n e , 简记为g l n ) ,甘氨酸 ( o l y d n e ,简记为g l ”,组氨酸( h i s t i d i n e , 简记为h i s ) ,异亮氨酸( 1 s o l e u c i n e ,简记为i i e ) , 亮氨酸( 1 j e u c i n e ,简记为l e u ) ,赖氨酸( l y s i n e ,简记为l y s ) ,蛋氨酸( m e t h i o n i n e , 简记为 m e t ) ,苯丙氨酸( p h c n y l a l a n i n e ,简记为p h c ) ,脯氨酸( p r o l i n e ,简记为p r o ) ,丝氨酸( s c r i n e , 简记为s c r ) ,苏氨酸( t h r e o n i n e ,简记为t h r ) ,色氨酸( t r y p t o p h a n , 简记为t r p ) ,酪氨酸 ( t y r o s i n e ,简记为t y r ) 和缬氨酸( v a l i n e ,简记为v a l ) 这样,一个d n a ( r n a ) 序列可以看 成是一个由四种残基组成的字母表同样的,所有的蛋白质序列都是由2 0 种不同的氨基 酸连接而成的 经典h p 模型最早是由b r o w n 提出,其根本目的就是为蛋白质的结构与功能的研究 提供研究思路其按照物理特征,对2 0 种氨基酸进行分类如按极性与非极性来划分可 将2 0 种氨基酸划分为极性与非极性两大类进一步,极性氨基酸又可划分为不带电荷极 性的极性氨基酸、带正电荷极性的氨基酸和带负电荷极性的氨基酸,故可将2 0 种氨基酸 分为4 类:非极性的氨基酸为a l a ,i _ e u ,i i e ,m e t ,p h e ,p r o ,t r p 和v a l ;不带电极性的氨基 酸为a s n ,c y s ,g l y , g i n ,s e t , m 和t y r ;带正电荷极性的氨基酸为a r g , h i s 和l y s ;带负 电荷极性的氨基酸为a s p 和g l u 也可将2 0 种氨基酸按极性与非极性、亲水性与疏水性 划分成4 类等 2 1 2 蛋白质序列的特征序列 蛋白质是生命科学研究的主要对象,要想研究蛋白质的功能以及它们之间的相互作 用就必须了解它们的结构2 0 种氨基酸则是蛋白质的基本组成单位,因此,蛋白质的一 维结构可以看成时由2 0 个字母上的长链,且恰好与三联子编码方式相适应又氨基酸的 性质与核苷酸的组成密切相关,现有的氨基酸特征序列描述方法主要有两类:一类是单 纯基于嘌呤与嘧啶等组成方法的分类,另一类则是利用氨基酸的亲水性和疏水性等性质 进行的分类近几年出现的按氨基酸的亲水,疏水性等把蛋白质序列简化为( 0 ,1 ) 序列的 5 江南大学硕士学位论文 h p 模型使用较为广泛其中蛋白质序列的经典h p 模型是根据蛋白质序列中每种氨基酸 的亲水性质和疏水性质划分的,把一个蛋白质序列简化成一个( o ,1 ) 序列,然后根据亲水 性氨基酸和疏水性氨基酸在折叠过程中表现出来的不同性质来预测蛋白质的折叠类型 粒度计算是对处理复杂信息的过程中提出的一种新的概念和计算范式,基于“粗粒 化 思想,以及在高等生物中染色体某区域巩t 的含量,将毛c ,& t 四种碱基分为弱氢键 与强氢键类,即、7 l ,= a t ) ,s - c ,g ) ,而编码氨基酸的三联子均含有a 或t ( 同时也均含有c 或g ) ,令同义密码子中均含有a 的氨基酸集合为o = a ,i ,l ,m ,p , v , y , t , s ,q ,n ,q h ,k ,r ,d ,e ) , 令同义密码子中全不含a 的氨基酸集合为鲈 f ,c ,w 我们做如下定义: 定义2 i i 设一条给定的蛋白质序列为g = - g 1 9 2 踟,定义9 i ( g ) = 叩l ( 9 1 ) ( p t ( 9 2 ) q i ( 曲,这里 吼( 岛) 2 o ,1 , 瞻f g j ,仨仃o ( 2 1 1 ) 则我们可以得到一条相应的( o ,1 ) 序列q i ( g ) ,这时我们称它为a 特征序列 同理我们令同义密码子中存在含三联子t 的氨基酸集合为俨 a ,f , i ,l ,m ,p , v , w , y , t , s , n ,g c ,h ,r ,d ) ,而同义密码子三联子全不含t 的氨基酸集合为兰= q ,k e ) 类似于定义 2 i i ,我们定义( p 2 ( g ) - - q ) 2 ( 9 1 ) q 2 ( 9 2 ) q 2 ( 踟) ,这里 2 ( 岛) 5 l o ,1 , 澹j ,e 盛t f ( 2 1 2 ) 2 ( 岛) 5 l o ,澹,盛f ( 2 1 2 ) 同样可以得到一条相应的( 0 ,1 ) 序列q 2 ( g ) 我们称这- - ( 0 ,1 ) 序列为弘特征序列 类似的我们令同义密码子中存在含a 且含t 三联子的的氨基酸集合为o x = i ,l ,m ,v x t , s ,n ,h ,d ) ,而不同时含a 和t 的氨基酸集合为盟= p ,g a ,f , w , c ,r ,q ,k ,e ) 类似于定义 2 i i ,同理我 门令9 3 ( g ) - - q 0 3 ( g l 砷3 ( 9 2 ) p 3 ( 踟) ,其中 m 3 ( 岛) = i 。1 , ,弦f g j ,仨e 研o r ( 2 1 3 ) 同样我们得到一条相应的( o ,1 ) 序列q 3 ( g ) ,我们称它为蛋白质序列g 的仉特征序列f 5 】 下面我们对给出的蛋白质序列的3 种( o ,1 ) 特征序列定义高度函数h ( p ) = q p ,其中p 为序列长度,q 为l 出现个数,取hk 度去截断序列,我们取每个片段长度函数为h ( 【n l ( 】) , h ( 2 n k ) ,h ( 【n 】) ,这里【i 哟表示不大于【i l i 【】的最大正整数,这样得到3 k 元数组u = (,t:,t:,i三,i:兰,t:。,|jt:;) 2 2 基因序列的比对及图谱表示方法 早期的序列比对方法是全局的比对方法,但由于蛋白质的模块性质或者外显子的交 换而产生了新的蛋白质,因此局部比对方法似乎是更加合理我们通常用打分矩阵来对 基因序列进行两两比对首先令两条基因序列分别作为矩阵的两维,矩阵点则是矩阵两 维上对应两个残基的相似性分数,很明显分数越高两个残基的相似性越高反之,则越 6 第二章基本知识和序列比对方法 低因此,序列比对问题变成在矩阵里寻找最佳比对路径【l 】 下面我将简单介绍一下基因序列的比对算法:在这里我只介绍d n a 序列的比对算 法,而对于蛋白质序列的比对算法则与之相似 1 、d n a 序列比对 对于一条d n a 序列,我们可以把它看成是一个由n = 彳,c ,g ,r 四个字母组成的长 链在进行序列比对的时候,我们首先把这四个字母扩充为包含五个字母的字母表 n = a ,c ,g ,t ,一 ,这里的横线表示一个空的元素,其表示插入一个空格或删除一个字 母然后我们在这个扩充的字母表上定义一个罚分函数,记为j ( 口,6 ) 此函数满足三个 性质:非负性,对称性和三角不等式设w 。= a l 口:4 。,w := b i b :b 。是两条不同的 d n a 序列,长度分别为刀和朋按照上面的扩充方法,我们可以将上面的两条序列扩充 ,| i i , 为长度相同的两条d n a 序列“和以,且它们的长度为这时d ( w :,诚) l = d ( 口:,6 :) , i - i 其中d ( w :,址j 表示两个序列之间的罚分函数,w := 口& 口0 ,以= 6 :砖瓦 2 、压缩矩阵的不变量法 压缩矩阵最早是由r a n d i c 等人提出的,其来源于计算化学中的化学指标它的基本 思想首先构造一个合适的矩阵来表示这个序列,显然序列之间的比较就自然而然的转化 为矩阵之间的比较,而且如果此矩阵是一个数值矩阵,那么我们就可以选择一个适当的 不变量,进而把矩阵之间的比较转化为不变量之间的比较【l 】如d n a 序列的普通压缩矩 阵型,即是将d n a 序列中的四个核苷酸基 彳,c , g ,t 按行与列构成一个4 x 4 矩阵计算 1 6 种核酸基对x y ( 这里x ,l ,代表a ,c ,g ,t 中的一种) 的总数来进行序列的比较,而且 这一方法在很多文章中得到广泛的使用 3 、其它的d n a 序列的相似性比较方法 除了用上述的方法研究d n a 序列的相似性外,还有其他的一些做法。我们可以参 见n a n d ) ,【m 1 2 】g u o 1 3 】和r a n d i c 1 4 j 上述的序列比对的方法都给出了d n a 序列和蛋白质序列相似性的量的分析,但随 着研究的逐渐深入,大量的学者探索用更直观的方法来研究d n a 序列和蛋白质序列的 相似性,通过观察d n a 序列和蛋白质序列的图形以及计算其相似度来综合分析序列间 的相似性,目前常用的图谱表达方法有c g r 方法、4 - l g r 方法等,其具体方法如下: 4 、d n a 序列的c g r 方法 混沌游走方法 6 - s l ( c h a o sg a m er e p r e s e n t a t i o n 。简称c g r ) 是由j e f f r e y 于1 9 9 0 年提出 的,其是处理d n a 序列的一种非常重要的绘图工具,其是利用c g r 中的迭代思想将所 对应的d n a 序列中的元素映射到一个连续的( 01 ) ( 01 ) 平面上得到相应序列的 c g r 图。下面将给出c g r 图型的具体做法及比对原理 首先我们先将d n a 序列中的四个碱基分别定义为a = ( o ,o ) ;c = ( o 1 ) ;g = ( 1 ,1 ) ; t = 5 0 ) ,再由迭代公式: c g r ,暑c g r ,。l o 5 卜i g ,)( 2 2 1 ) 7 江甫大学i 咦士学位论文 其中c o & = 【o 5 ,0 5 ) ,f _ 1 2 ,n ,n 为d n a 序列的长度,g ,为d n a 序列中第f 个碱基 所对应的坐标,那么由序列所得到的c g r 图显然落在( 01 ) ( o1 ) 区间上而且在 c g r 中,d n a 序列中的点被转换成坐标形式如:如= x i ,z ) ,巳= ,y a 我们定义: 日伍,】,) 。喜 蛾,昂) , 纯,晶) = :2 ( 2 2 2 ) 其中x ,】,为d n a 序列的数字表示,晶分别为两条序列上第f 个位置所对应的坐 标c g r 图如图2 1 所示,文中我们给出了f i o 家族中p 1 4 7 6 8 的编码区的c g r 图 图2 1 序列p 1 4 7 6 8 编码区基因的总共1 8 3 6 个碱基的混沌游走图 f i g 2 - 1c h a o sg a m er e p r e s e n t a t i o no f t h ef u l lp 1 4 7 6 8s e q u e n c e ,t o t a l i n g1 8 3 6p a i r so f b a s e s 5 、蛋白质序列的c g r 方法 同1 9 9 0 年j e f f r e y 提出了d n a 序列的c g r 方法相刨6 1 ,人们给出了基于经典h p 模型的蛋白质序列的c g r 方法【9 j ,即对于一条给定长度为万的蛋白质序列s = j 。s :s 。, 其中岛为2 0 种氨基酸中的一种定义: o 。谚s t i s n o n p o l a r :扯篓文i sn e g - 即竺 ( 2 2 3 ) 2 12 ,矿 s f 如 绷c p d 肠, ( 2 2 3 ) 1 3 ,矿毛i sp o s p o l a r 这样就得到了序列x = 毛屯,其中而 0 , 1 ,2 ,3 ) 然后,依据相似性定义来分析 蛋白质的结构与功能,这就是蛋白质序列分析的c g r 方法用文献 6 】中定义d n a 序列 的c g r 的方法在【0 ,1 】【0 ,1 】区间上定义序列x 的c g r , 如公式( 2 2 4 ) 所示: 鼽= p 卜i + 0 5 ( 毛一p 卜1 ) ( 2 2 4 ) 其中p 。= ( o 5 ,0 5 ) ,正方形的四个顶点( o 0 ) 、( o , 1 ) 、( 1 ,1 ) 和( 1 ,0 ) 分别对应于序列x 中的 0 、l 、2 和3 c g r 中的第一个点为风点与序列x 的第1 个数相应坐标的中点,第j 个 点为c g r 中的第j 1 个点和序列x 的第j 个数相应坐标的中点,依次进行下去,我 们就得到了基于经典l i p 模型下的蛋白质序列的c g r 6 、d n a 序列的4 - l g r 法 m = a t a 2 a 。为一条长度为刀的d n a 序列,我们作如下定义: f y ,= 1 , c _ ,y ,= ;:三妻 【y ,= 4 , a j i sa a ,扫c q西g ( 2 2 5 ) a l i s t 其中2i ,i = l ,2 ,以,拧为序列的长度由定义可得如下图型:图2 2 为我们给出的 f 1 0 家族中0 5 9 8 5 9 的4 - l g r 图,如下所示: 图2 - 2 d n a 序列0 5 9 8 5 9 的4 - l g r 图 。 f i g 2 - 24 - l g ro fd n a s e q u e n c e0 5 9 8 5 9 其序列的比对原理如下所述:由于在4 - l g r 方法中,d n a 序列的字母表示被转换成坐标 形式如:= ( f ,) ,昂= ( f ,y ,) ,我们作如下定义: 伍,r ) = j i l 帆, ) ,j i 帆,厶) : :x ,j , ( 2 2 6 ) 其中x ,】,为d n a 序列的数字表示,r 分别为两条序列上第f 个位置所对应晶坐 i 一 标 7 、基于经典h p 模型的蛋白质序列的4 - l g r 法 类似于m i l a nr a n d i c 提出d n a 序列的4 - l g r l 7 1 表达方法我们给出蛋白质序列的 f y f = 0 , = 船 i 【y l = 3 , 其中而= f ,t = 1 , 2 ,刀,刀为序列的长度 9 n o b 。p o l a r n e g p o l a r 堋c 一即,口, ( 2 2 7 ) p o s 。p o l a r 矿矿扩矿 坫 坫 坫 碍 所毋厮所 扩矿扩矿 1 0 第三章基于矩阵图谱表达法的蛋白质序列的相似性分析 第三章基于矩阵图谱表达法的蛋白质序列的相似性分析 3 1 两木聚糖酶家族蛋白质序列的收集及处理 对两木聚糖酶家族的蛋白质序列进行分析,首先我们必须保证所用到的蛋白质序列 的正确性和完整性,同时保证蛋白质序列的重复率必须尽可能的降到最低s w i s s p r o t 蛋 白质序列数据库符合这一标准( h t t p :w w w e x p a s y o r g ) ,因为这一数据库是通过专家人工 认读的,此数据库具有如下三个特点:首先,对于记录的每条蛋白质序列都给出了详细 的注释,如描述了该蛋白质的功能、蛋白质中各个结构域的空间结构位置、蛋白质在翻 译完成后所进行的修饰位点和修饰情况其次,专家们确保了这个数据库具有较低的冗 余性,而在其它的数据库中,即使对于同一条蛋白质序列,由于报道的不同也可能具有 不同的登录号,而在这个数据库中其维护人员则尽可能的将相同的蛋白质序列融合在一 起,即使在不同的报道中存在不一致或矛盾的地方它也会在注释的地方给出明确的说明。 这样便给蛋白质序列的分析带来了极大的方便最后,为了让人们使用的方便,它保持 了同其它数据库的高度链接,同时可以让人们方便的访问其它的基因数据库,进而获得 同一条蛋白质的其它相关信息和资料基于这个数据库有如上优势,本文所用的所有的 数据都是从s w i s s p r o t 数据库中选取的【”】本文选取了登陆号为p 3 3 5 5 7 、p 5 5 3 2 9 、 a a a 2 3 6 0 1 和p 4 5 7 0 5 四条蛋白质序列用来比对蛋白质序列的相似性【幡1 9 】。其中p 3 3 5 5 7 和p 5 5 3 2 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论