(运筹学与控制论专业论文)禽流感序列分析新方法.pdf_第1页
(运筹学与控制论专业论文)禽流感序列分析新方法.pdf_第2页
(运筹学与控制论专业论文)禽流感序列分析新方法.pdf_第3页
(运筹学与控制论专业论文)禽流感序列分析新方法.pdf_第4页
(运筹学与控制论专业论文)禽流感序列分析新方法.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(运筹学与控制论专业论文)禽流感序列分析新方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 q l l l l l l l l l l l q li l ll li i iil liiiiii y 17 9 2 6 9 1 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均己在文中以明确方式标明。本声明 的法律责任由本人承担。 “ 论文作者签名:交) 彦盘筮日期:垃。生,2 2 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 , ( 保密论文在解密后应遵守此规定) 论文作者签名:塞尘耋盘幺导师签名: i 山东大学硕士学位论文 目录 目录i c o n 删t s 表格目录v 插图目录。 摘要 a i b t r a c t 1 i f i i l 第1 章绪论一。一一一2 1 1 禽流感的概况2 1 2 生物信息学4 1 2 1 生物信息学简介4 1 2 2 发展现状5 第2 章禽流感病毒d n a 序列的矩阵表示 7 2 1 导言7 2 2 构造禽流感病毒d n a 序列的矩阵表示:7 2 3 禽流感病毒d n a 序列的数值特征8 2 3 1 禽流感病毒d n a 序列新的矩阵表示下的不变量段9 2 3 2 禽流感病毒d n a 序列新的矩阵表示下的不变量仉9 2 4 不同禽流感病毒d n a 序列间的欧氏距离矩阵9 , 第3 章禽流感病毒蛋白质序列的曲线映射 1 1 3 1 导言1 l 3 2 构造禽流感病毒蛋白质序列的曲线映射1 1 3 2 1 四个字母的氨基酸模型1 l 3 2 2 构造曲线映射1 2 山东大学硕士学位论文 3 3 禽流感病毒蛋白质序列的数值特征1 2 3 4 不同禽流感病毒蛋白质序列间的欧氏距离矩阵1 4 第4 章禽流感病毒的相似性分析 1 5 4 1 导言1 5 4 2 禽流感病毒亚型h 5 n 1 的d n a 序列相似性分析1 5 4 2 1 数据集1 5 4 2 28 0 种h 5 n 1 病毒的相似性分析1 7 山东大学硕士学位论文 c o n t e n t s ,i f o r 鹏c o n t e n t s v f i g u r ec o n t e n t s 地t n c t a b s t r a c ti ne n g l i s h p r e f a c e 。一。一。一。1 o n a p t e r1i n t r o d u c t i o n 。”2 1 1o v e r v i e wo f a i v s 2 1 2b i o n i n f o r r m t i e s 4 1 2 1b r i e fi n t r o d u c t i o no nb i o n i n f o r r m t i c s 一:4 1 2 2s t a t u so f d e v e l o p m e n t 5 c h a p t e r2t h em a t r i xr e p r e s e n t a t i o no fd n as e q u e n c e s t oa l v s7 2 1i n t r o d u c t i o n 7 2 2c o n t r a c tr m t r i c e so f d n as e q u e n c e st oa i v s 7 2 3i n v a r i a n t so f d n as e q u e n c e st o a i v s 8 2 3 1l n v a r i a n t # o f d n as e q u e n c e st oa w s 9 2 3 2i n v a r i a n tr k o f d n as e q u e n c e st o a i v s 9 2 4e u c l i d e a nd i s t a n c er m t r i xo f d i f f e r e n t d n as e q u e n c e so f a w s 9 c h a p t e r3t h ec u r v em a p p i n go f p r o t e i ns e q u e n c e s t oa l v s 1 1 3 1i n t r o d u c t i o n l l 3 2c o n t r a c tt h ec u r v et r a p p i n go f p r o t e i ns e q u e n c e st oa w s 1 1 3 2 1t h ef o u r - l e t t e rm o d e lo f a m i n oa c i d s 7 11 3 2 2c o n t r a c tt h ec l h v em a p p i n g 1 2 3 3i n v a r i a n t so f p r o t e i ns e q u e n c e st o a i r s 1 2 3 4e u c l i d e a nd i s t a n c em a t r i xo f d i f f e r e n t p r o t e i ns e q u e n c e so f a i v s 1 4 o m p t e r4t h es i n 幢l a r i t ya n a l y s i so fa i v s 。1 5 4 1i n t r o d u c t i o n 1 5 4 2t h es i m i l a r i t ya n a 舾西t od n as e q u e n c e so f h 5 n 1a i v s 1 5 h i - _ _ _ _ _ _ _ _ _ - _ _ _ _ _ - 一 i i j 东大学硕士学位论文 4 2 1d a t a s e t s :l ! ; 4 2 2t h es i m i l a r i t ya r i a l y s i st o8 0d i f f e r e n th 5 n 1s p e c i e s 1 7 4 3t h es i m i l a r i t ya n a l y s i st op r o t e i ns e q u e n c e so f h 5 n 1a i v s 2 2 4 3 1d a t a s e t s 2 2 4 3 2t h es i m i l a r i t ya r i a l y s i st o1 2 3d i f f e r e n th 5 n1s p e c i e s 2 5 c h a p t e r5c o n c lu s i o na n dp r o s p e c t 。3 3 5 1c o n c l u s i o n ,:i :; 5 2p r o s p e c t 3 4 r e f e r e n c e s 。2 1 5 a e k n o w l e d g e m e n t 3 1 8 p u b l i s h e dp a p e r sd u r i n gg r a d u a t es t u d y 3 9 i v 山东人学硕士学位论文 表格目录 4 1 禽流感病毒亚型h 5 n 1 和人流感病毒以及它们的来源1 6 4 21 2 3 种禽流感病毒亚型h 5 n 1 2 2 v 山东大学硕士学位论文 v i 插图目录 4 1 基于矩阵刃的系统进化树1 9 4 2 基于矩阵勿d 的系统进化树2 0 4 31 2 3 种h 5 n 1 v s 蛋白质片段h a 、n a 、n p 构造的系统进化树2 6 4 41 2 3 种h 5 n 1 v s 蛋白质序列构造的系统进化树2 9 山东大学硕士学位论文 禽流感序列分析新方法 刘彦秋 山东大学数学学院 运筹学与控制论 山东威海2 6 4 2 0 0 摘要 生物序列是由较小的单元组成的无分枝的线性聚合体大分子。对于d n a , 这些单元是a ( 腺嘌呤) 、c ( 胞嘧啶) 、g ( 鸟嘌呤) 和t ( 胸腺嘧啶) 这4 种 核苷酸残基;而对于r n a ,这些单元是a 、c 、g 和u ( 尿嘧啶) 这4 种核苷酸 残基。因此,组合学和统计学的工具和方法可以在分析禽流感病毒序列相似性上 发挥很大的作用。同样我们可以利用几何和代数的方法来研究禽流感病毒序列。 本文的主要工作包括以下几个方面: 在第一章我们介绍了禽流感的概况和生物信息学。大多数后面要用到的术语 和基本概念都在这里做了简要介绍。 在第二章我们考虑了h 5 n 1 病毒d n a 序列的一种新的矩阵表示,并讨论了 其数值特征。 在第三章我们考虑了h 5 n i 病毒蛋白质序列的一种新的曲线映射,也讨论了 其数值特征。 在第四章我们根据d n a 序列的矩阵表示和蛋白质序列的曲线映射计算了新 的不变量,并且基于这些不变量,我们分别计算出了8 0 种h 5 n 1 的d n a 序列的 h a 片段和1 2 3 种h 5 n 1 蛋白质序列之间的相似矩阵,基于相似矩阵又进一步构 建出了系统进化树,最后分析了它们各自之间的相似性。 在第五章我们做出了总结和展望。 关键词:d n a 序列;蛋白质序列;i t s n l ;矩阵不变量;进化树;相似性。 i 山东大学硕上学位论文 n e wm e t h o d so f a n a l y z i n ga v i a ni n f l u e n z av i r u s s e q u e n c e s l i u ,y a n q i u s c h o o lo fm a t h e r m t i c s ,s h a n d o n gu n i v e r s i t y w e i h ai2 6 4 2 0 0 ,s h a n d o n g a b s tr a c t t h ep r i m a r ys t r u c t u r e so fd n a ( d e o x y r i b o n u c l e i c a c i d ) a n dr n a ( r i b o n u c l e i c a c i d ) a r ea l lr n a c r o m o l e c u l e sw h i c ha r eu n b r a n c h e dp o l y m e r sb u i l tu pf r o ms r m l l e r u n i t s i nt h ec a s eo fd n a ,t h e s eu n i t sa r et h ef o u rn u c l e o ti d er e s i du e s a ( a d e n i n e ) ,c ( c y t o s i n e ) ,g ( g u a n i n e ) a n dt ( t h y m i n e ) ,w h i l ef o rr n a , t h eu n i t sa r et h ef o u r n u c l e o t i d er e s i du e s 八c ,ga n du ( u r a c i l ) t h u s ,ad n a ( r n a ) s e q u e n c ec a nb e i d e n t i f i e dw i t haw o r do v e rt h ea l p h a b e t a ,c ,g ,t ) ,a n da p r o t e i ns e q u e n c ec a n b et a k e na sas t r i n go v e rt w e n t yl e t t e r s s ot h et o o l sa n dm e t h o d si nc o m b i n a t o r i c sa n d s t a t i s t i c sw i l lp l a yi m p o r t a n tm l e si ns t u d y i n gt h es i m i h r i t yo fa v i a ni n f l u e n mv i r u s s e q u e n c e s a l s o ,w ec a nu s em e t h o do fg e o m e t r ya n da l g e b r at os t u d yt h ea i v s t h e 盥i nc o n t e n t sa sl i s t e da sf o j l o w s : i n c h a p t e r1 ,w ei n t r o d u c et h eo v e r v i e w o fa v i a ni n f l u e n mv i r u sa n d b i o i n f o r r n a t i c s m o s to f t h et e r r r aa n dc o n c e p t su s e di nt h i sp a p e ra r ee x p l a i n e db r i e f l y h e r e i nc h a p t e r2 ,w ec o n s i d e ran e wm a t r i xr e p r e s e n t a t i o no fd n a s e q u e n c e st o h 5 n la n dt h e i rn u m e r i c a lc h a m c t e r i m t i o r l i nc h a p t e r3 ,w ec o n s i d e ran e wc u r v er m p p i n go fp r o t e i ns e q u e n c e st oh 5 n i a n dt h e i rn u r m r i c alc h a m c t e r i z a t i o n i nc h a p t e r4 ,b a s e do nt h em a t r i xr e p r e s e n t a t i o no fd n a s e q u e n c e s ,w ec a l c u h t e t l l en e wi n v a r i a n t b a s e do nt h en e wi n v a r i a n t , w ec a l c u h t et h es i m i h r i t ym a t r i xo f t h e l i 山东大学硕士学位论文 h as e g m e n to f8 0d i f f e r e n th 5 n1 s p e c i e s b a s e d o nt h el - l e wc u r v et r a p p i n go f p r o t e i ns e q u e n c e s ,w ea l s oc a l c u h t et h en e wi n v a r i a ma n dt h es i m i l a r i t yn , a t r i xo f12 3 d i f f e r e n th 5 n1 s p e c i e s b a s e do nt h e s es i m i l a r i t yr m t r i c e s ,w ec o n s t r u c tp h y l o g e n e t i c t r e e sr e s p e c t i v e l y , a n dw ea n a l y z ep h y l o g e n e t i cr e l a t i o m h i p so f t h e m i nc h a p t e r5 ,w eg i v et h ec o n c l u s i o na n dp r o s p e c t k e yw o r d s :d n as e q u e n c e s ,p r o t e i ns e q u e n c e s ,h 5 n1 ,t h ei n v a r i a n to fm a t r i x , p h y l o g e n e t i c t r e e ,s i m i l a r i t y i x 东大学硕士学位论文 - _ j 刖吾 伴随着环境的污染,各种疫病频繁发生,导致大量禽类死亡和人类感染的禽 流感就是其中最严重的疫病之一。 禽流感病毒( a v i a ni n f l u e n z av i r u s ,简称a i v ) 属于正粘病毒科,是具有包膜 和分节段的单链负股r n a 病毒,其核酶分为8 个独立的基因片段,共编码1 1 种蛋白,各片段长短不一,根据片段的大小分别以片段1 、2 、来命名,他 们依次编码病毒聚合酶复合体中的p a 、p b l 、p b 2 、p b l f 2 、血凝素( h a ) 、病 毒核衣壳蛋白( n p ) 、神经氨酸酶( n a ) 、基质蛋白( m 1 、m 2 ) 和非结构蛋白( n s l 、 n s 2 ) 。根据其表面血凝素( h a ) 和神经氨酸酶( n a ) 的抗原性差异,可以分为1 6 个h a 亚型和1 0 个n a 亚型,因此从理论上说共有1 6 0 种亚型组合,这也是禽 流感难以控制的重要原因【t 】,而近几年东南亚、中东、欧洲部分国家散发的人间 禽流感病例是新的感染人类的流感病毒亚型h 5 n 1 所致,2 0 0 8 - 2 0 0 9 年部分国家 又散发了新亚型h 1 n i 感染人类的病例,为此,防治禽流感迫在眉睫,这就需要 我们研究禽流感病毒的基因序列之间的进化关系,从而有针对性的预防和治疗禽 流感。 本文主要涉及h 5 n l 的d n a 序列的h a 片段和h 5 n 1 蛋白质序列的进化关 系分析。本文主要有以下几方面的成果: 1 、目前用于禽流感病毒序列的研究方法主要有:分离实验法、动态规划算 法、渐进算法及组合统计方法,这些方法都比较耗时、不够直观且不易于计算, 当新的亚型全世界流行时,无法很快得到有效的治疗和预防。为了避免这些缺陷, 我们给出了禽流感d n a 序列的矩阵表示和禽流感蛋白质序列的曲线映射。 2 、我们分别提出了便于计算的d n a 和蛋白质序列的描述符,这些描述符易 于相应序列的刻画和序列问的比较。 3 、用3 维向量作为我们提出的d n a 序列的描述符我们讨论了8 0 种h 5 n 1 的d n a 序列的h a 片段的相似性问题;用4 维向量作为我们提出的蛋白质序列 的描述符我们讨论了1 2 3 种h 5 n 1 蛋白质序列的相似性问题。 山东人学硕士学位论文 1 1 禽流感的概况 第1 章绪论 禽流感最早于1 8 7 8 年爆发于意大利,其后在英国、法国、德国等欧洲国家和 美国均有流行,造成巨大的经济损失,是世界养禽业的头号传染病。1 9 5 9 年科研 人员在苏格兰最早分离到高致病性的h 5 n l 禽流感病毒毒株,该毒株的出现堪称 养禽业的重大灾难,导致大量家禽死亡,至1 9 9 7 年3 月,这一病毒株再度在香港 鸡场引发流感,导致7 0 0 0 多只鸡死亡,同年5 月至1 2 月,香港报道有1 8 人感染h 5 n 1 禽流感,其中有6 人死亡,这是2 0 0 3 年以前禽流感病毒感染人类发病并导致死亡 的最为严重的一次。尽管全世界禽流感病毒感染人的疫情,基本都局限于h 5 n i 、 h 7 n 7 和h 9 n 2 毒株,但2 0 0 9 年初爆发了h 1 n 1 直接感染人的病例,所以禽流感对 人类的威胁已经亮起了红灯【2 - 3 1 。 2 0 0 3 年底至2 0 0 4 年初韩国、泰国、日本、越南和我国相继爆发了禽流感, 越南、泰国出现了禽流感病毒感染人并致死的病例。经实验检测证实,此次流行 的禽流感病毒为h 5 n i 变异株,目前,从巫洲禽类分离出的h 5 n i 病毒株变异迅 速,在鸟类中出现大范围流行,大大增加了人类暴露的可能性,并且随着感染人 数增多,会增加禽和人流感病毒株的基因重组机会【4 l 。由于流感病毒抗原的特异 性,其变异株与疫苗的预防效果密切关联。因此,对流感病毒变异的研究一直是 国内外学者关注的热门课题【5 1 。随着分子生物学技术的发展,人们早已开始从分 子水平探讨流感病毒的变异机制及其流行规律,人类流感与动物流感的关系等方 面的研究均己取得了重大进展。h 5 n 1 是a 型流感病毒的一个亚型,是近年来引 起禽流感爆发的高致病性禽流感病毒。h 5 n i 流感病毒的分子生物学研究包括结 合基因组结构对毒力判定的研究、病毒在不同宿主中的传播变异情况和流感病毒 疫苗的研究等,都是目前国内外学者关注的课题和研究方向。 禽流感病毒基因组分为8 个不同的片段,共编码1 1 种蛋白,在病毒增值过程 中很容易发生基因重组,使流感病毒的抗原性和致病性发生变异。病毒的主要蛋 白及其功能如下: 1 、血凝素( h e m a g g l u t i n i r l :h a 由片段4 编码,籼的主要表面糖蛋白, 2 山东大学硕士学位论文 可凝集多种动物的红细胞。研究表明,h a 发挥作用前,一般经过n 端信号肽的 切除及h a l 和 l 心两个片段的产生过程,h a l 可与宿主细胞上的受体相结合,使 病毒附着于易感细胞;h a 2 介导病毒颗粒与宿主细胞膜的融合。h a 具有诱导机 体产生中和抗体的能力,即对机体能产生免疫保护作用。目前,基于h a 的各种 流感病毒基因工程重组疫苗的研究已成为一个热点【l ,2 】- 2 、神经氨酸酶( n e t r a m i n i d a s e ,n a ) :n a 由片段6 编码,是构成病毒囊膜纤 突的另一个重要蛋白。其作用是水解细胞表面特异性糖蛋白末端的唾液酸残基, 将病毒颗粒从细胞受体上释放出来,有利于子代病毒离开细胞进一步扩散传播。 此外n a 对其周围h a 的切割能力也有影响,从而在一定程度上影响病毒致病性的 高低【6 】。 3 、核蛋白( n u c l e o p r o t e i n , n p ) :n p 由片段5 编码,是构成a i v 核衣壳的主要 成份,它具有型特异性,是流感病毒划分甲、乙、丙型的主要依据,主要决定宿 主范围,它还在病毒基因组的转录和复制中起作用。n p 还是细胞毒性t 淋巴细胞 ( c t l ) 的识别靶位【7 】,成为诱导机体免疫保护性的一个研究目标,但体外合成的n p 免疫动物,却只能产生微弱的抗感染能力。 4 、基质蛋i 兰1 ( m a t r i xp r o t e i n , m ) :m 由片段7 编码,片段7 有2 个o r f ,可转录 出2 个m r n a ,分别编译出蛋白m 1 、m 2 【8 】。 5 、非结构蛋白( n o n - s t r u c t u r a lp r o t e i n ,n s ) :n s 由片段8 编码,分别编译出两 种非结构蛋白n s l 和n s 2 ,它们大量存在于被感染细胞的胞核和胞浆内,因此可 以用非结构蛋白来区分免疫禽群和感染禽群。 6 、多聚蛋白酶p 蛋白( p o l y r m r a s e s ,p b l 、p b 2 和p 舢:p b l 、p b 2 和p a 分 别由片段1 、2 、3 编码。这3 种聚合酶在功能上也各有分工,p b l 是在病毒m r n a 合成起始后使之逐渐延长;p b 2 的作用是在病毒m r n a 转录的起始阶段识别并 一 结合在5 端l 型帽状结构的切割;p a 可能为一种激酶或者螺旋结构蛋白,其功 能至今不甚明了【5 】。 禽流感病毒的抗原性变异率最高的是h a ,其次是n a 9 1 。其中h a 大约有5 5 0 个氨基酸,是病毒表面主要糖蛋白之一,以三聚体形式存在于囊膜表面,在病毒 吸附、穿膜以及决定病毒的宿主特异性和致病力方面均起着关键的作用【- o 】。这两 种抗原的变异可独立发生,有时只涉及一个( h a 或n 鼬,有时两个同时变异。每 l i l 东大学硕士学位论文 个片段发生的自发点突变都可引起病毒抗原漂移,导致新的致病性不同的毒株出 现,因此禽流感病毒具有极高的变异性。由病毒的遗传变异而产生的高致病性毒 株及其流行规律是禽流感病毒的研究热点之一【9 1 。 1 2 生物信息学 1 2 1生物信息学简介 二十一世纪,生命科学、信息科学都处于科学技术的主导地位。随着人类基 因组序列测序的最终完成,人类进入了后基因组时代,这是人类历史上一个伟大 的成就,也是基因组研究的转折点和关键时刻,这意味着人类基因组的研究将全 面进入信息提取和数据分析的阶段,即生物信息学发挥重要作用的阶段。 生物信息学( b i o i n f o r r m t i c s ) 以计算机、网络为工具,采用数学和信息科学的 理论、方法和技术去研究生物大分子,其研究重点主要在核酸和蛋白质两个方面, 包括它们的序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为出 发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在d n a 序列中的基 因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和 功能的关系进行药物分子设计。与生物信息学相关的概念还有计算分子生物学 ( c o m p u t a t i o n a lm o l e c u l a rb i o l o g y ) ,计算分子生物学主要研究分析方法,开发分 析工具,促进生物分子数据的分析【l l 】。 生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的 一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进 而达到揭示数据所蕴含的生物学意义的目的。 广义地说,生物信息学从事对基因组相关生物信息的获取、加工、储存、分 配、,分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服 务,也就是管理好这些数据;另一个是从中发现新的规律,也就是用好这些数据。 具体地说,生物信息学是把基因组d n a 序列信息分析作为源头,找到基因 组序列中代表蛋白质和r n a 基因的编码区;同时,阐明基因组中大量存在的非 编码区的信息实质,破译隐藏在d n a 序列中的遗传语言规律;在此基础上,归 4 山东大学硕上学位论文 纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而 认识代谢、发育、分化、进化的规律。 1 2 2 发展现状 一 生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关 基础学科起到巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生 巨大的影响,甚至引发新的产业革命。 而在生物信息学中,对序列数据进行相似性分析,是一种基本而又重要的信 息处理方法,d n a 或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的 相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结 构,结构决定功能。研究序列相似性的目的之一是通过相似的序列得到相似的结 构或相似的功能;另一个目的是通过序列的相似性,判别序列之间的同源性,推 测序列之间的进化关系。序列相似性分析对于发现生物序列中的功能、结构和进 化的信息具有非常重要的意义,它不仅可以横向分析整条序列,还可以纵向研究 蛋白的进化关系。因此,序列相似性分析是后基因时代一种重要的研究生物信息 学的工具。所以本论文就是利用序列数据对禽流感病毒的相似性问题做了详细分 析。 经典的生物序列的相似性分析主要是通过生物序列的比对来实现的,传统的 序列比对的方法是基于计算机科学的字符串比较,遗憾的是在字符串比较算法中 空位罚分始终缺乏理论依据,因而不免带有主观色彩。而且虽然当前d n a 的序 列的比对问题已经推广到r n a 序列、蛋白质序列和多重序列的比对问题,然而 对于两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。为避免 它的缺点,r a n d i c 等人【1 2 ,3 】在基因序列的图形表达方法上提出了基于矩阵不变量 的方法来比较生物序列。这种方法来源于计算化学中的化学指标计算。它的基本 思想是先构造一个适当的矩阵来表示这个序列,这样序列之间的比较就转化为矩 阵之间的比较,而且如果矩阵是数值矩阵就可以选择一个适当的不变量,从而把 矩阵之间的比较进而转化为比较这些不变量。 利用矩阵不变量来刻画和比较生物序列的优势在于不变量的刻画和比较非 常简单,两个生物序列的相似性分析被转换成了生物序列所对应的数学描述符的 5 山东大学硕士学位论文 分析。然而已有的方法在用不变量来刻画和比较生物序列的同时会伴随某些结构 方面的信息丢失,并且计算繁琐,为了尽量避免这些缺点,本论文利用序列数据 给出两种新的方法来对禽流感病毒的相似性问题做了详细分析。 6 i | l 东大学硕士学位论文 2 1 导言 第2 章禽流感病毒d n a 序列的矩阵表示 d n a 序列的矩阵表示方法是最近发展的,且日益成熟,为了计算的简便和 使用的方便,这章我们给出了禽流感病毒d n a 序列的一种分块稀疏矩阵表示。 2 2 构造禽流感病毒i ) n a 序列的矩阵表示 在d n a 序列的碱基和2 宰2 矩阵之间建立一个映射,我们就可以得到d n a 序列的一个矩阵表示。具体地讲,我们做下面这样的一个对应: ( 三0 ) 一彳( 三习_ 厂( 言三) 。g( 兰言) j f 这样我们就将一个d n a 序列转化为一个如下2 n * 2 n ( 刀为d n a 序列的长 度) 的分块矩阵膨乳: 蟛。 ; 哆: 0 0 : : m 。, ,在这里矩阵鸠况,的入口项中除了对角线入口项外都 为。,而膨,是碱基对应的2 木2 矩阵,即若第,个基为g 时,= ( 言三) 。 例如,c h i m p a n z e e 的d n a 序列的前6 个核苷酸为a a g c t t ,则它对应的 分块矩阵朋荔为: 7 山东大学硕士学位论文 在这里我们容易发现力岛,是一个稀疏的带状分块矩阵。 我们知道,d n a 的碱基可以有三种分类:弱氢键( 1 4 , t ) 强氢键( g f ) ; 氨基( 4c ) 酮基( e 丁) ;嘌呤( 4g ) 嘧啶( c ,) 【1 4 】。对应于这三种分类,我 们也有三种不同的表示,另两种分别为: 1 建立对应: ( 三o ) 专彳( 三斗f( 言三) _ g( 兰言) 专, 那么,我们得到矩阵必w 。 2 建立对应: ( 三0 ) 一彳( 三三) 。g( 言三 一f 那么,我们得到矩阵彬易。 2 3 禽流感病毒d n a 序列的数值特征 专7 在这部分,我们讨论禽流感d n a 序列的新的矩阵表示下的数值特征,以便 能对不同的d n a 序列进行数量刻画,这里我们用一些矩阵不变量作为序列的描 述符。我们知道与d n a 序列相关的矩阵的特征值是一个重要的不变量,所以我 们选择特征值的两个简单组合作为序列的数值特征,他们的具体定义如下: 8 0 0 o o 0 0 o 0 0 0 l 0 o o o o o o o o o o o o 0 o 0 o 0 0 0 1 0 o 0 o o o o o o o o o o o o o o 0 o o 0 2 0 0 o o 0 o o o 0 o o o 2 o o 0 0 o o o o o 之o o o o o o 0 o o o 2 o o o 0 0 o 0 o o o 1 0 o 0 o o o o 0 o 0 l 0 0 o 0 0 o o 0 0 0 1 0 o 0 o 0 0 o o 0 o 1 n u n v n u n u n u n u n u n u n u o d 山东大学硕上学位论文 2 3 1 禽流感病毒d n a 序列新的矩阵表示下的不变量比 令丑,九,九。为矩阵必( 其中k = t g c , c g t , g c t ) 的特征值,则矩阵 必的能量【1 5 】定义如下: 2 疗 s ( m k ) = i 九,l = l 其中k = t g c , c g t , g c t 为了减少因d n a 的长度不同而引起的比较结果的变化,我们选择正规化不变量, 即比:兰坠q ( 其中刀为d n a 序列的长度) 作为序列的数值特征。 刀 2 3 2 禽流感病毒d n a 序列新的矩阵表示下的不变量壤 这里,我们定义一个新的变量如下: 1 5 i ( 必) = 厨其中k :赋觚鲫 同样我们选择正规化不变量,h i ,7 。:璺丝2 作为序列的数值特征。 由于矩阵必为稀疏的带状分块矩阵,所以这两个变量是极易计算的。 2 4 不同禽流感病毒d n a 序列间的欧氏距离矩阵 对于任一给定的禽流感d n a 序列,我们可以得到三个不同的矩阵表示 形& ,仫凹和励易,这样我们就可以得到相应的六个不同的不变量 “,乜,飓和7 7 。,叼:,7 ,。我们构造3 维向量如下: j “= ( 4 ,6 ,心)叩= 0 7 i ,7 7 2 , r 3 ) 这样每一个d n a 序列都对应两个三元素的向量,我们计算不同序列对应的向量 之间的欧氏距离如下: 乃= ( d j l l 1 ) 2 + ( p ,2 一p 以) 2 + ( j l l b p 声) 2 ,其中4 j = l ,2 ,n 乃= ( 7 7 ,1 一叼月) 2 + ( 叩,2 7 7 以) 2 + ( 叩8 一, 声) 2 ,其中= 1 ,2 , 向量之间距离越小,两个序列就越相似,反之不相似。 9 l li 东大学硕士学位论文 这样,我们就可以得到两个木的对称矩阵刃和肋( 他们的元素分别为 乃和刃) 来反映不同物种之间的进化距离。 山东大学硕士学位论文 3 1 导言 第3 章禽流感病毒蛋白质序列的曲线映射 生物化学中的主要角色是被称为蛋白质( p r o t e i n ) 和核酸( n u c l e i ca c i d ) 的 分子,粗略地说,蛋白质决定一个生物是什么和做什么,且生物体的大部分物质 是各种各样的蛋白质,他们既是工作部件,又是组成原料,从而蛋白质也是生命 科学研究的主要对象,所以本章我们给出利用蛋白质序列来研究禽流感病毒相似 性的方法。 3 2 构造禽流感病毒蛋白质序列的曲线映射 3 2 1 四个字母的氨基酸模型 蛋白质由2 0 种氨基酸组成,因此蛋白质序列可以看作是由2 0 个字母组成的 序列,而每个字母都必须考虑,这样要给蛋白质序列一个类似于d n a 序列图形 表示的可视化表示就非常困难。近来,生物学家们开始根据氨基酸的性质研究简 化氨基酸模型,简化后的模型比真实的易于研究。根据j o h n d b e r g e r a lj 6 l 的介绍, 我们把2 0 种氨基酸分成如下4 组: g r o u p i = u ,i ,己,m ,f ,p ,w ,y 、 g r o u p - h = ( ga t , c 召墨乃,) , g r o u p i i l = ( e 切, g r o u p 一v = ( e 兄仞。 我们用四个字母4 谚f 和石分别代表这4 组,这样一个蛋白质序列就可以 简化为由四个字母组成的序列,例如,禽流感病毒( a g o o s e g u a n g d o n g l 9 6 ( h 5 n 1 ) ) 的蛋白质序列的前3 6 个氨基酸m e r i k e l r d l m s q s r t r e i l t k t t f d h j 泓酲k k f 嘛。贰以电a e k 座k e a k e a a g gg k g k e 屯4 g k g g 能k a a a 4 k k g gg 毒: 示,这样就可以利用简化后的序列来考察原蛋白质序列的相似性。 山东大学硕士学位论文 3 2 2 构造曲线映射 :巨麓 任一给定的禽流感蛋白质序列,我f 门有一组与之对应的点集彤髟铱= 踢z z ,朋为蛋白质序列的长度) ,这组点集的几何中心一,p 和刀可以如 下计算: 1 2 i j i 东大学硕j 上学位论文 这样我们可以构造一个协方差矩阵伪:即: c m = lc m c m y y c m c m x x x , ic m 刀c m 三y c m 了j = 万i 川n ( ,一。) ( ,一。) c m 砂= 万i 川n ( ,一一。) ( r 一,。) = c m ,j c m j := 万i 羔( ,一。) ( z ,一z 。) = c m c m = 万i 兰。( e 一,。) ( 形一,。) c m ,:= 万1 川n ( 只一,。) ( z ,一z 。) = c m c m ? = = 万i 川n ( z ,一z 。) ( z ,一z 。) 这样上述6 个数字就给出了点集z ,杉,历( ,= 勿zz ,朋为蛋白质 序列的长度) 一个定量的描述。显然,矩阵c m 是一个3 * 3 实对称矩阵,它有3 个实特征值【2 z l 。这样,给定一个病毒蛋白质序列,我i 门可以得到一个几何中心和 三个特征值。而对于禽流感病毒,它具有八个基因片段:p b 2 、p b i 、p a 、h a 、 n p 、n a 、m p 、n s ,他f 门分别编码1 1 种蛋白质:p b i 、p b 2 、p a 、p b i f 2 、h a 、n p 、 n a 、m 1 、m 2 、n s l 、n s 2 。 基于以前的文献【2 3 ,2 4 ,2 5 1 和禽流感病毒亚型h 5 n i 各个蛋白质片段的性质,我 们只根据h 5 n l 的八个蛋白片段p b 2 、p b i 、p a 、h a 、n p 、n a 、m 1 、n s i 的 以髟 乙 i l l 居 居 卢 ,一。一。一 = i l l i y z 肜 肜 ”圪畋 伽叫聊 山东大学硕士学位论文 序列来研究小同的h 5 n 1i 司的进化规律。这样,对于一个h 5 n i 蛋白质序列就相 应的有8 个几何中心和2 4 个特征值。 我们用( j ,o ”,杉o ”,z o ,7 ) ( ,= 1 ,2 ,蟛,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论