(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf_第1页
(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf_第2页
(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf_第3页
(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf_第4页
(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(应用数学专业论文)蛋白质及rna结构比较与进化分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 人类基因组和蛋白质组计划的实施,给我们带来了大量的生物序列和分子结构 数据分析解释这些数据成为当前分子生物学的重要任务相对于生物序列,分子 结构对生物活性、功能的影响更明显、更直接,而对生物分子高级结构和功能的认 识却远远落后于对序列的认识因此,对分子结构的研究就尤为重要利用数学方 法和计算机方法对分子结构进行比较和分析是一个非常基础而又十分重要的课题 本文的主要工作包括以下两个部分:蛋白质结构分析比较与r n a 结构分析比 较 在第二章,我们利用偏序关系刻画蛋白质的网格折叠模型首先,将蛋白质折 叠简化为网格模型,将网格模型分解为若干个三步构象,将三步构象的折叠程度以 及其在整个网格模型中的位置作为偏序关系中的性质变量,定义广义h a s s e 矩阵, 通过比较蛋白质模型对应的广义h a s s e 矩阵间的距离来比较蛋白质模型的折叠程度 及他们之间的相似程度 利用物理学中的粗粒化思想,对蛋白质结构进行粗粒化描述,用蛋白质的拓扑 结构序列( t o p s 串) 描述蛋白质空间结构蛋白质结构比较对蛋白质功能的研究 以及蛋白质间的进化关系有重要意义在第三章,我们给出t o p s 串的l z 复杂度, 定义t o p s 串间距离,对3 6 个蛋白质的结构进化关系进行了分析 在第四章,我们根据蛋白质二级结构单元的3 个不同类型:q 螺旋,p 折叠,无 规则卷曲,给出了一种蛋白质二级结构序列的。三水平线”图形表示这种表示可 以用来分析比较蛋白质二级结构序列基于这种表示,我们可以用来分配蛋白质结 构型,可以比较蛋白质二级结构预测方法的优劣 在最后一章,我们给出了r n a 二级结构的一种三维图形表示,然后将图形表 示转化为l l 矩阵表示,将l l 矩阵的最大特征值作为结构不变量比较了9 种病 毒的r n a - 3 二级结构的相似性,并进一步分析其进化关系 关键词:蛋白质结构型;分子进化;l e m p e l - z i v 复杂度;距离矩阵;r n a 二级结构 大连理工大学博士学位论文 c o m p a r i s o na n de v o l u t i o na n a l y s eo fp r o t e i na n dr n a s t r u c t u r e s a b s t r a c t w i t ht h ed e v e l o p m e n to fh u m a ng e n o m ep r o j e c ta n dp r o t e o m i c sp r o j e c t ,i tb r i n g s ag r e a tl o to fb i o l o g i c a ls e q u e n c e sa n dm o l e c u l es t r u c t u r ed a t a t oa n a l y z ea n di n t e r - p r e tt h e s ed a t ab e c o m e sa ni m p o r t a n tt a s ko fm o l e c u l eb i o l o g y m o l e c u l es t r u c t u r e sg a v e m o r ee v i d e n te f f e c to nb i o l o g i c a la c t i v i t ya n df u n c t i o nt h a nb i o l o g i c a ls e q u e n c e s ,w h i l et h e u n d e r s t a n do fm o l e c u l es t r u c t u r e sa n df u n c t i o ni sl e s st h a nt h a to fb i o l o g i c a ls e q u e n c e s t h e r e f o r e ,i ti sav e r yb a s i ca n di m p o r t a n tt o p i ct oc o m p a r ea n da n a l y z em o l e c u l es t r u c - t u r e sb ym a t h e m a t i c a la n dc o m p u t a t i o n a lm e t h o d s t h em a i nc o n t e n t so ft h i st h e s i sa r el i s ta sf o l l o w s : i nc h a p t e r2 ,w ec o n s i d e rac h a r a c t e r i z a t i o no ft h ef o l d i n go f3 - dm o d e lp r o t e i n s b yt h ep a r t i a lo r d e rr e l a t i o n i nt h i sc h a r a c t e r i z a t i o n ,w ed e s c r i b et h ed i f f e r e n tk i n d so f 3 - s t e pp a t hc o n f o r m a t i o n t h e nc o n s t r u c ta na u g m e n t e dh a s s em a t r i xw h i c hr e f l e c t ss o m e p r o p e r t i e so ft h ep r o t e i nf o l d i n g t h i sm e t h o dc a nc h a r a c t e r i z et h ef o l d i n gd e g r e eo f3 - d m o d e lp r o t e i n sa n de v a l u a t et h es i m i l a r i t y d i v e r s i t yo ft h e s ef i v em o d e lp r o t e i n s t o p o l o g yo fp r o t e i ns t r u c t u r e ( t o p s ) a r es i m p l i f i e dd e s c r i p t i o n so fs t r u c t u r a lt o p o l - o g yo fp r o t e i n si n2 一d t h i si sac o a r s el e v e ld e s c r i p t i o no fp r o t e i ns t r u c t u r e s t h ec o r n - p a r i s o no fp r o t e i ns t r u c t u r e si sv e r yi m p o r t a n tf o rt h es t u d yo fp r o t e i nf u n c t i o n s ,a n df o r t h ea n a l y s i so fp o s s i b l ee v o l u t i o n a r yr e l a t i o n s h i p s i nc h a p t e r3 ,w eg i v el zc o m p l e x i t yo f t o p ss t r i n g s ,d e f i n et h ed i s t a n c e sb e t w e e nt h e m ,a n da n a l y z et h ep o s s i b l ee v o l u t i o n a r y r e l a t i o n s h i p so f3 6p r o t e i ns t r u c t u r e s i nc h a p t e r4 ,i nt e r m so ft h ec l a s s i f i c a t i o no ft h ep r o t e i ns e c o n d a r ys t r u c t u r e s ,i e ,a h e l i x ,e - s t r a n da n dc o i l ,w ep r o p o s e a2 - d t h r e eh o r i z o n t a ll i n e s ”g r a p h i c a lr e p r e s e n t a t i o n o fp r o t e i ns e c o n d a r ys t r u c t u r es e q u e n c e s t h er e p r e s e n t a t i o na r eu s e dt od i s p l a y , a n a l y z e , a n dc o m p a r et h es e c o n d a r ys t r u c t u r es e q u e n c e s b a s e do nt h i sr e p r e s e n t a t i o n ,w ea s s i g n t h es t r u c t u r a lc l a s st ot h ep r o t e i n ,a n dv e r i f yt h ea d v a n t a g eo rd i s a d v a n t a g eo ft h em e t h o d s o fp r e d i c t e dp r o t e i ns e c o n ds t r u c t u r e 。 i nt h el a s tc h a p t e r ,w ep r o p o s ea3 - dr e p r e s e n t a t i o no fr n a s e c o n d a r ys t r u c t u r e s b a s e do i lt h i sr e p r e s e n t a t i o n w eo u t l i n ea na p p r o a c hb yc o n s t r u c t i n ga3 - c o m p o n e n tv e c t o r i i i 蛋白质及r n a 结构比较与进化分析 w h o s ec o m p o n e n t sa r et h en o r m a l i z e dl e a d i n ge i g e n v a l u e so ft h el lm a t r i c e sa s s o c i a t e d w i t hr n a s e c o n d a r ys t r u c t u r e t h ee x a m i n a t i o no fs i m i l a r i t i e s d i s s i m i l a r i t i e sa m o n gt h e s e c o n d a r ys t r u c t u r ea tt h e3 - t e r m i n u so fd i f f e r e n tv i r u s e si l l u s t r a t e st h eu t i l i t yo ft h e a p p r o a c h k e y w o r d s :p r o t e i ns t r u c t u r a lc l a s s ;m o l e c u l a re v o l u t i o n ;l e m p e l - z i vc o m p l e x - i t y ;d i s t a n c em a t r i x ;r n as e c o n d a r ys t r u c t u r e i v 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 音 j :p0 作者签名: 大连理工大学博士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权 使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印 件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段 保存和汇编学位论文 作者签名:刻童焦作者签名:到重堡 导师签名:趁丝 型堕年月丛日 6 7 1 绪论 在1 9 世纪7 0 年代,还在现代数学发展的早期,恩格斯曾经对数学应用的状况 作过这样的估计:“在固体力学中是绝对的,在气体力学中是近似的,在流体力学中 已经比较困难了,在物理中多半是尝试性的和相对性的,在化学中是取简单的一次 方程式,在生物学中等于零”这是1 0 0 多年前的情况。一个多世纪后的今天,我们 可以看到恩格斯所描述的状况有了翻天覆地的改变。现在,随着人类基因组计划和 蛋白质组计划的实施和完成,生物数据迅猛增长,需要用数学去分析海量数据,如 何透过这些天文数字大小的数据去解读生命的奥妙,是对数学新的挑战 1 1生物信息学产生的背景 早在1 9 5 6 年,在美国田纳西州g a t l i n b u r g 召开的首次“生物学中的信息理论讨 论会”上,便产生了生物信息学的概念但是就生物信息学的发展而言,它还是一 门相当年轻的学科。自从1 9 9 0 年美国启动人类基因组计划以来,人与模式生物基 因组的测序工作进展极为迅速,迄今已完成了约4 0 多种生物的全基因组测序工作 到2 0 0 3 年4 月1 4 日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、 法、德、日和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学史上又 一个里程碑同时,在人类基因组计划进行过程中所积累起来的技术和经验也使得 其它生物基因组的测序工作可以完成得更加快捷 生命科学近年来获得突破性进展,随着基因组研究的进展与现代生物技术的发 展,积累了大量的生物数据,提供了揭开生命奥秘的数据基础生物数据种类丰富, 高通量、维数高,远远超出传统的分析方法的能力和速度,生物数据的分析成为生 物研究的瓶颈,其处理、挖掘、分析和理解日益迫切,而计算科学与生物科学的结 合正是解决这些问题的有效方法 d n a 和蛋白质是两类最重要的生物大分子。虽然在2 0 世纪中叶,人们已经发 现了d n a 双螺旋和蛋白质q 螺旋结构,但人们无法理解为什么大自然要选择螺旋 作为这些生物大分子的结构美国和意大利的一组科学家利用离散几何的方法,得 蛋白质及r n a 结构比较与进化分析 到了答案:在一个体积一定的容器里,能够容纳最长线条的形状是螺旋形 生物信息学大量的在分子生物学中采用建模分析,这样原来的实验性科学一生 物学正向着理论计算科学方面发展这在生物学的发展历史中,具有里程碑意义 在生物信息学诞生之前,大部分的生物学理论都是经过大量的实验获得的。生物信 息学诞生后,经由计算推理得到的结论可用来指导实验的进行,这样可以减少实验 的盲目性,大大缩短实验周期生物信息学是将生物学、数学、计算机科学、物理 学、化学等多学科融合在一起而形成的- - f l 新兴学科,以计算机为其主要工具,对 浩如烟海的核酸和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、 分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的 本质,破译隐藏在生物序列中的遗传语言,揭示人体生理和病理过程的分子基础, 为人类疾病的预测、诊断、预防和治疗提供最合理和有效的方法 1 2 生物信息学的研究对象 在分子和细胞生物学、神经科学、人类疾病基因发现、基因与蛋白质的表达与 功能研究、合理化药物设计、分子进化等方面,生物信息学都有广泛和深入的应 用现代生命科学使人们了解到,各种生命体虽然千差万别,但它们本质上都是以 d n a 、r n a 和蛋白质等大分子为骨架构成生物信息学的研究对象主要为这三种信 息载体,即d n a 、r n a 和蛋白质分子 1 2 1d n a d n a 是是遗传的主要物质基础,它的构件分子是脱氧核糖核苷酸核苷酸又由 核苷和磷酸组成,而核苷由碱基( b a s e ) 和戊糖组成其中,碱基包括嘧啶( p y r i m i d i n e ) 和嘌呤( p u r i n e ) ,其中,嘌呤碱包含腺嘌呤( a d e n i n e ,简记为a ) 和鸟嘌呤( g u a n i n e , 简记为g ) ,嘧啶碱包括胞嘧啶( c y t o s i n e ,简记为c ) 、胸腺嘧啶( t h y m i n e ,简记为 t ) d n a 的一级结构是由脱氧核糖核苷酸聚合而成的生物大分子。1 9 5 3 年,沃森和 克里克描述了d n a 的结构:由一对多核苷酸链相互盘绕组成双螺旋。d n a 二级结 构即双螺旋结构( d o u b l eh e l i xs t r u c t u r e ,核心特征是互补基对即a 与t 配对,g 与c 配对这种配对是由于氢键作用,原理是d n a 单链( 按从5 ,到3 7 的次序) 与 相反方向写的互补链配对 2 大连理工大学博士学位论文 1 2 2r n a r n a 与d n a 最重要的区别一是r n a 只有一条链,二是它的碱基组成与d n a 的不同,r n a 没有碱基t ( 胸腺嘧啶) ,而被碱基u ( 尿嘧啶) 代替在r n a 分子 中a 与u 配对,g 与c 配对构成r n a 二级结构r n a 按功能不同分为三类,即信 使r n a ( m r n a ) 、转运r n a ( t r n a ) 及核蛋白体r n a ( r r n a ) 。每三个碱基对应一种 氨基酸,因此其碱基排列顺序决定了由它指导合成的蛋白质多肽链的氨基酸排列顺 序 m r n a 携带了d n a 的遗传信息,在蛋白质合成中作为合成蛋白质的模板起传 递遗传信息的作用 t r n a 的二级结构最具特色,呈三叶草型。其主要功能部位有二个,一是氨基 酸臂的3 末端为一c c a - o h ,起特异结合氨基酸作用;二是有一个反密码环,环上 有反密码子,与m r n a 上的密码子反向互补,于是由t r n a 携带的氨基酸可被转运 到与密码子对应的部位,因此t r n a 具有携带转运氨基酸的作用t r n a 的三级结 构为倒“l ”型,是天然状态下的构象 r r n a 不单独存在,它与蛋白质结合为核蛋白体,分为大小亚基,存在于粗面 内质网与胞浆中。核蛋白体是蛋白质生物合成的场所 1 2 3 蛋白质 蛋白质( p r o t e i n ) 是生命的物质基础,没有蛋白质就没有生命。因此,它是与生 命及与各种形式的生命活动紧密联系在一起的物质机体中的每一个细胞和所有重 要组成部分都有蛋白质参与。蛋白质的种类很多,性质、功能各异,但都是由2 0 种 氨基酸按不同比例、不同次序组合而成的,并不断进行代谢与更新这2 0 种标准氨 基酸中文名称、英文三字母和单字母表示见表1 1 的第一、第三和第四列 1 3 生物信息学主要研究内容 生物信息学的研究内容非常丰富,例如序列比较、数据库建设、分子进化和比 较基因组学、计算机辅助基因识别、r n a 和蛋白质结构预测、遗传密码及其起源、 序列重叠群装配、蛋白质互作网络、基于结构的药物设计等等,都是生物信息学中 重要的研究领域下面对其中与本文的工作密切相关的部分作简要介绍 3 表1 1 :2 0 种标准氨基酸的密码子以及它们的三字母和单字母表示 氨基酸名称 密码子 英文缩写( 三字母) 英文缩写( 单字母) 甘氨酸( g t y a n e ) g g a ,g g g ,g g c ,g g t c l y g 丝氨酸( s e r i n e ) t c a ,t c g ,t c c ,t c c ,a g t ,a g c s e rs 丙氨酸( a l a n i n e ) g c a ,g c g ,g c c ,g c t a l a a 苏氨酸( t h r e o r i i n e ) a c a ,a c g ,a c t ,a c c t h r t 缬氨酸( v m i n e ) g t a ,g t g ,g t c ,g t t v a j v 天冬酰胺( a s p a v a g i n e ) a a t ,a a c a s hn 异亮氨酸( i s o l e u c i n e ) a t t ,a t c ,朋隗 i l ei 谷氨酰胺( g l u t a m i n e ) c a a ,c a g g i nq 亮氨酸( 1 e u d n e ) c t t ,c t c ,c t a ,c t g ,t t a ,t t g l e u l 酪氨酸( t y r o s i n e ) t a t ,t a c t y r y 苯丙氨酸( p h e n y l a l a n i n e ) 们盯,t t c p h ef 组氨酸( h i s t i d i n e ) c a t ,c a c h i sh 脯氨酸( p r o l i n e ) c c a ,c c g ,c c c ,c c t p r op 天冬氨酸( a s p a r t i ca c i d ) g a t ,g a c a s p d 甲硫氨酸( m e t h i o n i n e ) a t g m e tm 谷氨酸( g l u t 锄i ca c i d ) g a a ,g a g g l uz 色氨酸( t 嘣o p h a n ) t g g 哪 w 赖氨酸( 1 y s i n e ) a 从,a a g l y s 、 k 半膀氨酸( c y s t e i n e ) t g t ,t g c c y s c 精氨酸( a z g i n i n e ) c g a ,c g g ,c g t ,c g c ,a g a ,a g g a r g r 4 大连理工大学博士学位论文 1 3 1 序列比较 在生物信息学中,序列比较是最重要和最常用的原始操作,通过序列比较可以 发现生物序列中的功能、结构和进化的信息 1 】对生物序列的比较分析主要包括同 一序列内不同片段的比较,以及两个或多个序列的比较序列比较的主要目的是通 过序列之间的相似性阐明序列之间的同源关系、寻找序列的编码片段以及从已知序 列预测新序列的结构和功能。目前进行序列比较一般有两大类方法:比对方法和非 比对方法 比对( a l i g n m e n t ) 方法 比对( a l i g n m e n t ) 就是两条序列字符间简单的两两匹配。核苷酸或氨基酸序列真 正的比对可以反映出两条或多条同源序列( 拥有共同祖先的序列) 间的进化关系。 序列比对( a l i g n m e n t ) 方法主要是基于动态规划算法。后来,s m i t h w a t e r m a n 提 出改进算法 2 3 】。该方法缺点是计算量太大,打分函数又带有一定主观性,且因为 整个基因组序列非常长,利用传统方法来直接比对全基因组序列难度较大 非比对( a l i g n m e n t f r e e ) 方法 非比对比较算法是近几年发展非常迅速的一种序列分析方法,它有着明确的理 论体系,并且有很多成功应用于序列分析的实际例子 1 9 2 2 。相比较于传统的基于 动态规划策略的比对序列分析算法,非比对序列分析方法的最大优点就是大大增加 了计算效率。 非比对方法可以大致分成两类:一类是基于对序列字符串的统计,另一类是基 于对序列的图形表示 在第一类方法中,被统计的字符串的长度依方法的不同而不同,可以是长度为 2 的,也可以是长度为3 的,也可以是多种长度的一起考虑。这些不同长度的字 符串在序列中出现的次数频率被用来表征序列。b l a i s d e l l 在1 9 8 6 年提出的序列比较 方法就采取了这种思想他将l 元组的出现频率通过马尔可夫链的转移矩阵反映出 来,然后采用欧几里德距离的平方来量化序列之间的差异 2 】这类方法有很多,它 们的不同之处体现在向量和距离的定义,例如,权重距离、协方差距离、夹角距离等 距离度量f 3 - 5 一致认为,协方差距离的灵敏度比较高,其次是欧几里德距离除了 基于字符统计的非比对比较方法,还有基于信息论的比较方法,如,k u l l b a c k - l e i b l e r 偏差法 4 】、k o l m o g r o v 复杂度法 6 】、概率法【7 】等。 5 蛋白质及r n a 结构比较与进化分析 另一类非比对比较方法在最近十几年才发展起来的1 9 8 3 年e h a m o r i 和j r u s k i n 【8 】提出了d n a 序列图形表示的思想:将d n a 序列表示为一条平面或空间 中的曲线( h 曲线) 进行研究分析局部的序列变化可以通过局部放大图形进行研 究,总体的序列变化可以通过整个图形表现出来h a m o r i 利用h 曲线,发现病毒 中碱基含量变化特殊的区域除了生物序列的碱基或者氨基酸的分布情况,图形表 示还可以反映出更多的生物信息j e f f r e y 在1 9 9 0 年将混沌算法应用到对d n a 的分 析中,提出了d n a 序列的c g r 平面图形表示【9 】,它用图形模式来表示d n a 序 列的结构,不同的d n a 序列在图中显示出不同的模式d n a 序列的碱基分布在正 四边形中被表现出来【1 0 】我国张春霆院士也提出了一种d n a 几何图形表示一z 曲 线 1 1 ,1 2 】,进行了真核和原核基因识别、蛋白质结构的划分等多方面的工作他们 还利用z 曲线发现了d n a 测序当中的一个错误。m r a n d i c 等人基于图形表示,将 d n a 序列转化为矩阵等数学表示,进一步用矩阵不变量( 主要是最大特征值) 来研 究d n a 序列,取得了很好的结果这样一来,对批量的生物序列的比较就转移到 对图形数值特征的提取与比较。由于在从序列到不变量的转换过程中,很多隐含在 生物序列中的信息会被丢失,并且不变量的好坏也很影响比较的结果,所以很多学 者在寻求更有效的图形表示及其不变量上作了大量的工作,如n a n d y 、r a n d i c 、郭 晓峰【1 3 _ 1 7 ,其中大部分工作都采用了r a n d i c 等人的分析思路最近,李春等人提 出的范数不变量和矩阵的最大特征值等效,它的优点是计算复杂度不高,所以当序 列较长时,可以考虑用它来代替最大特征值【1 8 另外,对r n a 序列的比较可以说 是经历了从基本序列比较到基本序列和配对信息相结合比较的过程显然,用来比 较d n a 序列的方法也可以对r n a 序列进行分析,因为d n a 序列和r n a 序列都 是由四种碱基组成,在这四种碱基中,d n a 与r n a 只有一种是不同的,r n a 没有 碱基t ,而被碱基u 代替 近年来,进行非比对算法的研究者很多,因为这类方法的时间复杂度相对较低, 而且发展相对不完善 1 3 2 基因识别 基因识别、基因预测和基因发现是几个近似的概念最原始的定义是指预测 d n a 序列中编码蛋白质的那部分片断,即外显子部分;现在也包括预测其他具有一 定生物学功能的因子,如r n a 基因和调控因子 基因识别主要有以下几种方法: ( 1 ) 最长o r f s 法; 6 大连理工大学博士学位论文 ( 2 ) 基于密码子出现频率的预测方法; ( 3 ) 同源性方法; ( 4 ) 隐马尔柯夫模型法 天津大学张春霆院士等利用z 曲线方法在基因识别方面的取得了比较成功的 应用。他们将z 曲线应用到酿酒酵母基因组基因的识别上,开发了软件z c u r v e _ y , 将z 曲线应用到细菌与古细菌基因组基因的识别上,开发了软件z c u r v e ,将z 曲 线应用到冠状病毒基因组的识别上,开发了软件z c u r v e c o v ,还有病毒和噬菌体 基因组基因识别软件z c u r v e _ v ,以及人类基因组外显子识别f 2 5 - 2 7 1 3 3 分子进化 随着分子生物学技术的不断发展,进化研究也进入了分子进化阶段分子进化 是利用不同物种中基因序列或蛋白质序列的异同来研究生物的进化,构建进化树 在分子进化的研究中,木村资生( m o t o ok i m u r a ) 的中性突变理论有较大的影响,它 解释了分子进化中的很多特点和规律f 2 8 ,2 9 n a n d y 和张春霆分别将他们提出的 d n a 序列图形表示应用到分子进化和基因组比较研究中 3 0 】。较早的进化树构建方 法是s n e a t h 等人在1 9 7 3 年提出的u p g m a 方法( 非加权组平均法) f 3 1 u p g m a 方法首先将两个距离最近的物种合成一个复合物种组,完后重新计算距离矩阵,再 将两个距离最近的物种合成,依此进行它的局限性就是假定种系之间具有相同的 突变率后来又发展出n e i 曲b o r j o i n i n g 法( 邻近归并法) ,最大似然法,最大俭约 法等等 1 3 4 蛋白质的结构研究 蛋白质是生命活动的物质基础,具有防御、调节、催化、收缩、储存、运输、 运动、缓冲等多种生物学功能蛋白质的生物学功能在很大程度上取决于其空间结 构,蛋白质只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能 蛋白质的结构分为一级结构、二级结构三级结构,除此之外还有超二级结构和四级 结构等多肽链的氨基酸残基的排列顺序称为蛋白质的一级结构不同蛋白质其肽 链的长度不同,肽链中不同氨基酸的组成和排列顺序也各不相同。肽链在空间卷曲 折叠成为特定的三维空间结构,包括二级结构和三级结构二个主要层次二级结构 是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部 的空间结构三级结构是指整条多肽链由二级结构元件构建成的总三维结构,包括 7 蛋白质及r n a 结构比较与进化分析 一级结构中相距远的肽段之间的几何相互关系,骨架和侧链在内的所有原子的空间 排列。有的蛋白质由多条肽链组成,每条肽链称为亚基,亚基之间又有特定的空间 关系,称为蛋白质的四级结构2 0 世纪6 0 年代后期,a n f i n s e n 首先提出蛋白质折叠 的信息隐含在蛋白质的一级结构中从此,科学家们对蛋白质结构的预测进行了大 量的研究为了尽可能多地挖掘出蛋白质序列及二级结构中所包含的有用的信息, 张春霆和张任 3 2 通过将蛋白质二级结构抽象为三个字符a ,p ,c 进而给出了蛋白质 二级结构的s 一曲线表示目前,美国布鲁克海文国家实验室的蛋白质结构数据库 p r o t e i nd a t ab a n k ( p d b ) ,剑桥结构数据库( c s d ) ,蛋白质结构分类数据库( s c o p ) 等都为我们从生物信息学的角度上的研究蛋白质的结构提供了充足的资源 1 4 本文的主要工作 生物信息学的研究范围广阔,我们不能面面俱到。因为分子结构对生物活性、 功能的影响更明显、更直接,所以我们着重对分子结构进行分析和比较 本文的主要工作包括以下两个部分:蛋白质结构分析比较与r n a 结构分析比 较。 研究蛋白质结构最简单的模型为h - p 网格模型( 亲疏水模型) 网格模型虽然 简单,但是具有真实蛋白质的很多特性。网格模型可以使分子内部连续的结构空间 离散化,减少分子内部的自由度,从而较有效地研究蛋白质的折叠机理。我们利用 偏序关系刻画蛋白质折叠的网格模型首先,将蛋白质折叠简化为网格模型,将网 格模型分解为若干个有序小单元,将某个小单元的折叠程度以及其在整个网格模型 中的位置作为偏序关系中的性质变量,定义广义h a s s e 矩阵,通过比较蛋白质模型 对应的广义h a s s e 矩阵间的距离来比较蛋白质模型的折叠程度及他们之间的相似程 度 蛋白质的拓扑结构是蛋白质结构的一种宏观描述,拓扑结构主要考虑的是二级 结构以及由二级结构构成的t o p s 串,利用l e m p e l - z i v 算法计算出t o p s 串的l z 复杂度,根据l z 复杂度定义t o p s 串间距离,利用n e i g h b o u r j o i n i n g 法分析蛋白 质间的结构关系。 蛋白质的结构型可以为蛋白质空间结构预测提供重要信息基于d n a ( r n a ) 序列的“四水平线”图形表示,根据蛋白质二级结构单元的3 种不同类型:q 螺旋,口 折叠,无规则卷曲,给出一种蛋白质二级结构序列的“三水平线”图形表示从图形 表示中提取一些数值特征,利用这些数值特征来刻画蛋白质二级结构序列,并进行 8 大连理工大学博士学位论文 比较分析,从中可以对蛋白质结构进行分类 受d n a 序列图形表示的启发,我们给出了r n a 二级结构的一种三维图形表 示,然后将图形表示转化为l l 矩阵表示,用l l 矩阵的最大特征值作为结构不变 量比较了9 种病毒的r n a - 3 二级结构的相似性以及它们之间的进化关系 9 大连理工大学博士学位论文 2 蛋白质网格模型的刻画 蛋白质多种多样的功能与各种蛋白质特定的空间构象密切相关,蛋白质的空间 构象是其功能活性的基础,构象发生变化,其功能活性也随之改变。蛋白质变性时, 由于其空间构象被破坏,故引起功能活性丧失,变性蛋白质在复性后,构象复原,活 性即能恢复 蛋白质空间构象比较复杂,为了便于研究,很多蛋白质的简化模型被提出。限制 蛋白骨架构象中可采取的自由度就是简化蛋白质的一种方法,与允许蛋白质采取所 有可能的物理构象不同,q 碳原子只允许位于二维或三维网格的位置上这种简化 方法大大减少了蛋白质可以采取的构象数目蛋白质折叠是一个复杂的演化过程 目前广泛采用的网格模型,可以使分子内部连续的结构空间离散化,减少分子内部 的自由度,从而较有效地研究蛋白质的折叠机理h p ( 疏水极性) 模型是研究的最 成熟的一种简单网格模型h p 模型用一个固定半径的原子来表示每个氨基酸残基 从而进一步将蛋白质简化。这种表示方法中,原子分为两种类型:疏水原子和极性 原子。图2 1 显示了一段较短的用二维和三维h p 模型表示的多肽链图中疏水残 基表示为黑色,极性残基表示为白色【3 3 】 涵一螺一oz 6 孓3 “- 7 z :茚 :工王- q i ,醋3 7 y 了 图2 1 一个含有1 2 个残基的多肽链的h p 模型 i i 蛋白质及r n a 结构比较与进化分析 在本章中,我们不考虑氨基酸的疏水极性,只考虑其空间结构关系,利用偏序 集刻画蛋白质网格模型,基于自回避行走不同的三步构象,进一步应用简便而直观 的h a s s e 图表示蛋白质网格模型的方法,构建广义h a s s e 矩阵,这种方法可以有效 的描述三维蛋白质模型的折叠程度和它们之间的相似性 2 1 偏序关系介绍 集合a 上的一个关系r 满足自反性、反对称性和传递性时,称冗是a 上的一 个偏序关系,记为。”,用二元组( a ,) 表示该偏序结构,或称之为偏序集,具体 的,一个偏序关系满足如下性质: p 1 对所有的z ,z z ,( 自反性) p 2 如果x y 且y z ,则z = y , ( 反对称性) p 3 如果x y 且y z ,则z z ,( 传递性) 有关偏序集的详细解释可以在b i r k h o f f 的书中找到【3 4 】 偏序关系不仅在化学中起到重要作用 3 5 4 1 ,而且在分子生物学、生态学中也起 到重要作用【4 2 】。例如,k l e i n 等用偏序关系研究化学元素间的关系 3 9 _ 4 l 】;t o d e s c h i n i 等基于核苷酸的物理化学性质以及核苷酸在序列中的位置,建立d n a 序列的偏序 关系,并将偏序关系用h a s s e 矩阵和h a s s e 图描述,通过定义两个h a s s e 矩阵间的 距离来定义序列间的距离,最后分析d n a 序列相似关系 我们现在介绍一下与偏序集相关的一些概念( 如h a s s e 矩阵) ,以及与之对应的 相似性度量【4 2 】 给定一个n 个元素的集合q ,每个元素是一个具有p 个分量的向量,元素8 和元素t 属于q ,巧( t ) 是元素t 的第j 个分量,如果对于所有的j 【1 ,纠,要么 x 3 ( t ) ( s ) ,要么x 3 ( s ) 巧( t ) ,则称元素8 和元素t 是可比较的如果对于所有的 j 1 ,纠,x j ( t ) 巧( s ) ,则t 8 其中“对于所有的”是必不可少的 t 8 z j ( t ) x j ( s ) ,【l ,p 】( 2 1 1 ) 通常,集合a 上的二元关系用关系图来表示十分直观,而用关系矩阵表示则易 于计算机处理表达偏序关系的h a s s e 矩阵的定义: f + l , 如果x 3 ( s ) x 3 ( t ) ,v j 1 ,纠; 日s t - - - 1 , 如果巧( s ) 大连理工大学博士学位论文 没有出现,所以我们只需考虑4 种构象s ,u ,z ,l 图2 1 中5 个蛋白质模型的构象 代码序列如下: iz u s l l u s u z s u l l u z z u s u z u s z u i iz s u s l l l l s u s l l l l l l l l l l l l u i i i l l l l l s u z u l l s u z u s s s s u s u s u s u s u s z s s u z s l l l l l l l l l l s u s v u s s s s s u l l l l s u z s s u z u l l l l s 从文献【4 5 】,我们可以知道,m m 矩阵的最大特征值越大,对应的分子图形的 折叠程度越小m m 矩阵最大特征值的序关系:l z s u 那么,折叠度的序关 系为:l z s u 。这个结果与图2 2 中我们观察到的结果也是吻合的我们把折 叠度作为性质变量之一我们定义4 种构象的折叠度系数为:f i ( l ) = o 2 5 ,f i ( z ) = 0 5 ,f i ( s ) = 0 7 5 和f i ( u ) = 1 见表2 2 表2 2 :不同构象的f 工 代码l zsu f 工0 2 50 50 7 51 对于每条构象代码序列,以下两个性质变量被考虑用来构建广义h a s s e 矩阵: 构象代码在序列中的位置和构象的折叠系数则偏序关系被定义如下: z ,可q :z 秒i d ( x ) v i v i i 这个结果和文 献 4 6 ,4 8 】的结果十分吻合 观察表2 4 和表2 5 ,我们得到以下结论:折叠程度大的蛋白质之间结构不相似, 如i 和i i i ,在表2 4 中,无论是w = 0 ,还是w = 1 ,i 和i i i 之间的距离都是第二大 的;在表2 5 中,当伽= o 2 5 时,i 和i i i 之间的距离都是第二大的,当w = 0 5 时,i 和i i i 之间的距离都是第三大的折叠程度小的蛋白质之间结构相似,如i i ,和 v ,在表2 4 和表2 5 中,它们之间的距离都被用粗体标注,因此它们之间的距离比 较小折叠程度大的蛋白质之间不相似( 即它们之间的差异性比较大) ,根据结构决 定功能,所以折叠程度大的蛋白质拥有更多的生物特性这个结论与生物学领域普 遍接受的结果一致 2 3 本章总结 近年来,很多学者从不同角度建立蛋白质折叠模型。在本章中,我们描述了一 种刻画蛋白质折叠程度的新方法从中,我们还可以得到那些蛋白质间的相似关系 根据相似的结构具有相似的功能,即蛋白质的功能决定于它们的三维结构我们发 现折叠程度大的蛋白质间不相似在结构一性质一活性关系研究中,大家普遍认为 相似的结构有相似的性质。因此,折叠程度大的蛋白质间性质、功能的差异就比较 大这样,折叠程度大的蛋白质在功能方面就具有更多的生物学细节【4 8 】 1 7 大连理工大学博士学位论文 3 蛋白质t o p s 串的比较 蛋白质的结构比序列更加保守,因此蛋白质结构比较对蛋白质功能研究和蛋白 质间进化关系研究有重要意义。通过比较蛋白质的空间结构,可以发现蛋白质的结 构共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构 域,发现特定的空间结构模式,而这种模式在进行序列分析时无法发现 在上一章中,我们给出了蛋白质网格模型的刻画,这是一种较为简化的模型。在 三维空间中,蛋白质是由一些较为规则的二级结构单元构成的。这些二级结构单元 经过结合形成一些超二级结构。研究它们中的拓扑关系是一个既有意义又很有意思 的课题。蛋白质的t o p s 图是一种简化的蛋白质结构拓扑二维图。这是一种蛋白质 结构的粗粒化描述。它基于二级结构层次考虑蛋白质结构的组成以及各结构单元间 的相互关系英国格拉斯哥大学关于蛋白质的拓扑结构专门建立了t o p s ( t o p o l o g y o fp r o t e i ns t r u c t u r e s ) 数据库。 j o h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论