




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 研究蛋白质的结构预测问题,是生命科学领域的前沿课题之一。它所要解 决的是蛋白质一级结构中的氨基酸序列最终如何折叠成特定的三维空间结构。 在研究过程中,为了计算的可行,人们提出了许多简化模型。尽管如此,其相 应的蛋白质结构预测问题仍然是具有n p 难度的。因此,对其寻找高效可行的 近似算法有着重要的理论价值和实际意义。 拟物拟人方法是一种求解诸如n p 问题和其它困难数学问题的方法。所谓拟 物就是主动地向自然界学习解决问题的方法,即寻找与原始数学问题等价的物 理世界并观察这个世界中物质运动的生动形象,然后从中得出启发并逐步形式 化为算法以求解问题。拟人方法则是向人、向人类的各种社会经验学习解决问 题的策略。拟物方法将原始问题落实为优化问题,而在用数学方法求解优化问 题时,常常会碰到计算落入目标函数局部极小值陷阱的困境,如何从这种困境 中逃逸出来,使得计算奔向前景更好的区域,拟物方法则无能为力,而应用拟 人方法则可以设计出好的“跳出陷阱”的策略。 为求解蛋白质结构预测问题提出了三维欧氏空间连续模型,并为由此形成 的数学问题找到了相应的物理模型,应用拟物的方法对其进行求解。对于拟物 算法计算过程中,经常落入局部极小值陷阱的情况,设计了拟人的跳坑策略, 最终形成了拟物拟人算法。计算结果表明,该模型及算法对蛋白质结构预测问 题是可行并且有效的。 关键词:蛋白质结构预测,拟物,拟人,算法,跳坑 华中科技大学硕士学位论文 a b s t r a c t s t u d y i n gt h ep r o t e i ns t r u c t u r ep r e d i c t i o np r o b l e mi so n eo f t h ef r o n t i e rt a s k si n t h ef i e l do fl i f es c i e n c e s w h a ti ti n t e n d st os o l v ei sh o wt of o l dp r o t e i n si n t oc e r t a i n 3 - d i m e n s i o n a ls t r u c t u r e sf r o ma m i n oa c i d s e q u e n c e o ft h e i r p r i m a r ys t r u c t u r e s d u r i n gt h ep r o c e s so fr e s e a r c h ,m a n ys i m p l i f i e dm o d e l sh a v eb e e np r o p o s e du pt o n o wf o rt h es a k eo f f e a s i b i l i t yo fc o m p u t a t i o n t h ec o r r e s p o n d i n gp r o t e i ns t r u c t u r e p r e d i c t i o np r o b l e m s ,h o w e v e r , a r e s t i l lc o n c l u d e dt ob en p - h a r d p r o b l e m s c o n s e q u e n t l y ,i tb e c o m e sm o r ea n dm o r es i g n i f i c a n ta n dd e m a n d i n gb o t hi nt h e o r y a n di np r a c t i c a l i t yt od e v e l o ph i g h l ye f f i c i e n ta p p r o x i m a t ea l g o r i t h mf o rr e s o l v i n g t h e s ep r o b l e m s t h eq u a s i h u m a nm e t h o di sl e a r n i n gf r o mh u m a nb e i n g sa n dt h e i rr i c hs o c i a l e x p e r i e n c e s f o rw i s d o mt os o l v ep r o b l e m t h eq u a s i p h s i c a lm e t h o dm a k e st h e o r i g i n a lp r o b l e m a n o p t i m i z a t i o np r o b l e mi n m a t h e m a t i c s t h e r ei so f t e nt h e p o s s i b i l i t y o fg o i n gt oal o c a lm i n i m u mo fo b j e c tf u n c t i o nw h e ns o l v i n gt h e o p t i m i z a t i o np r o b l e mm a t h e m a t i c a l l y a sf o rh o w t oj u m po u to ft h et r a po fl o c a l m i n i m u ms ot h a tt h ec a l c u l a t i o nc a l lh e a df o rar e g i o nw i t hb e t t e rp r o s p e c t s ,t h e q u a s i p h y s i c a lm e t h o di sh e l p l e s s h o w e v e r , t h eq u a s i - h u m a nm e t h o dc a ng i v eu s g o o ds t r a t e g i e sf o rj u m p i n go u to f at r a po fl o c a lm i n i m u mw i t ht h eh e l po fh u m a n b e i n g s lb e h a v i o ra n de x p e r i e n c e s an e w3 - d i m e n s i o n a lr e a le u c l i dm o d e li sp r o p o s e df o rt h ep r o t e i ns t r u c t u r e p r e d i c t i o np r o b l e m t h e naq u a s i - p h y s i c a lm e t h o d b a s e do nc o r r e s p o n d i n g p h y s i c a l m o d e li s p r e s e n t e dt o s o l v et h er e l e v a n tm a t h e m a t i c a lp r o b l e m f u r t h e r m o r e ,a l l o f f - t r a ps t r a t e g yo fq u a s i - h u m a na p p r o a c h i sp u tf o r w a r di no r d e rt oa v o i d f r e q u e n t l y j u m p i n g i n t ol o c a lm i n i m u md u r i n gt h e q u a s i p h y s i c a lc o m p u t a t i o n t h u s a n e f f i c i e n tq u a s i - - p h y s i c a la n dq u a s i - h u m a na l g o r i t h mi sa c h i e v e db yi n t e g r a t i n gt h e s e s t r a t e g i e t os o l v et h i s p r o b l e m c o m p u t a t i o n a lr e s u l t s i n d i c a t e dt h a tt h e n e w l y p r o p o s e dm o d e l a n di t sc o r r e s p o n d i n ga l g o r i t h mw e r eb o t hf e a s i b l ea n de f f e c t i v ef o r t h ep r o t e i ns t r u c t u r ep r e d i c i t o np r o b l e m k e yw o r d s :p r o t e i ns t r u c t u r ep r e d i c t i o n ,q u a s i - p h y s i c a l ,q u a s i - h u m a n ,a l g o r i t h m , j u m p o u t o f t r a p i i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承 担。 学位论文作者签名: b 飙? 司 日期:功,年f 月7 日 学位论文版权使用授权书 本学位论文作者;猃了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于不保密味 ( 请在以上方框内打“”) 学位论文作者签名: 匀j 司4 四 日期:2 口年f 月7 日 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = ;= = = = = = = = ! = = = = = = = = = = = 一1 1 1 研究背景及意义 1 绪论 所有的计算问题可以分成两类:能用算法解决的和不能用算法解决的。过去几 十年计算机技术的长足进步使人们有理由希望,所有前一类问题现在都用令人满意 的方式解决了。不幸的是计算实践揭示许多问题尽管在原理上可解,但在任何实践 意义上还是不能用计算机解决,原因是过度的时间需求。 是什么使某些问题很难计算,又使另一些问题容易计算? 这是计算复杂性理论 的核心问题。值得注意的是,虽然在过去的几十年里对它进行了深入细致的研究, 但是人们仍然不知道它的答案。迄今为止,复杂性理论的一个重要成果是,发现了 一个按照计算难度给问题分类的完美体系。简单地说,其中的p 是成员资格可以在 多项式时间内判定的语言类,n p 则是成员资格可以在多项式时间内验证的语言类。 随之而来,p = n p 是否成立的问题成为理论计算机科学和当代数学中最大的悬面未决 的问题之一。如果这两个类相等,那么所有多项式可验证的问题都将是多项式可判 定的。大多数研究人员相信这两个类是不相等的,因为人们已经投入了大量的精力 为n p 中的某些问题寻找多项式时间算法,都没有获得成功。研究人员还试图证明这 两个类是不相等的,但是这要求证明不存在快速算法来代替蛮力搜索。目前科学研 究还无法做到这一步。 在p 与n p 问题上的一个重大进展是在7 0 年代初由斯蒂芬库克和列奥尼德列文 完成的。他们发现n p 中的某些问题的复杂陛与整个类的复杂性相关联。这些问题中 任何一个如果存在多项式时间算法,那么所有n p 问题都是多项式时间可解的。这些 问题称为n p 完全的i l j 。 计算机科学、管理科学、生物物理学以及超大规模集成喇t ( v l s i ) 、代码设 计、图像处理和电子工程等科技领域中存在着大量的这类n p 完全问题,比如货郎担 问题、图着色问题、设备布局问题以及蛋白质结构预测问题等,它们至今都没有找 到有效的多项式时间算法。 本文所要讨论的蛋白质结构预测问题,它所要解决的是蛋白质一级结构缸i n l a r y s m l c m r e l 中的氨基酸序列最终怎样折叠成特定的三维空间结构。在蛋白质的结构预测 研究中,理论方法起到了非常重要的作用。从原理上说它涉及了原子分子物理、凝 聚态物理、量子力学和统计物理等物理学科,要应用量子化学、计算化学和计算技 华中科技大学硕士学位论文 术的原理和方法。但是对生物分子这样大的体系,在研究过程中,为了计算的可行, 常常作各种近似。近年来,人们提出了许多简化模型。尽管如此,其相应的蛋白质 结构预测问题仍然是具有n p 难度的。由于该问题本身所固有的计算复杂眭,求其精 确解的计算量往往随问题的规模呈指数型增长,以致使用任何高速计算机都需耗费 大量的时间,甚至根本无法实现。因此,对其寻找高效可行的近似算法有着重要的 实际意义和理论价值。 我的导师黄文奇教授是最先提出求解n p 难问题的拟物、拟人思想的学者之一, 在p a c k i n gf 司题f 2 q ”、s a t 问题2 堙叫目、c 0 湎n g 问题、调度问题等”9 _ 2 1 垮印难闻题 的研究中做了大量的工作,取得了很大的成就,形成了一套独具特色的研究方法和 技术路线。本论文将拟物拟人的思想用于蛋白质结构预测问题的求解。 本课题受国家9 7 3 计划项目( 编号g 1 9 9 8 0 3 0 6 0 0 ) 资助。 1 2 国内外研究概况 蛋白质结构预测是后基因组时代基因组研究的主要任务之一,在生物信息学迅 速发展的今天,它不仅需要有分子生物学的专业知识,同时需要数学、物理学、计 算机科学等学科的共同参与。 在文献【2 2 】中,a l 血n s e l l 等人根据变性的核糖核酸酶在一定条件下可以自发地再 折叠形成天然酶分子的实验提出蛋白质分子的一级序列完全决定其三维空间结构的 著名论断,并因此而获得诺贝尔奖。这为用理论方法预测蛋白质结构奠定了基础。 文献【2 3 介绍了目前蛋白质结构预测的三类主要方法:同源模建方法( l o m o l o g o u s m o d e l l i n g ) 、折叠识别方法f f o l d sr e c o g n i t i d n ) 和从头预测方法( a b i n i t i o p r e d i c t i o n ) 。 同源模建是目前应用较成功的一种方法。蛋白质根据序列同源性可以分成不同 的家族,序列同源性大于3 0 的蛋白质可能由同一祖先进化而来,称为同源蛋白质。 同源蛋白质通常具有相似的结构和功能,所以利用结构已知的同源蛋白质可以建立 待预羽i 序列的结构模型,然后用理论计算进行优化。但是对于序列同源径小于3 0 的蛋白质,则难以建立理想的同源模建模型。人们对结构已知的蛋白质研究发现, 大量序列同源性较差的蛋白质存在相同的折叠类型,从而折叠识别方法成为蛋白质 结构预测的另一种重要方法。1 9 9 2 年d t j o n e s 等提出的t h r e a d i n g 方法在折叠识 别方法中占据主要位置。即假设有n 种已知的折叠子,以它们作为模板,将目标序 列与这些模板一匹配,得分最高的被认为是序列最可能采取的结构。可以看出同 源模建方法和折叠识别方法都要求有结构已经测定的蛋白质的结构作为棋板,而且 华中科技大学硕士学位论文 不能产生全新结构i 驯。 广义的讲,从头预测方法包括蛋白质结构类预测、蛋白质二级结构预测、超二 级结构预测、蛋白质三维结构的预测等,本文讨论的是蛋白质三维结构从头预测。 和前面两种方法比较,从头预测方法具有一定的特点和优势,它建立在热物理理论 基础上,即蛋白质的天然结构是其自由能最小时的结构,如果能够找到一个表征蛋 白质结构与能量关系的势能函数,那么利用数学工具寻找势能函数的极小点就可以 解决问题,所以从头预测方法不需要序列以外的其它更多信息,从一条蛋白质序列 出发,就可得到蛋白质的空间结构,在理论上这是一种较为理想的方法。然而蛋自 质分子不仅分子量高而且具有强柔性,组成蛋白质分子的每一个键的键长和键角都 可能发生变化,而且微小的结构变化都会带来能量变化,每一种蛋白质存在一种稳 态结构和极大量的亚稳态结构。蛋白质结构的这种复杂性阻碍着从头预测方法的实 现。从头预测方法的困难主要来自两个方面。首先,势能函数的确定有效的势能 函数应该能够正确区分蛋白质的天然结构与非天然结构,由于蛋白质分子本身的复 杂性,利用精确的能量函数求出其能量和结构关系很困难,目前国内外通常采用的 势能函数为经验函数,或者利用统计方法得到的平均势能函数;在势能函数确定之 后,从头预测方法便归结为求解一个优化问题,而势函数的势能表面存在极多的局 部极小点,如何找到全局极小点是从头预测方法的一个关键,因为缺少一种有效的 全局优化方法也阻碍了分子力学模型本身精确程度的验证。尽管几十年来从头预测 方法也取得了大量的研究成果,但是由于受到这两方面的制约,仍然处在研究阶段。 从1 9 9 8 年的c a s p 3 ( c r i t i c a l a s s e s s m e n to f p r o t e i ns t r u c t u r ep r e d i c t i o n ,c a s p ) 和2 0 0 0 年 的c a s p 4 的情况来看,前两种方法已经比较成熟,从头预测方法也显示了它的发展 潜力【2 5 _ 2 q 。从头预测方法的优势在于不需要己知结构信息,能够产生全新结构,所 以对于蛋白质分子设计以及蛋白质折叠的研究等具有重要意义。 蛋白质是生物体中一种十分重要的高分子物质。蛋白质分子有着自身所特有的 化学、物理结构;在溶液中蛋白质分子不仅自身不同部分间存在着相互乍用,而且 还与溶剂分子问发生着复杂的相互作用,这些都很大程度上影响到分子的结构和演 变过程。为了对蛋白质分子进行模拟,很有必要建立适当的描述蛋白质分子结构的 模型,引入合理的模型基元间的相互作用,并采用有效的方法进行模拟,文献 2 7 系统地总结了近年来蛋白质动力学及其物理特性,特别对其模型、势能及模拟方法 进行了着重介绍。为了增加些感性认识,文中还就实验分析、折叠的协作性、搜 寻保守残基和动力学过程的嫡效应和阻挫效应等几个专题进行了应用介绍。 文献f 2 s 1 重点介绍了蛋白质折示一个蛋白质链。模型中要求将一个给定的链放在 华中科技大学硕士学位论文 一个二维或三维笛卡尔坐标叠的热力学控制学说和动力学控制学说,简单介绍了几 种蛋白质折叠模型并分析了多肽链在体内进行快速折叠的原因。 文献 2 9 - - 3 6 对蛋白质折叠的原理进行了探讨,提出了h p 格点模型( h pl a t t i c e m o d e l ) 。通过理论抽象,蛋白质被认为是由疏水性氨基酸( h y d r o p h o b i c ,用h 表示) 和亲水性氨基酸( p o l a r ,用p 表示) 组成。蛋白质链用字母表 h ,p 1 上一有限长的字 符串表示,例如i - i p h i - i p h h h p p 就表系中的格点上,给出满足一定条件的最低能量 构形。按照l i p 格点模型,该问题的求解也是n p 难度的。l i p 格点模型在国际上得 到广泛认同,以下介绍的算法都是按照i i p 格点模型对问题进行求解的,同时也是目 前具有代表性的、计算效率比较高的求解算法。 文献【3 7 】中提出了基于重要性抽样的算法s i s p e r ( s e q u e n t i a li m p o r t a n c es a m p l i n g w i t h p i l o t - e x p l o r a t i o n ) 。s i s p e r 算法是一个生长型的算法,算法中通过定义一个小的 集合作为向导( p i l o t ) ,集合中的元素生长定的步骤后,统计出这些元素的权熏, 并将该权重作为算法中蛋白质链生长的评判依据。 文献 3 8 - - 4 0 1 中提出了一种裁减复制算法p e r m ( p r u n e d - e n r i c h e d - r o s e n b l u t h m e t h o d ) 。该算法是一个深度优先的搜索算法。在链的生长过程中,对那些权重较好 的,也就是比较有发展前景的链进行复制,并让起复制后的链继续生长;对那些权 重不太好的链,则不让其继续生长。其中权重的好坏由一个预先指定的门限值来决 定。 文献 4 1 中提出了一种新型的基于蒙特卡罗的“多重自相交”算法m s o e ( m u l t i s e l f - o v e r l a pe n s e m b l e ) 算法。算法中提出了一个动作变换集,通过这些动作 实现构形向低能量方向转移。算法中允许存在不合法的自相交构形,这些构形起到 了中间桥梁的作用,为算法最终收敛到最优解提高了效率。 文献 4 2 1 介绍了计算机模拟蛋白质折叠问题的背景、模型和意义。在对二维晶格 模型问题采用m o n t e - c a r l o 方法和单纯遗传算法得到能量最小构象的基础上,提出了 适用的混合遗传算法,并通过计算机模拟试验对三种方法作了比较。文献 4 3 介绍 了计算机模拟蛋白质的三维晶格模型,利用混合遗传算法对模型问题进行了模拟计 算,获得了由2 7 个氨基酸残基组成的肽链的能量最小的折叠构象。 1 3 课题的主要研究工作 本课题将运用拟物拟人的思想和方法来求解蛋白质结构预测问题。拟开展的主 要工作如下: 华中科技大学硕士学位论文 1 提出用于蛋白质结构预测问题的三维欧氏空间连续模型。 2 为上述的三维欧氏空间连续模型找到相应的物理模型,用拟物的方法对依该 模型的蛋白质结构预测问题进行求解,形成相应的拟物算法。 3 对于拟物算法计算过程中,经常落入局部极小值陷阱的状况,设计跳坑的拟 人策略,最终形成拟物拟人算法。 4 用拟物拟人算法对一些算例进行实算,根据计算结果给出对模型以及算法的 评论,并对该算法的后续工作进行展望。 华中科技大学硕士学位论文 2 蛋白质结构预测问题综述 2 0 世纪生物科学是自然科学中发展最快的学科之一。今天的生命科学已不是单 纯的实验描述性学科,正逐步由定性描述走向定量研究。生物科学正在迅速地变为 计算分析性很强的- i q 学科。5 0 年前,分子生物学和计算机诞生之际,会想到如今 计算机对于生物学会如同数学对于物理学一样重要? 近几十年来,随着生物学实验 技术的进步,蛋自质序列和空间结构的试验数据迅猛发展,成指数增长,现在已发 展到单靠人力无法全部吸收和分析的程度。生物学家们意识到必须借助一些数理分 析的方法和计算机工具的帮助来解决问题。本章简要介绍蛋白质结构预测问题的 生物学基础、理论预测方法以及常用的几种数理方法。 2 1 蛋白质结构预测的生物学基础 蛋白质是生命活动的主要承担者,一切生命活动无不与蛋白质有关。新陈代谢 是生命活动的主要特征,而构成新陈代谢的所有化学变化,都是在酶的催化之下进 行的,除最近发现的极少数具有催化功能的核糖核酸以外,所有的酶都是蛋白质。 生物体的各种活动,如生长,运动,呼吸,免疫,消化,光合作用,以及对外界环 境变化的感知并作出必要的反应等,都必须依靠蛋白质来实现。虽然遗传信息的携 带者是核酸,但遗传信息的传递和表达不仅仍然是在酶的催化之下,并且也是在各 种蛋白质的调节控制之下进行的【4 5 】。 所有的蛋白质都由2 0 种氨基酸组成,但是每一个蛋白质都有它自己特有的一定 的氨基酸组成和氨基酸排列顺序。虽然组成所有蛋白质的氨墓酸只有2 0 种,但这2 0 种氨基酸以不同方式排列的所有可能性却是一个巨大的天文数字。以一个仅由1 0 0 个氨基酸组成的较小的蛋白质为例,这1 0 0 个氨基酸所有可能的排列顺序则是2 0 1 0 0 , 或i o ,也就是说可以有1 0 ”o 那么多种不同的分子。即使每种分子仅有一个,其总 重量也将为1 0 0 1 0 0 吨左右,等于地球总重量的1 0 7 8 倍,太阳系总重量的1 0 7 2 倍。虽 然这不过是仅就个很小的仅含1 0 0 个氨基酸的蛋白质所做的计算,但是这个数字 不但已经远远超过地球有史以来生存过的生物体的总重量,并且在生命世界继续进 化发展多少亿年以后所生成的蛋白质也不会达到这个数字。1 9 5 7 年,由胰腺分泌的 一种激素,含有5 1 个氨基酸的一种小蛋白质,胰岛素分子的氨基酸序列及二硫键连 接方式的阐明,是蛋白质一级结构测定的开始。四十年来,氨基酸序列被测定的蛋 6 华中科技大学硕士学位论文 自质已接近1 0 万。 蛋白质分子除有其组成氨基酸按一定顺序以肽键相连的肽链结构以外,还具有 肽链在空间的卷曲折叠,形成特定空间排布的三维空间结构。第一个被测定空间结 构的蛋白是在肌肉中行使存储氧气功能的肌红蛋白。只有处在特定的三维结构中的 蛋白质分子才能够发挥其特定的生物功能。因此,即使肽链仍然完整,肽链的氨基 酸序列也不变,只要空间结构被破坏,或者说肽链在空间的位置发生了变化,就会 导致蛋白质功能发生变化乃至丧失。蛋白质在肽链保持完整的条件下空间结构的破 坏,称为蛋白质的变性。这一概念是我国科学家吴宪在3 0 年代初根据他全部在国内 的工作首先提出来的,长期以来被国际上广泛接受。 蛋白质晶体x 射线衍射技术仍然是当今蛋白质空间结构测定的主要方法。从 1 9 5 9 年第一个肌红蛋白晶体结构的测定开始到1 9 9 6 年底,用x 射线衍射和核磁共 振方法确定了空间结构并存人数据库的蛋白质已经接近5 0 0 0 ,其中还包括像细胞色 素氧化酶和捕光蛋白复合体那样的多亚基的大分子和大分子复合体。空间结构测定 的速度近年来大幅度提高,两年前大约是一天解出一个结构,现在则以每天以近四 个结构的速度增长。但是,这些一级结构和空间结构己被测定的蛋白质,只不过是 自然界数以百万计的蛋白质中的一个微不足道的部分。在结构研究领域内,近二十 年来发展起来的二维和多维核磁共振方法,已经显示了它对蛋白质在溶液中的空间 结构和运动状态方面研究的优势,现在用核磁共振方法已经解出了约5 0 0 个蛋白质 的结构,由于不需要结晶,测定可以在溶液中进行,较之晶体x 射线衍射方法有其 在样品制备上的优越性。但是蛋白质空间结构的测定目前还仅限于分子量较小的蛋 白质。 结构与功能关系的研究,一直是蛋白质研究的核心问题之一。过去最常用的方 法,是用化学方法修饰蛋白质的侧链基团,以观察对蛋白质生物活性的影响。现在, 体外基因突变技术,特别是定点突变的发明可以任意改变蛋白质分子中的特定氨基 酸残基,并研究其对生物功能的影响。另个重要的问题是蛋白质空间结构与其生 物活性的关系。新近的研究结果指出,空间结构对酶的功能至关重要,即使极其细 微的扰乱,也会导致酶活力的丧失。所以说,空间结构具有严格性和准确性。 蛋白质结构预测问题是分子生物学研究的中心课题。它所要解决的是蛋白质一 级结构( p r i m a r ys t r u c t u r e ) 中的氨基酸序列最终怎样折叠成三维空间结构。1 9 6 1 年, a l 蚯n s e n 通过实验发现,变性的核糖核酸酶( r i b o n u c l e a s e ) 可重新折叠并恢复生物活 性。这说明蛋白质一级结构中隐含了编码蛋白质三级结构的所有信息。这一发现, 为蛋白质结构预测提供了理论依据。这就是说,在完全掌握了蛋白质序列和结构之 华中科技大学硕士学位论文 间的关系后,就可以通过分析级结构序列特性,预测其三维空间结构。 2 2 蛋白质结构预测方法综述 总体上蛋白质结构的理论预测方法可以分为3 大类,即比较建模 法( c o m p a r a f i v e m o d e l i n gm e t h o d ) 、反向折叠法( i n v e r s ef o l d i n g o rt h r e a d i n g ) 和从头预测法( a b i n l t i o p r e d i c t i o nm e t h o d ) 。这些方法都是建立在氨基酸的一级结构决定高级结构的理论基础 上的。 1 比较建模法比较建模法是基于知识的蛋白质结构预测方法。这一方法主要 是指同源结构预测。它是在未知蛋白质中有同源结构可以参考的情况下应用的一种 技术。它可以根据同源结构中保守的部分搭建出未知蛋白质的结构骨架。它是现在 最为成熟的预测方法,并已有商业化软件可以使用,如b i o s y m m s i 公司的 h o m o l o g y 和p r o t e i nd e s i g n 等。 2 反向折叠法这是近年来发展起来的一种比较新的方法。它可以应用到没有 同源结构的情况中,且不需要预测二级结构,即直接预测三维结构,从而可以绕过 现阶段二级结构预测准确性不超过6 5 的限度,是一种有潜力的预测方法。它的主 要原理是把未知蛋白质的序列和已知的这种结构进行匹配,找出种或几种匹配最 好的结构做为未知蛋白质的预测结构。它的实现过程是总结出已知的独立的蛋白质 结构模式做为未知结构进行匹配的模板,然后用经过对现有的数据库的学习总结出 的可以区分正误结构的平均势函数( m e a nf o r c ef i e l d ) ,做为判别标准来选择出最佳的 匹配方式。这样的预测方法也有程序可以使用。这种方法的局限性在于它假设蛋白 质折叠类型是有限的,所以只有未知蛋白质和已知蛋白质结构相像的时候,才有可 能预测出未知的蛋白质结构。如未知蛋白质结构是现在还没有出现的结构类型时, 这种方法将不能被应用。 3 从头预测的方法这一方法从理论上讲是最为理想的方法。它要求方法本身 可以只根据蛋白质的氨基酸序列来预测蛋自质的二级结构和高级结构,但现在所有 的方法还不能完全达到这个要求。 从头预测又可以细分为,二级结构预测、超二级结构预测、蛋白质结构类型预 测、蛋白质折叠模式预测、详细的三维结构的直接预测等。 ( 1 ) 二级结构预测二级结构预测是一个已研究多年的问题。它被认为是预测三 维结构所经过的一个阶段。即首先从一级序列预测出二级结构,然后再把子级结构 堆积成最后的三维结构。但由于目前的二级结构无法很好地考虑蛋白质中远程相互 华中科技大学硕士学位论文 作用,所以预测准确率一直限制在6 5 以下。因此从一级结构经二级结构到三维结 构的方法进展很慢。但值得注意的是近年来随着多重序列比较方法及其他方法的发 展,二级结构预测的准确性在某种特定条件下有了很大提高,如在有已知结构的蛋 白质同源序列中可进行序列对比的情况下,些多重序列匹配比较好的序列第预测 准确性可以达到8 8 以上。 同时b a r t o n ,s a n d e r 等人还发现在一个蛋白质序列中总有约4 0 序列的预测可 以有很好的可信度,而这些序列的实际预测的准确率都在8 0 以上。经研究后发现 这些区域都是一些二级结构周期性较强,序列比较保守的地方。这些结果给如何将 现有的二级结构预测结果应用到三维结构预测提供了有益的启示。 ( 2 ) 超二级结构预测超二级结构预测是比二级结构的结构层次更高的结构预 测,它实际上已经是局域的空间结构预测问题。2 0 世纪9 0 年代以来,一些研究组应 用人工神经网络方法和向量投影方法等多种方法,进行了超二级结构预测的研究。 从蛋白质的氨基酸序列出发,直接预测蛋白质的超二级结构。看看这一段氨基酸序 列是否能形成某一种模式的超二级结构,准确率超过了二级结构预测的准确率。( 其 中人工神经网络方法预测的准确率在7 5 - - 8 2 ;向量投影方法预测的准确率达到 8 5 以上。 ( 3 ) 蛋白质结构类型( p r o t e i ns 订u c t u r ec l a s s ) 的预测结构类型的预测是指预测未 知蛋白质的结构属于全蛋白质( 主要由c c i 螺旋组成的蛋白质) 、全d 类蛋白质( 主要由 p 折叠组成的蛋白质) ,还是邮类( 由a 一螺旋,p 折叠交替排列组成的蛋白质) 或叶d 类( 由分开的o c 螺旋和p 斯叠组成,其中的p - 折叠一般为平行结构) 等结构类。结构类 型预测除本身可以让人们了解大概的蛋白质结构折叠情况外,对二级结构的预测也 很有帮助。现在结构类型预钡8 方法主要有根据光谱数据预测、神经网络预测和c h o u & f a s m a n 用氨基酸组成的m a h a l a n o b i s 距离预测方法。有文献报道,神经网络预测方 法在预测有2 5 0 个蛋白质组成的样本时有7 5 的正确率。用氨基酸组成的m a h a l a n o l i s 距离预测1 3 1 个蛋白质正确率达到9 4 7 。最近c h o u 和z h a n g 用氨基酸组成在结构 类型预测方面作出了一些很好的工作,取得了比较高的精度。尽管这些方法还有待 进一步检验,但这些方法都可以得到较高的准确度的事实已经被人们接受。 ( 4 ) 蛋白质的三维结构预测三维结构预测指预测出未知蛋白质的空间结构,这 是蛋白质结构预测的最终目标。目前还没有一种预澳l 方法能得到比较满意的结果, 不过最近的发展十分令人鼓舞。预测三维结构现在有两个大的方向。个方向是根 据二级结构预测的结果,以及蛋白质结构类型和折叠类型预测的结果,考虑到结构 间的立体化学性质、亲疏水性质、氢键以及静电相互作用,把可信度较高的二级结 9 华中科技大学硕士学位论文 构进一步组装,搭建出最后的蛋白质结构。这种方法虽然可构建出一些蛋白质结构, 不过因为它依赖于前面的预测结果,所以受到的限制太多。另一个方向是不依赖于 二级结构预测的结果,直接预测三维结构的方法。在这个方向中最原始的的方法是 借用成功的应用于小分子构象研究的分子动力学和分子力学方法。对蛋白质整个构 象空间进行搜索,然后找出能量最低的构象作为最后的预测构象。由于这种方法的 计算量非常大,所以这种方法已经不再应用到蛋白质结构的从头预测问题。不过这 种方法的基本框架却被继承下来。随着对蛋白质结构规律和折叠规律的进一步认识, 蛋白质三维结构预测已转变为如何有效地搜索构象空 司和如何区分出天然结构和错 误结构的问题。 在搜索构象空间方面,现在的主要的发展有两个方向,一是发展一些把常规构 象搜索技术和根据蛋白质结构特点相结台的算法,如系统搜索算法、m o n t ec a r l o 方 法、遗传算法、模拟退火方法等和现在发展的晶格模型,限制空间搜索。二是对蛋 白质结构进行合理的简化。比如把整个氨基酸简化为一个球,或就侧链简化成一个 或几个假原子( p s e n d oa t o m ) ,然后根据原来氨基酸的空间立体特征或物理化学性质赋 予相应假原子键长键角,这是一种侧链简化的算法。也有不简化而采用完整氨基酸 结构的算法。不过这种方法只能预测比较小的蛋白质或蛋白质的连接多肽区( 1 0 0 p ) 等。 2 3 正误构象的判断 蛋白质结构预测是否正确7 实验测定、结构解析得到的空间结构数据是否准确? 需要作出判断。在正误构象的判断方面,主要是发展预测中所用的能量函数,这种 能量函数共有3 类。 第类为分子力场,即根据经典的物理模型如谐振子模型等,结合一些光谱实 验数据,发展一种适合计算蛋白质构象的参数和相应的势能函数形式。这是一类比 较经典的方法。现在的主要力场有c h a r m m 力场、d i s c o v e r 力场、a m b e r 力场、s y b y l 力场等。这类方法虽然研究时间长,但多年来在蛋白质从头预测研究方面的应用一 直进展不大,而且很难应用到判断蛋白质整体结构的正误上。现在这些力场主要应 用在结构优化和蛋白质动态性质的研究上。 第二类为平均势函数。它是一种对现有蛋白质的各种性质进行统计得出各种性 质的分布,然后根据能量按b o l t z m a n 分布的原理,反推出一个所谓的能量函数,即 平均势函数,然后再以这个函数算出的能量作为正误判断的标准。现在用平均势函 数判断所测的晶体结构是否合理方面结果很好,它可以找出原来p d b 库中结构数据 1 0 华中科技大学硕士学位论文 测得不太准确的蛋白质,特别是加入和溶剂有关的能量项后,该方法非常灵敏。 第三类为根据蛋白质结构的特点总结出的简单的评估函数。如e n s e n b e r g 等把蛋 白质结构环境分为1 8 类,然后统计2 0 种氨基酸在这1 8 种环境出现的几率,最后总 结出判断有关氨基酸对某种环境的喜好程度的评估矩阵。在判断结构好坏时只需计 算这种函数值的高低。这种方法也叫3 d - p r o f i l e 方法。除了这种方法外,还有一些更 简单的评估方法,如考虑到蛋白质折叠主要靠疏水相互作用,所以在判断时如果两 个疏水残基相互接近时就便总能量值降低一定的数量,而其他的相互作用就对蛋白 质的结构能量没有影响。此外,还可以利用氢键和静电相互作用建立相应的简单的 评估函数,最后也按函数值的高低判断结构的好坏。这种势函数的好处是计算量小, 同时由于它只考虑主要的因素,参数较少,对研究蛋白质结构的本质问题十分有利。 由上面的讨论可以知道,蛋白质预测方法主要由3 个因素构成:蛋白质结构模 型、蛋白质构象搜索方法以及蛋白质构象好坏的判断或称势能函数( 评估函数) 。各种 预测无非是这3 个因素在各个层次上的组合。 2 4 现阶段几种主要的简单评估函数预测方法介绍 在以前计算经典力场的方法中,精确氨基酸模型和m o n t ec a r l o 模拟,模拟退火 等方法结合的比较多。但预测结果一直没有很大提高。近来发展了一些简单模型和 简单评估函数的方法,这些方法的预测结果比以前有了很大的提高,两且因摸型比 较简单,因素也比较少,对搞清楚影响蛋白质结构预测和蛋白质折叠的原理方面非 常有利。这方面的预测方法是一个很有发展前途的方向。有关简单评估函数做得比 较好的小组有k a d i l l 小组、g e o r g er o s e 小组、s o f i ni s r e a l 小组等。下面简要介 绍一下这几个小组的方法的基本原理。 2 4 1k a d iii 方法 k a d i l l 方法是属于用一个球来代表整个氨基酸的简化模型,用简单的评估 函数在晶格模型上系统搜索的预测方法。它在预测蛋白质的整体结构时有较好的结 果。它的原理非常简单,该方法认为蛋白质结构形成的最主要的驱动力是疏水相互 作用。所以如果在一个蛋白质结构中所具有的疏水相互作用越多,则蛋白质越稳定。 对此,他们设计的能量评估函数也十分简单。只要有两个疏水残基在晶格上相邻, 就给整个蛋白质的总能量降低一个数值,而其余的相互作用对蛋白质的总能量没有 影响,最后总能量最低的构象为最后的预钡4 对象。 华中科技大学硕士学位论文 2 。4 。2s o r i ni s r e a i 方法 s o f i ai s r e a l 方法是在k a d i l l 方法上改进的方法。它是h a r tw i l l i a m s 和s o f i a i s r e a l 两个数学家把k a d i l l 方法用数学手段进行修改,使之可以快速找出蛋白质 结构的方法。这个方法的基点是根据蛋白质结构最基本的两个限制,一是两个以上 氨基酸在晶格中不能占据晶格的同一个点,二是氨基酸之间按顺序连接,在晶格中 形成一个完整的肽链。根据这两个假设,可以把蛋白质分成若干个小区域。右每个 小区域内的疏水相互作用是不存在的,疏水相互作用只能在两个小区域之闸形成。 在找合理蛋白质构象时只需在可能形成疏水相互作用的氨基酸中去寻找而不用查找 整个蛋白质的氨基酸相邻,所以计算速度快。 2 4 3g e o r g er o s e 方法 g e o r g er o s e 方法属于利用简单的评估函数,以及简化的侧链模型,运用m o n t e c a r l o 模拟方法搜索限制性空间的预测方法。它在预测二级结构和超二级结构中有较 好的结果。 g e o r g er o s e 方法的原理,是基于他们对蛋白质折叠的认识。他们认为蛋白质的 折叠主要有4 个因素:是蛋白质的折叠过程是有层次的,即有的地方先折叠然后 带动其他地方,最后折叠成稳定的结构。是最后的稳定结构氨基酸之间不能违反 立体化学的原则。是折叠的主要驱动力是疏水相互作用和氢键。是蛋白质结构 有本身的构象特点,它在构象空间不是随意分布的,而只是出现在r a m a e h a n d m n 图 中几个特定的区域。然后它们针对这几个主要因素设计了相应的程序。 这种方法的优点是思黼晰,算法简明,预测局部结构结果比较好。 2 。5 蛋白质结构预测研究中的几种数理方法 我们现在已经知道在蛋白质结构研究的许多方面,比如结构预测、药物的分子 设计中,理论方法起了非常重要的作用。从原理上说它涉及了原子分子物理、凝聚 态物理、量子力学和统计物理等物理学科,要应用量子化学、计算化学和计算技术 的原理和方法。但是对生物分子这样大的体系,在研究过程中,为了计算的可行, 常常作各种近似。因此,很多数理方法能在生物大分子结构和功能研究中得到广泛 应用。 在蛋白质结构研究的某些合适的情况下,也可使用较为精确的物理模型,这包 括:量子化学从头计算( a b i r 曲o ) 方法;半经验的量子化学计算方法,如m n d o ,a m l 等程序最大可计算含有约5 0 0 个重原子的体系;密度泛函理论等。 华中科技大学硕士学位论文 2 5 ,1 遗传算法 生物体是最好的优化问题解决者,它们所展示的才能令最好的计算机程序相形 见绌。近年来,一种在思路和方法上都较新的优化算法一一遗传算法 ( g e n e f i c a l g o r i t b m s ,g a ) 在分子生物学研究中得到迅速的发展。遗传算法是一种全局 意义上的自适应搜索技术。它的得来是受启发于自然界的选择淘汰规贝和遗传学的 月理,地球上的生物在漫长的进化过程中,逐渐从最简单的低级生物发展到万物之 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下半年贵州高速公路集团有限公司统一公开招聘119人笔试参考题库附带答案详解
- 2025山东济南平阴县鲁中山河科技发展有限公司招聘4人笔试参考题库附带答案详解
- 2025天津市裕闻文化传播有限公司招聘20人笔试参考题库附带答案详解
- 2025呼伦贝尔额尔古纳市蒙源旅游文化有限公司招聘136人笔试参考题库附带答案详解
- 危险货物装卸安全知识培训课件
- 地铁安全培训实施指南解读课件
- 危险化学安全知识培训课件
- 固定资产盘点培训课件
- 固安县安全培训课件
- 地表钻安全培训课件
- 【《基于哈佛分析框架的爱尔眼科公司财务分析(数据图表论文)》13000字】
- 榆林市无人机管理办法
- 建筑公司安全管理制度范本
- 医保飞检培训
- 物流供应链融资方案计划书范文
- 2025年教学设计与评估能力考试试题及答案
- 亚朵酒店培训
- 医院医疗服务培训
- 农田植物养护方案(3篇)
- 破产清算审计管理制度
- YY/T 1947-2025重组胶原蛋白敷料
评论
0/150
提交评论