




已阅读5页,还剩50页未读, 继续免费阅读
(系统工程专业论文)基于神经网络与遗传算法的蛋白质结构的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 本文研究了神经网络预测蛋白质二级结构和用遗传算法来进行蛋白质折叠模拟 的各种模型,并且在前人的基础上对这些算法进行了一定改进。 首先,对于本文的立论、研究目的和研究意义进行了论述。综述了蛋白质结构 预测问题的研究概况和用神经网络和遗传算法进行蛋白质结构预测的各种研究模型 和方法。 蛋白质折叠问题是当今生物研究的重要课题,通过对已知空间结构的蛋白质分 子的研究和分析,人们发现尽管一条多肽链可能采取的构象数目是相当大的,但是 在蛋白质分子中,由二级结构组装而形成一定的空间结构的方式却是有限的。因此, 蛋白质的二级结构预测就成为解决由蛋白质的一级序列预测其空间结构这一问题的 最关键的步骤。人们已经用很多方法探索过这个问题。用神经网络预测蛋白质二级 结构是在1 9 8 8 年提出的,对预测蛋白质二级结构的三种状态:螺旋、折叠和卷曲预 测总的正确率与之前的其他各种方法比较,正确率是比较高。l ,户一一 本文将对原有的利用神经网络预测蛋白质二级结构的方法进行改进,考虑距离 对结构的影响,从神经网络的输入层着手,添加反映残基和预测中心位置距离的单 元。 悍在5 0 年代a n f m s e n 等人就已用实验证明:某些蛋白质在体外的一定条件下解 聚失活后可以自动折叠而恢复其原有高级结构与活性。这就意味着蛋白质折叠的全 部信息蕴藏在蛋白质的一级结构中。蛋白质级结构决定其高级结构是用各种方法 来进行蛋白质结构预测的理论基础。夕7 。一 本文也对蛋白质二维折叠模拟作了探讨。在利用m o n t e c a r l o 方法和单纯遗传算 法对二维晶格模型作模拟计算的基础上,研究了适用于蛋白质二维折叠模拟的混合 遗传算法。而且为了改进蛋白质折叠模拟,采取一种新的基于遗传算法的系统交叉 构象搜索方法。 j j 关键词:蛋白质二级结构:蛋白质折叠j 神经网络t 遮金遗传算法 :二维磊稻诬1 荔霞寿丐酗 :二= :二二二:二i = :二二:二 i 华中科技大学硕士学位论文 a b s t r a c t ar e s e a r c hi sm a d ei nt h i sd i s s e r t a t i o na b o u ts o m em o d e l so fn e u r a ln e t w o r kf o r p r o t e i n s e c o n d a r y s t r u c t u r e p r e d i c t i o n a n d g e n e t i ca l g o r i t h m s f o r p r o t e i nf o l d i n g s i m u l a t i o n s ,a n di m p r o v e ds o m e m o d e l sb a s eo nt h eo t h e r sr e s e a r c h i nt h ef i r s t ,t h et h e m e 。a i ma n dm e a n i n go ft h er e s e a r c ha r ec l a r i f i e d as u r v e yi s p r e s e n t e d o np r o t e i ns t r u c t u r ep r e d i c t i o np r o b l e ma n da l lt h em e t h o da b o u tp r o t e i n s t r u c t u r ep r e d i c t i o nu s i n gn e u r a ln e t w o r ka n dg e n e t i ca l g o r i t h m s , p r o t e i nf o l d i n gp r o b l e mi sa l li m p o r t a n tp r o b l e mi nb i o l o g yr e s e a r c ht o d a y , t h r o u g h r e s e a r c h i n ga n da n a l y z i n g t h ep r o t e i nm o l e c u l et h mh a sk n o w nt h es p a c es t r u c t u r e ,p e o p l e f o u n dt h a td e s p i t et h el a r g en u m b e ro f p o s s i b l ec o n f o r m a t i o n so f aa m i n oa c i ds e q u e n c e , b u ti nap r o t e i nm o l e c u l e t h em e a n so f a s s e m b l i n ga n df o r m i n g t h es p a c es t r u c t u r ef r o m s e c o n d a r ys t r u c t u r ea r el i m i t e d 。t h e np r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o nb e c o m e st h e m o s ti m p o r t a n ts t e po f p r e d i c t i n gt h es p a c ec o n f o r m a t i o nf r o mp r o t e i nm o l e c u l e p e o p l e h a v er e s e a r c h e dt h i sp r o b l e mi nm a n y w a y s + h l 19 8 8 。n e u r a ln e t w o r kh a v eb e e n e m p l o y e d f o rp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n f o rp r e d i c t i n gt h ep r o t e i ns e c o n d a r ys t r u c t u r e s u c ha sh e l i x ,s h e e ta n dc o i li ti sf o u n dt h a tt h en e u r a ln e t w o r ki s s u p e r i o rt o o t h e r m e t h o d s i nt h i sd i s s e r t a t i o n , t h et r a d i t i o n a ln e u r a ln e t w o r kf o rp r o t e i ns e c o n d a r ys t r u c t u r e p r e d i c t i o ni si m p r o v e d c o n s i d e r i n gt h ei n f l u e n c eo fd i s t a n c e ,c o m m e n c i n gw i t hi n p u t l a y e ro f n e u r a ln e t w o r k ,au n i ti sa d d e dt or e f l e c tt h ed i s t a n c eb e t w e e nr e s i d u e sa n dt h e p r e d i c t i n g c e n t e r 斑t h e1 9 5 0 s i tw a s p r o v e db y h n 煎n s e nt h a ts o m e p o l y m e r i z e da n di n a c t i v i t yp r o t e i n i ns o m ec o n d i t i o nc o u l db ef o l d e da u t o m a t i e a l l ya n dr e s t o r et h eo r i g i n a ls t r u c t u r ea n d a c t i v i t y i tm e a n st h a ta l lt h ei n f o r m a t i o no fp r o t e i nf o l d i n gc o n s i s ti nt h ea m i n oa c i d s e q u e n c e t h ea m i n oa c i ds e q u e n c ed e t e r m i n i n g i t ss e n i o rs t r u c t u r ei st h e o r e t i c a lb a s i so f v a r i o u sm e t h o d s a p p l y i n g t op r o t e i ns t r u c t u r e p r e d i c t i o n ar e s e a r c ho nt h ep r o t e i nt w o d i m e n s i o n a lf o l d i n gi sa l s om a d ei nt h i sd i s s e r t a t i o n i i 华中科技大学硕士学位论文 b a s e do nt h em e t h o do f m o n t e - c a r l oa n ds i m p l eg e n e t i ca l g o r i t h m sf o rp r o t e i nf o l d i n go n t w o d i m e n s i o n a ll a t t i c em o d e l ,am e t h o do f h y b r i dg e n e t i ca l g o r i t h m sf o rp r o t e i nf o l d i n g i sr e s e a r c h e d t oi m p r o v et h ep r o t e i nf o l d i n gs i m u l a t i o n ,i i n v e s t i g a t e dan e ws e a r c h s 口a t e g yi nc o m b i n a t i o nw i t l lt h es i m p l eg e n e t i ca l g o f i t h m s w h i c hi sn a m e ds y s t e m a t i c c r o s s o v e l - k e y w o r d s :p r o t e i ns e c o n d ;3 1 ys t r u c t u r e h y b r i dg e n e t i ca l g o d t h m p r o t e i nf o l d i n gn e u r a ln e t w o r k t w o d i m e n s i o nl a t t i c em o d e ls e a r c hs t r a t e g y i i i 华中科技大学硕士学位论文 1 绪论 摘要本章将给出本文立论的来源、目的和意义,介绍蛋白质结构预测问题的 研究概况,特别是基于神经网络与遗传算法的蛋白质结构预测的研究进展,并介绍 全文研究的内容和结构安排。 1 1 蛋白质结构研究的意义 2 0 世纪生命科学的巨大进展在于基本完成了从对生命现象的外观描述逐步进入 到认识生命现象本质的转变,这是人类认识自然以及认识自我的一大飞跃。这一转 变是数理科学广泛而深入地渗入生物学的结果,其标志是5 0 年代初运用x 射线衍射 技术探明了生命遗传物质脱氧核糖核酸( d n a ) 分子的空间结构,即双螺旋结构。d n a 双螺旋结构的发现阐明了遗传的本质,揭示了生物体世代相传现象的分子基础,从 而开创了在分子水平上认识生命现象的新学科分子生物学4 j 。分子生物学的出 现是经典生物学转变成近代生物学的里程碑。尽管自然界的生物物种千千万万,生 命现象繁杂纷飞,在分子水平研究生命,使我们认识到各种生命现象的基本原理却 是高度一致的! 从最简单的单细胞生物到最高等的人类,它们最基本最重要的组成 物质都是蛋白质和核酸。核酸是生物体遗传信息的携带者,所有生物体能世代相传, 就是依靠核酸分子可以精确复制的性质。蛋白质则是生命活动的主要承担者。所有 的生命活动,呼吸、运动、消化、甚至感知、思维和学习,无一例外是依靠蛋白质 来完成的【4 1 。 二十世纪生物学领域最重要的成就之一,是继d n a 双螺旋结构的发现总结出分 子生物学的中心法则,揭示生命遗传信息传递的方向和途径。近半个世纪以来对阐 明中心法则有关问题有杰出贡献而获得诺贝尔奖的学者先后多达3 4 位。分子生物学 的中心法则简单表达如下( 图1 1 ) :分子生物学的中心法则中,d n a 和核糖核酸 ( r i g a ) 的复制、d n a 转录成r n a 、r n a 逆转录成d n a 以及以信使r n a 为模板 翻译成多肽链的过程和机制基本上已经阐明【1 i i ”。现在的问题是,这一过程是怎样得 到调节控制以适应生物体在不同发育阶段和不同环境下的需要的。这不但是细胞发 华中科技大学硕士学位论文 育分化的基础,也和生物体与各种环境因素的相互作用有密切关系。另一个问题是, 蛋白质分子除有一定的氨基酸顺序外,还必须有一定的空间结构才能体现其生物功 能。因此,在核糖体上合成出来具有一定氨基酸顺序排列的多肽链,也就是新生肽, 怎样生成有一定空间结构的蛋白质,即新生肽链的折叠问题,也是属于分予生物学 中一1 1 , 法则范畴但目前还没有解决的问题。当前,通过遗传工程或蛋白工程得到的多 肽链不能自发折叠卷曲生成有一定空间结构并具有完整生物功能的蛋白质。蛋白质 的三维空间结构异常,就会产生各种“折叠病”。疯牛病、老年性痴呆症、囊性纤维 病变、家族性高胆固醇症、家族性淀粉样蛋白症、某些肿瘤、白内障等等都是“折 叠病”。这种三维空间结构异常是由于致病蛋白质分子通过分子间作用感染正常蛋白 质而造成的。致病蛋白质分子与正常蛋白质分子的构成完全相同,只是空间结构不 同。基因突变造成蛋白质分子中仅仅一个氨基酸残基的变化就会引起疾病,即所谓 “分子病”,如地中海镰刀状红血球贫血症就是因为血红蛋白分子中第六位的谷氨酸 突变成了颉氨酸。现在发现蛋白质分子的氨基酸序列没有改变,只是其结构或者说 构象有所改变。因此,研究蛋白质的折叠问题不仅具有重大的科学意义,而且在医 学和在生物工程领域具有极大的应用价值。除此之外,在生物工程上也有极大的应 用价值6 1 。基因工程和蛋白工程已经逐渐发展成为产值以数十亿美元计的大产业, 进入2 l 世纪后,还将会有更大的发展。但是当前经常遇到的困难,是在简单的微生 物细胞内引入异体d n a 后所合成的多肽链往往不能正确折叠成为有生物活性的蛋 白质而形成不溶解的包含体或被降解。这一瓶颈”问题的彻底解决有待于对新生肽 链折叠更多的认识。 俞转录喻 d n a ;= = = 三r n a 腊录么 蛋白质 图1 1 遗传信息的中心法则 1 2 关于蛋白质结构预测问题的研究概况 蛋白质结构预测主要问题是:如何根据蛋白质的氨基酸组成和顺序预测蛋白质 华中科技大学硕士学位论文 的折叠类型,如何根据一个多肽链的氨基酸顺序预测其二级结构,不同的二级结构 又组戒特定的三级结构,亚基又组装成完整分子。蛋白质结构预测的璎论预测方法 霹分为三大类,毙较建模法,反蠢摄叠法和觚头鬏溺法。跑较建模法主要楚露源结 掏预测。反向砉唾叠法是把来鲣蟹自膜款窿列蒡爨已知的这秘结构进行匹酝,技出一辩 或几种匹配最好的结构作为未知蛋融质的预测结构,它的局限性怒假定的蛋白质扳 叠类型是肖限的。从头预测法是根据蛋白质的氨基酸序列来预测猿白质的二级结构 和高级结构。从头预测法又分为以下几种:二级结构预测、超二级结构预测、结构 类螫的预测、三级结构静预测簿】【9 ”1 2 。 尽管一条多默链豹戆采取的稳象静数妥蹩挺当丈懿,僵在蛋巍震分子中,赉二 级结构组装而形成一定的窆阉结构的方式却愁毒陡躲,因此摄叁壤豹二级结构预测 就成为解决蛋白质的一级序列预测其空间结构这一问题的最关键的步骤。二级结构 预测成功率可以达到8 0 的话,就可以基本准确的预测一个蛋白质分子的三维结构。 冀前几乎所有这些预测蛋白质三级缩构的方法都假定蛋臼质的二级结构主要是由邻 近残萋海酌短稽相互作蘑所决定的,然精通过对一些已知空阀结构的登自质分子进 行分辑,魍纳,裁定毽一套鞭测援粼,并掇攒这些蕊裂辩萁健一致或来知结梅敬爱 白质分子的二级结构进行预测,这些都可以归类予已鸯知识的预测方法。奏三秘攀 用的二级结构预测的方法,c h o u f a s m a n 方法,g o r 方法和l i m 方法。c h o u f a s m a n 方法怒统计学的方法,统计出2 0 种氨基酸出现在口螺旋,口折叠。以及无规卷曲三 种构象中的频率然后计算出每张氨基酸出现在上述三秽构象中的稳象参数尹,某个 残基数梅象参数定义隽p ,= f ( x i ) f ( x ) ( x _ g 螺旋,声援叠,无鼹卷鏊) 其巾f ( x ) 为整个数攒库串橘象x 密现韵频率,厂( t ) 位残基f 中x 出现豹频率。构象参数值褥 大小蔽获了该静残基蹬现在菜一构象倾商性静大小。c h o u 和f a s m a n 制定出一套a 螺 旋的成棱惩 孛翻终壹援剐,震予对一个邑躲序列的多默链进行二级结稳 燹测。魏方 法的优点悬橡象参数的物耀意义明确,方法中二级结橡魄成核,惩 孛鼹中止援则霹 能正确的反映了真实蛋白质中二级结构形成的过程。此方法麓便,但是成功搴仅为 5 0 ,是最低的预测方法。g o r 方法是以信息论为基础的,本质仍属于统计举的方 法。这种方法不仅考虑了被预测位甏本身氨基酸残基种类的影响,而且考虑了相邻 华中科技大学硕士学位论文 残基种类对该位置构象的影响。假定相邻片断所含的信息可以近似表示为若干个直 接信息量的简单相加,根据这一公式和相应的直接信息量表,就可以对一条肽链中 任意位置残基的构象进行预测。预测的成功率可以达到6 3 。这种方法的优点是物 理意义清楚明确,数学上比较严格,很容易写出相应的计算机程序,但是表达式复 杂。l i m 方法是物理化学的方法。它考虑了氨基酸残基的物理和化学性质,如亲水 性,疏水性,带电性以及体积大小,同时考虑了邻近残基间的相互作用,从而制定 出一套预测规则。l i m 方法是这三种方法中预测成功率最高的,对无规则卷曲的预 测过多,对1 3 折叠预测不足。对于序列长度小于5 0 个氨基酸残基的多肽链,其预测 准确率高达7 3 。经常使用的二级结构预测方法还有c o h e n 方法,模式识别,神经 网络方法t 3 - 1 4 。 超二级结构预测是比二级结构的结构层次更高的结构预测,它实际上已经是局 域的空间结构预测问题。 蛋白质结构类型的预测是指预测未知蛋白质的结构属于全口蛋白质( 主要由a 螺旋组成的蛋白质) ,全声类蛋白质( 主要由卢折叠组成的蛋白质) ,还是口类( 由 口螺旋和卢折叠交替排列组成的蛋白质) ,或口+ 卢类( 由分开的口螺旋和折叠组 成,其中折叠一般为平行结构) 。结构类型预测出可以让人们了解蛋白质结构折叠的 大致情况外,对二级结构的预测也很有帮助 1 5 - 1 8 】。 蛋白质的三维结构预测主要分为两个大的方向:一是根据二级结构预测的结果 以及蛋白质结构类型和折叠类型预测的结果,考虑到结构间的立体化学性质,亲疏 水性质,氢键以及静电相互作用,把可信度较高的二级结构进一步组装,搭建出最 后的蛋白质空间结构。二是不依赖二级结构预测的结果,直接预测三维结构的方法。 最原始的方法是借用成功的应用小分子构象研究的分子动力学和分子热力学方法。 对整个构象空间进行搜索,然后找出能量最低的构象作为最后的预测构象。现在三 维结构预测已经转变为如何有效的搜索构象空间和如何区分天然结构和错误结构的 问题。在构象搜索空间方面,现在主要的发展有两个方向:一是把常规的构象搜索 技术和根据蛋白质结构特点相结合的算法。如系统搜索算法,m o n t o c a r l o 方法,遗 传算法,模拟退火方法,晶格模型,限制空间搜索。二是对蛋白质结构进行合理的 简化【1 9 - 2 8 】。 4 华中科技大学硕士学位论文 1 3 基于神经网络与遗传算法的蛋白质二级结构的研究进展 目前,有关蛋白质结构的数据可由一些数据库提供,这些数据包括x 射线及 n m r 测试结果。在结构数据的基础上,采用人工神经网络可对蛋白质的模式或特征 进行预测。先驱工作是0 i a i l 和s c j n o w s k i 对二级结构的预测,其后的研究就很快开 展起来了。用神经网络预测蛋白质二级结构的方法主要是根据构成蛋白质的氨基酸 种类及其排列顺序来判断蛋白质的二级结构。神经网络预测蛋白质二级结构的典型 结构为三层,即输入层、隐蔽层和输出层。运用这类神经网结构,8 0 年代后期其预 测准确率仅达6 4 。后来人们试图改善神经网络的性能,如除了氨基酸的组成外, 同时引入其它物理化学性质,如疏水性等。还有人运用二神经网络,即第一神经网 络的输出作为第二神经网络的输入以期改进所得结果1 2 9 。”l 。 过去几年中,用遗传算法进行蛋白质结构预测也作了许多研究工作。尽管如此, 由于这个方法可以应用于不同层次的蛋白质结构预测,而且,从不同评估函数的效 率来区别搜索性质也存在一定困难,因此,建立实用的遗传算法的进展开始变得缓 慢起来1 3 3 - 3 5 】。 c a s p ( c r i t i c a la s s e s s m e n to f s t r u c t u r ep r e d i c t i o n ) 是上一个大型蛋白质结构预测评 比活动( h t t p :p r e d i c t i o n c e n t e r 1 l n l g o v ) ,它代表着蛋白质结构预测领域的世界前沿水 平。1 9 9 4 年由马里兰大学生物技术研究所的j o h nm o u l t 等倡议组织了第一次c a s p , 此后每两年举办一次。组织者将这一活动作为一种大规模的实验,旨在对当时的蛋 白质结构预测技术水平有一个深入客观的了解,掌握当前的方法能够做什么,存在 的困难以及将来的发展方向。c a s p 主要包括三部分内容:目标蛋白质序列的收集, 来自结构测定者提供的届时将完成x 射线晶体结构或n m r 结构测定的蛋白质,或 者是已经测定但还没有公布的蛋白质。由于目标蛋白质的结构是未知的,所以实验 是全盲预测。蛋白质结构预测模型的收集。对于蛋白质结构预测领域的工作者来 说。这是一次预测技术竞赛,它对所有人开放,世界各地的参赛者可以从互联网上 注册,获取目标蛋白质序列和提交预测模型。1 9 9 4 年的c a s p l 有3 5 个参赛组提交 了1 3 5 个预测模型,发展到2 0 0 0 年的c a s p 4 已经上升到1 6 0 个参赛组提交了1 1 0 0 0 多个预测模型。蛋白质结构预测模型及方法的评估,组织会议公布和讨论结果。 由于在c a s p 中所提交的很多预测模型,尤其是比较好的预测模型很大程度上依赖 华中科技大学硕士学位论文 于专家知识的参与,而要处理那些迅速增长的基因组序列,要求快速而且自动化的 预测方法,所以f i s c h e r ( n ! 虫;坚! 型! :b 耻:堑:i ! 缝鱼錾h 酲e s 2 ) 等组织了c a f a s p ( c r i t i c a la s s e s s m e n to f f u l l ya u t o m a t e d s t r u c t u r ep r e d i c t i o n ) ,对完全自动化的蛋白质结 构预测方法进行评价。c a f a s p 2 已经成为c a s p 4 的一个组成部分 3 6 4 3 1 。 1 4 本文研究内容介绍 本文的主要目的是利用一些智能化的优化方法来研究蛋白质的二级结构预测。 研究蛋白质的折叠问题不仅具有重大的科学意义,而且在医学和在生物工程领域具 有极大的应用价值。本文在前人的基础上,对用人工神经网络、遗传算法预测蛋白 质二级结构的算法进行了研究。首先,在第二章,我们研究了蛋白质,和蛋白质的 二二级结构,介绍了人工神经网络和遗传算法的基本概念,工作原理,和实施步骤。 对人工神经网络和遗传算法有了比较深入的了解。然后在第三章,我们在前人所作 的工作的基础上,对常规的人工神经网络模型进行了改进,考虑了蛋白质二级结构 预测的时候其相邻残基的影响作用,然后用这种方法对己知的蛋白质结构数据库中 的一些结构数据进行了预测。在第四章,我们对遗传算法在蛋白质二级结构预测中 的应用进行了研究。最后一章是全文的总结,总结了本文中的人工神经网络算法和 遗传算法在蛋白质二级结构预测中的成功率,并且对这些算法在应用在蛋白质结构 预测中进行了展望。 华中科技大学硕士学位论文 2 蛋白质结构与蛋白质结构预测 2 1 蛋白质结构 蛋白质是一种生物大分子,是生命活动的主要承担者,一切生命活动都与蛋白 质有关。有机界中蛋白质种类数在l o ”l o ”数量级。尽管如此,从细菌到人类的所 有物种的蛋白质主要由2 0 种常见氨基酸组成。它们都有一个中心a 一碳原子( e ) , 巴与一个氢原子( h ) ,一个氨基( n h :) 、个羧基( c o o h ) 和一个被称为侧 链的r 基团相连。2 0 种氨基酸的差别在于与c 。相连的侧链基团r 的不同。 o h h 庐占八 0 i “ 图2 1 氨基酸分子结构 在蛋白质分子中,一个氨基酸的a 一羧基与另一个氨基酸的口一氨基缩合脱去一分 子水而形成酰氨键( 也成肽键) 。多个氨基酸由肽键相连形成多肽链,它是一个没有 分支的链。多肽链中由一个氨基,一个岱碳原予以及一个羰基( c = 0 ) 的重复单 位构成主链,也成为骨架;与c 。相连的r 基团称为侧链;主链中从氨基的氮原子( n ) 到羰基的碳原子( c ) 的一个单位成为残基。多肽链的构造单位两端不同,因此, 多肽链有方向,一般按为起始端,向c 端延伸。多肽链的氨基酸序列是从氨基端 残基开始的。蛋白质中氨基酸残基的排列次序成为蛋白质的一级结构,它由带有遗 传信息的r n a 序列的三联密码决定。肽链中从一个a 一碳原子到相邻口碳原子之间 的结构成为肽单位。a 碳原子与羰基之间形成纯碎的单键,可以自由转动,用v 表 示。a 碳原子与氮原子间也是可以自由转动的单键,用伊表示。如果蛋白质中每个 华中科技大学硕士学位论文 n 一一c 。圈一c 。h 二坚也h 科一( r h e l 至i i 三i 至型r h 2 一c 。h 图2 2 肽键的形成 h ,卜奠c 卜舳奠c 沪_ c 。篡c 。一,c 奠c o o h,n c h c o - 一n h c h c 沪n h c h c o n h c h c o n 卜h 一 氨基末端 攘基末端 图2 3 多肽链结构 氨基酸残基的妒、p 角已知,多肽链的构象就完全确定。在本文中,我们表示2 0 种 氨基酸的方法是通过简写符号表示的。下表中,列出了2 0 种氨基酸的简写符号。 表1 1 氨基酸的简写符号 三字母单字母 三字母单字母 名称名称 符号符号符号符号 丙氨酸( a l a r m e ) a l aa藏暾( 妇)l e ul 懒蛐咖畦)a 曙 r 攒黯跏 k 天冬酰胺( a s p a m g h ) a mn 甲硫奏黢( 矾蚰匝血譬) m e tm 天冬篓嗽锰聊证a 融)a s p d 笨丙氢酸c , t m , 2 h l a m e ) 砖鼍f 、翱* 氨酸( 瓣)娜 c燃脚) p 沁p 谷黜c g u a 衄) g h q 丝胺酸( i e ) s e ts 谷塑礅( 咖锰睡硝) g h le 苏莹酸( 吐w x 妇) t k t 甘蜘骏c g g - 妇) g y g 色舞睃蛔隹讪匝1 )t r p w 组氨酸( i m t i d i m ) h 瓷h 酪舞黢( 啦嘧譬)礅 y 异亮黯( i s c h l c 妇)难i颉蜜嗽( 岫e ) v a lv 2 1 1 蛋白质的二级结构 蛋白质是在水溶液的环境中行使其生物功能,为减小其疏水侧链与水介质的相 互作用,蛋白质形成空间结构必须遵循的重要原则是:将疏水侧链埋入分子内部, 将亲水侧链暴露在表面。自然界在进化过程中,选择的策略是在分子内部形成二级 华中科技大学硕士学位论文 结构。蛋白质的二级结构是指肽链中局部肽段的构象,他们是完整肽链构象( 三级 结构) 的结构单元,是蛋白质空间构象的基础,也可称为构象单元。各类二级结构 的形成几乎全是由于肽链骨架中的羰基上的氧原子和亚胺基上的氢之间的氢键所维 系。某一肽段或者肽段间的氢键越多,它( 们) 形成的二级结构就越稳定,即二级 结构的形成有一种协同的趋势。最早的蛋白质二级结构是p a u l i n g 及其同事于1 9 5 1 年提出的口螺旋和口折叠,口转角,以及在2 0 世纪8 0 年代中期r o s e 等人提出的q 环形。 ( 1 ) 规则的二级结构 在这些二级结构中通常将螺旋看成是蛋白质复杂构象的基础。瑾螺旋( 如图2 4 所示) 又是最常见的规则的二级结构。在这些构象单元中,所有与口碳原子相连的 两个二面角y 和妒都是恒定的;p 为4 7 。,妒为一5 7 。同时,所有的肽键都是反式 的。在口螺旋中起到稳定作用的是肽链骨架中的第i 个羰基上的氧原子和第i + 4 个亚 胺基上的氢之间的氢键,因此,在肽段中近端的前三个亚胺基上的氢和其c 端的 最后三个羰基上的氢原子都不参与氢键的形成。a 螺旋除了具有特定的y 和妒角外, 还有一些特征的参数:每圈螺旋含有3 6 个残基;每个残基在螺旋轴上的投影,即每 图2 4 蛋白质分子中的口螺旋结构 华中科技大学硕士学位论文 圈螺旋沿螺旋轴上升1 54 ;每圈螺旋的螺距为5 4 4 ;在每对氢键间包含有1 3 个原 子。一些二级结构还可以形成更为复杂的螺旋样结构。例如,三股胶原的左手螺旋 倾向形成超螺旋,某种两亲螺旋还能形成螺旋的螺旋。近年来发现卢折叠也能形成 一种全新类型的卢螺旋。卢折叠是蛋白质中有一种普遍存在的规则构象单元,它可 看成是一种特殊的螺旋。a 螺旋每圈含有3 6 个残基,将它拉伸,使每圈仅含有2 个残基,就成为了卢折叠。从已知球状蛋白的立体结构中统计的结果是,每股折 叠的平均长度约为2 0 a ,相当于6 5 个残基,通常含有3 1 0 个残基。声折叠中同一 肽段邻近肽键间很难形成氢键,因此单股口折叠是不稳定的。只有通过较远距离的 肽键之间形成的氢键,将多股折叠组合成一组折叠,一般称为片层结构。构 成片层的几股卢折叠走向相同的是平行的片层,走向相反的则是反平行的片 层。在平行片层中,y 为+ 1 1 3 。,妒为。1 1 9 。;每个残基在肽链前进的方向上的 投影为3 2 5 a ;每个重复单位中含有2 个残基。在反平行片层中,y 为+ 1 3 5 。,妒 为1 3 9 。;每个残基在肽链前进的方向上的投影约3 3 3 5a ;每个重复单位也含有 图2 5 蛋白质分子中的口折叠结构 华中科技大学硕士学位论文 2 个残基。两种类型的片层相比较,反平行的片层比平行的片层更为稳定。 有的反平行的片层中的各股折叠为一些较长的肽段所间隔。而平行的片层则 全是由些在肽链中相距较远的肽段组成,而且在片层中,各股折叠并不定 按照在肽链中( 从端到c 端) 的先后顺序排列。绝大多数口片层中的一些芦折叠 并不是在一个平面中,是呈扭曲状,也是按右手螺旋的方向扭曲的。在某些反平行 的卢片层中,有一股折叠中有一个残基的肽键没有参与和相邻的卢折叠间的氢键, 致使这一部位有所凸起,这一现象被称为口凸起。 ( 2 ) 部分规则的二级结构 如果蛋白质的肽链中只有规则的二级结构,就不可能有如此多样化的蛋白质的 立体结构。因此,这些部分规则的二级结构对球状蛋白质构象的形成是非常重要的。 在规则的二级结构中,不论是螺旋还是口折叠组成的片层结构中,都存在着较多的 氢键,致使规则的二级结构都有相当的刚性。如果一段肽段中,不存在氢键或其他 的相互作用,则肽段中的各个残基间有更大的自由度,没有刚性,从而表现出极大 的柔性,这类肽段没有规则性。部分规则的二级结构的特点在于,他们介乎前两者 之间,属于这一类型部分规则的二级结构有转角和环形两类。转角可看成是由几个 氨基酸残基构成的最小的反平行的p 片层,即截短的发夹结构,最常见的是芦转角, 因为卢转角有较大的柔性,致使卢转角又可分成很多不同的类型。除了转角外, 还有v 转角和刀转角。它们和转角的不同,只是在于转角中氢键位置的差异。在 肽段中由于第i 个残基和第i + 3 个残基间的氢键形成的转角为口转角;第i 个残基和 第i + 2 个残基间的氢键形成的转角为y 转角;第f 个残基和第i + 5 个残基间的氢键形 成的转角为厅转角。q 环形是近十年来才提出的一类二级结构。早年认为在蛋白质 的某些肽段是以无规卷曲的构象形式出现的。进一步观察,发现其中有相当的部分, 虽然不像口螺旋和折叠那样有规则,但是也有一定的规律可循,可以认为是有序 或准有序的结构。因这类肽段的外形和希腊字母“q ”相似,故称为q 环形。可以 华中科技大学硕士学位论文 看成是转角的延伸。q 环形的特征有以下两个方面:一由不超过1 6 个残基组成的肽 段,尤其以8 个残基的小环最多;二是这个肽段改变了蛋白质肽链的走向,构成q 环 的首尾两个残基间的距离小于1 0 a ,般介于3 7 a 1 0 a 之间,多数是5 a 7 a , 最常见的距离是5 a 5 5 a 。 ( 3 ) 蛋白质中的“无规”卷曲 尽管蛋白质的无规卷曲中有一些已经被归属于部分规则的环形结构,然而还有 一些肽段的局部结构,相对于前面介绍的规则或部分规则而言,是无规则的,它们 有更大的任意性。可是这些肽段的构象又不能说是完全任意的,因为每一种蛋白质 肽链中存在的这类型肽段的空间构象又几乎是相同的。即是在蛋白质中的无规卷 曲也是有其特定的构象的。 2 1 2 蛋白质的超:级结构 在蛋白质结构中,常常发现两个或几个二级结构单元被连接多肽连接起来,进 一步组合成有特殊的几何排列的局域空间结构,这些局域空间结构称为超二级结构。 由1 2 螺旋与连接多肽组成的最简单的具备特殊功能的超二级结构记为口一l o o p 口。由 折叠形成的简单的超二级结构,是两条反平行卢折叠链由连接多肽连接而成。这 一结构称为卢发夹。发夹常常发生在反平行结构中,这个类型的超二级结构为 卢一l o o p 一声。声发夹结构作为隔离卢折叠带或更复杂的卢折叠片的一部分。卢折叠 链之间的连接多肽的长度,比较普遍发生的情况为2 4 个残基。比较简单的超二级 结构还有a l o o p - # 结构和一l o o p a 结构,a l o o p 一声结构表述的是连接多肽将两个 不同类型的二级结构单元一一口螺旋和折叠,连接起来形成的超二级结构。 口一l o o p 口超二级结构代表多肽链由折叠经过连接多肽到a 螺旋的局域空间结构。还 有卢一口一p ,和卢回形拓扑结构。图2 6 中为出现在蛋白质分子中的 部分超二级结构。研究发现,蛋白质超二级结构的结构类型是有限的。经过计算分 析研究,得出比较频繁发生的超二级结构的结构类型共有4 大类,1 1 种构象形式。 超二级结构的构象形式并不是所有可能构象的随机组合。超二级结构的构型类型与 华中科技大学硕士学位论文 豳脚内 图2 6 蛋白质分子中的超二= 缀结构 a at 2 组合b 8p 挣p 缎台c p 氇p 翅台 连接敝所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象有关。 超二级结构函大构蒙类型难a 搦角,口发夹,筘发夹和拱桥结构等。这些超二级结 掏在蟹自骚静空溺结构孛都有确定的结构作瑙。在掰拐角的超二缀结构中,仃螺旋 经过连接黢弯了9 0 。,辑爨到哭一令空闯方囱主:或者表述爻不在嗣一平嚣静溪段搿 螺旋,由逡接默连接起来,其矢量夹蹙鸯9 0 。g 发夹描述敢是鼹条乎行静搿螺旋 被连接肽所连接。发夹指的怒被连接肽所连接的薅条反平行的辑叠链与连接敝 以其所形成的局域立体结构。拱桥型表示的是连接肽连接两个不在同一乎面的不网 类型的二级结构单元。蛋自质超二级结构和折叠子类可以看成是介于蛋白质二级结 构和高级结构之间的两个结构层次。在蛋白质结构数据库的研究分类中,一般的讲 折叠予包含一个或多个蛋囱质趱家族,这媲蛋臼质越家族中的碾白质核一t l , 结构相同。 由于一些蛩自质家族,它们之闻的蛋自质耜互阐序列同源性较低,健在许多情况下, 它们静结稳鼓及功能存在一定静相骰性,这表鸹它稻可驻存在共葡酌迸纯起源,这黧 蛋叁质家族绞穆趣家族。个蛋叁震超家族又毽台一个袋多个家族。蛋鑫康靛氨簇 酸序列耷3 0 以上固源性,或毒蛋巍震以及序列同源性缀低,但这些蛋自质的结捻 和功能非常相似,它们称为是间源蛋白质,属于同一个家族。不同的折叠予缀合成 不同的结构类型,结构类型主要有4 种,这4 个结构类型是:全a 蛋白,搿螺旋 含量大于4 0 ,卢折叠含爨小于5 ;全类型,髓螺旋含爨小于5 ,折叠含 羹大于4 0 ;a + 蛋白,口1 5 ,芦1 5 ,并且多数( 多于6 0 ) 折叠链反 平行狒列;a 卢蛋白,搿1 5 ,1 5 ,并且多数( 多于6 0 ) 折叠链平行 排列。 华中辩技大学硕士学位论文 2 1 3 蛋白质的三级缩构和结构域 在肽链局部的肽段形成二级结构以及它们之间进一步相互作用成为超二级结构 詹仍有一些敬段中的单键在不断的运动旋转,螽联中的各个部分,包括融经桷对稳 定兹越二缀结梅疆及还未键合静帮分,继续耱羹作掰,霞整个获段瓣内簸遴一步降 低,分子变撂更为稳定。耄二级结擒囱三级结梅过渡的过程中,曼翦认为毒一秘成 为熔球态的中间状态。在熔球态中,一些二级结构的构象单元已形成一定方式的立 体结构,但是和天然的构象还不尽相同,经过邋当的调整后,才转变成为具有生物 功能的立体结构。蛋臼质结构就过渡到了更高的层次,三级结构。三级结构可以定 义为,蛋白矮的虢链中所盛j 歇键和残蒸滴酌穗对位甏,这整相对的饭餮可以溺获键 懿两嚣燕帮些跟予阙懿鼷离定量鹣趣戳攘述。稳定豹三级结梅主簧是依靠备耱共 价键积蠛水作用,二硫键对蛋自赝的稳定和三级结梅的形成也起到槌当耋要懿作用。 在蛋白质分子结构中,几个或多个超二级结构在组合成复杂超二级结构之后,常常 与一些二级结构避一步组合,形成紧密的球形结构,称之为结构域。结构域是由二 级结构单元口螺旋,芦折叠,无规卷曲和超二级结构的不同组合而成的商级结构。 结构域是蛋臼质整体结构中具有相对独立的区域,是蛋白质形式生物功能的基本单 位。对太分子量酌多个结构域的球状疆自质而言,整个蛋白质的三级结构是几个结 构域空满捧裂组合的缩莱,夺分子蠢豹革个结聋奄域静球状蛋自质翡三缀结构氇就是 结构域蛇三级终构。遐慕浆缕搀域分笼6 耪不鄹类型:窿型蛋臼,是以a 螺旋这秘 二级结极为主,凌的撼至只含蠢g 螺旋;多型爨是,袁提当部分只禽舂梦扳鼗,或 者其中多据叠的含量逸远多于8 螺旋( 多辑叠 1 5 ,口潦旋 1 5 ,口 螺旋,1 0 ) ,但怒这两者构象单元分别聚集和分布在不同的区域;搿与相问型蛋 白( d ) ,同时含有折叠和搿螺旋,( 备自禽量都 1 0 ) ,而且遮两种构象单元 在肽链中是交替出现;“笼规”卷曲型蛋白,一些分子量较小、二硫键禽量商较高 的蛋白质大多属于这样类型;还有其他类掇。结构域的组合可归属于三种类型:含 有序列类似的结构域酌蛋自质;含有两种不同结构域的蛋白质;多结构域蛋白质。 华中科技大学硕士学位论文 下图为肌红蛋白和丙糖磷酸异构酶的三级结构图。 图2 7 肌红蛋白的三级结构和丙糖磷酸异构酶的三级结构图 2 1 4 蛋白质的四级结构 蛋白质的四级结构是一些特定三级结构的肽链通过非共价键而形成的大分子体 系时的组合方式,作为蛋白质四级结构组分的肽链被定义为亚基,弧基问的相互作 用都是非共价键。根据不同的原则,蛋白质的四级结构可以有不同的分类方法和类 型:按亚基的种类分类,一些具有四级结构的蛋白质根据亚基的组成可分为有相 同亚基和不同亚基构成的两大类型。按亚基的数目分类,可将具有四级结构的蛋 白质分为低聚体和多聚体两大类。成纤维状的蛋白质聚集体。按装配过程分类, 按装配的机制可分为随即装配和成核装配。其他类型和有关反应。蛋白质四级结 构的一个重要特征是亚基的有序排列,具有四级结构的蛋白质中的各亚基是按一定 的几何形状有规则地排列的。 2 2 蛋白质结构预测 自然界存在的蛋白质的总数虽然很大,但根据他们在序列上的相似性和进化 上的同源性,可以归为总数不是很大的蛋白质家族,并从它们所含二级结构又可 以归为有限数目的折叠类型。对于自然界存在的蛋白质折叠类型总数估计不到 1 0 0 0 种,这就使认识全部蛋白质三维空间结构的任务大大简化。蛋白质三维空间 华中辩技大学硕士学弦论文 结构预测的目的就是认识氮基激序列和缀白质空间结构的对应关系,就是解决第 二遗传密碣。当前国际上对蛋白质在体内外的折叠过程已有一定的了解,融取褥 静结鬃说明第二逮转密码是存在显霹以被认识豹。解凌这一闰题要麸理论上磅究 爨自质的氨基酸序列如何决定篡空闽结槐,即蛋皇质空阕结构预测。在实验上研究 变性蛋白如何重新折叠恢复其天然构象,以及新生肽链如何折叠成完整蛋白质分子 的全部过程。 如果说“三联密码”已被破译而实际上已成为明硝,那么破译“第二遗传密码”正怒 “蛋白矮结构预测”觚理论上最誊接蟪去群决蛋囱质的挢鬟阔熬,这是蛋强震研究簸 羼几个避
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版高端别墅清洁人员劳动合同
- 2025年新能源汽车抵押融资合同样本
- 消费者选择行为变化-洞察及研究
- 2025年度生活垃圾运输合同废弃物处理设施运营环保责任合同
- 2025电商企业年度运营项目总监劳动合同
- 2025版试用期劳动合同:电力行业试用期员工安全生产责任书
- 2025版起重机安全认证买卖合同范本
- 2025版高端景观铁艺栏杆施工合作协议
- 2025年网络安全防护系统设计与实施合同
- 2025变更劳动合同协议书:文化用品企业销售员合同调整方案
- 子宫憩室护理查房
- 河南省开封市西北片区2023-2024学年九年级英语第一学期期末达标检测模拟试题含解析
- 体育开学第一课课件
- 被诈骗的起诉书范文
- 医院病历单请假用
- 肝胆外科专科知识题库及答案
- 滁州市珠龙广卫绢云母粉厂滁州市南谯区将军山绢云母矿1万吨-年露天采矿工程项目环境影响报告书
- 迷你中长导管-
- 钢质防火门安装施工方法
- 优化物理教学策略的思考(黄恕伯)
- GB/T 26358-2022旅游度假区等级划分
评论
0/150
提交评论