(流体力学专业论文)基于相对熵的蛋白质折叠、逆折叠方法的研究.pdf_第1页
(流体力学专业论文)基于相对熵的蛋白质折叠、逆折叠方法的研究.pdf_第2页
(流体力学专业论文)基于相对熵的蛋白质折叠、逆折叠方法的研究.pdf_第3页
(流体力学专业论文)基于相对熵的蛋白质折叠、逆折叠方法的研究.pdf_第4页
(流体力学专业论文)基于相对熵的蛋白质折叠、逆折叠方法的研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 蛋白质作为由氨基酸组成的链状生物大分子,是生命中最基本的组成部分 之一。它直接参与生物结构的形成,在生物功能的过程中起着重要的作用。由 于蛋白质只有保持它特有的天然三维结构才能发挥相应的生物功能,有关蛋白 质结构与功能关系的研究已成为分子生物学领域的热点问题之一。 蛋白质折叠问题主要研究蛋白质三维空间结构形成的规律、稳定性和与其 生物活性的关系。其研究焦点是具有一定氨基酸序列的多肽链( 一级结构) 如 何逐步折叠形成特定的三维空间结构。如果把这种一级结构决定空间结构的现 象也看作是一种密码,人们称它为“第二遗传密码”。蛋白质折叠是分子生物 学中心法则中联系生物遗传信息与功能的关键环节,这一问题的解决,将会极 大地推动人们对生物大分子结构与功能的认识。 蛋白质逆折叠亦称蛋白质设计,是分子生物学中一个重要且极具挑战性的 问题。它主要研究在已知蛋白质三级结构的情况下,如何找到适合该三级结构 的一级序列。蛋白质设计的研究在分子设计与药物设计等方面有广泛的应用前 景。蛋白质逆折叠的研究,是蛋白质全新设计( d en o v od e s i g n ) 的基础。该 研究的意义在于,不仅可用于研究自然界已有的蛋白质,还能设计出自然界不 存在的蛋白质。 蛋白质折叠问题和逆折叠问题紧密相联,很好的理解折叠机制将有助于解 决逆折叠问题,反之亦然。 本论文的工作包括三部分:第一部分是关于一种新的基于相对熵的蛋白质 设计方法的普遍近似。基于相对熵的蛋白质设计方法在提出时所做的一些近似 原则上是合理的,但由于这些近似只有在特定条件下才能成立,从而限制了该 方法的适用范围。本工作提出了新的近似方法,使基于相对熵的蛋白质设计方 法更具有普遍性,同时还提高了对蛋白质序列的预测精度。以前的方法可看作 新方法的特例。第二部分对基于相对熵的蛋白质设计方法是否适用于不同结构 类型的蛋白质作了研究,分析了该方法对2 0 种残基的预测成功率以及它们对 整体的预测成功率的影响,考察了二级结构中各残基的预测成功率以及它们对 整体的预测成功率的影响。结果证实了该方法普遍适用于四种结构类型的蛋白 质设计,也为基于相对熵的蛋白质设计方法的进一步发展做了准备;第三部分 是对基于相对熵的蛋白质折叠方法的扩展,提出了新的接触强度函数,使得该 方法更加合理,并提高了该方法的预测精度。 关键词蛋白质折叠:蛋白质逆折叠;相对熵;非格点模型;格点模型 i i a b s t r a c t p r o t e i n s ,w h i c ha r eb i o l o g i cm a c r o m o l e c u l e sf o r m e db ya m i n oa c i dr e s i d u e s , p e r f o r mn e c e s s a r ya n db a s i cf u n c t i o ni nl i f e t h e yp a r t i c i p a t ei nc o n s t r u c t i n gt h e b i o l o g i cs t r u c t u r ea n dp l a yt h ev e r yi m p o r t a n tr o l e sf o rt h eb i o l o g i cf u n c t i o n t h e s t u d yo nt h er e l a t i o n s h i pb e t w e e ns t r u c t u r ea n df u n c t i o no fp r o t e i n sa l eh o ti nt h e f i e l do fm o l e c u l eb i o l o g y , s i n c ep r o t e i ns h o u l dl o s ti t sf u n c t i o no n c ew i t h o u tt h e i r s p e c i a ln a t i v es t r u c t u r e t h ep r o b l e mo f p r o t e i nf o l d i n gi st os t u d y t h ep r i n c i p l eh o wc a np r o t e i n sh a v e t h es p e c i a ls t r u c t u r e sa n dt h er e l a t i o nb e t w e e nt h e i rs t r u c t u r e sa n db i o l o g i ca c t i v i t y t h ef o c u si sh o wt h ea m i n oa c i dr e s i d u e sc a r lf o l dp r o t e i n st h a th a v et h ep a r t i c u l a r s t r u c t u r e s ,w h i c hi sc a l l e dt h es e c o n dg e n e t i cc o d e p r o t e i nf o l d i n gi st h ek e yp o i n to f t h er e l a t i o n s h i pb e t w e e ng e n e t i ci n f o r m a t i o na n db i o l o g i cf u n c t i o ni nt h ec e n t r a l d o g m ao fm o l e c u l a rb i o l o g y t h eb i o l o g i cm o l e c u l a rw i l lb ew e l lu n d e r s t o o di ft h e p r o t e i nf o l d i n gp r o b l e m w i l lb es o l v e d p r o t e i ni n v e r s ef o l d i n g ,w h i c hi sa l s oc a l l e d 嬲p r o t e i nd e s i g n ,i st o i n v e s t i g a t e h o ww ec a nf i n dt h es e q u e n c ef r o mt h eg i v e ns t r u c t u r e t h e r ei sac l o s e r e l a t i o n s h i p b e t w e e np r o t e i n d e s i g na n dp r o t e i nf o l d i n g u n d e r s t a n d i n gp r o t e i nf o l d i n gw e l li sv e r yh e l p f u lt os o l v et h ep r o b l e mo fp r o t e i n d e s i g na n dv i c ev e r s a t h i sw o r ki n c l u d e st h r e ep a r t s :t h ef i r s to n ei sag e n e r a l i z e da p p r o a c ho fa p r o t e i nd e s i g nm e t h o d b a s e do nr e l a t i v ee n t r o p y ,w h i c hc a ni n c r e a s et h ep r e d i c t i o n p r e c i s i o nf o rp r o t e i ns e q u e n c ea n dw i l lb ei nf a v o ro f t h es t u d yf o rp r o t e i nd e s i g n t h es e c o n do n ei sas t u d yo nw h e t h e rt h ep r o t e i nd e s i g nm e t h o db a s e do nr e l a t i v e e n t r o p yc a nb eu s e d i na l l p r o t e i n sw i t hd i f f e r e n ts t r u c t u r e i t i sf o u n dt h a tt h i s i l l m e t h o dc a l lb ea p p l i e df o rp r o t e i nd e s i g no ff o u rk i n d so fs t r u c t u r e s ,a n di sa l s o u s e f u lf o rt h ef o l l o w i n gd e v e l o p m e n to ft h em e t h o d t h em i r d p a r to f w o r ki n c l u d e s m o d i f i c a t i o no ft h em e t h o d o l o g yo fp r o t e i nf o l d i n gb a s e do nr e l a t i v ee n t r o p y t h e p r e c i s i o no f s t r u c t u r ep r e d i c t i o ni si m p r o v e dw i t han e wc o n t a c tf u n c t i o np r o p o s e di n o u rw o r k k e yw o r d s :p r o t e i nf o l d i n g ;p r o t e i nd e s i g n ;r e l a t i v ee n t r o p y ;o f f - l a t t i c e m o d e l ; l a t t i c em o d e l i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:巡导师签名:蝉日期:型 斗 第1 章绪论 第1 章绪论 1 1 研究蛋白质折叠的背景和意义 1 1 1 概述 蛋白质是生命最基本的组成部分之一。它是长链型的生物大分子,分子量 可达到3 0 0 0k d a 。所有的天然蛋白质由2 0 种不同的氨基酸组成,不同氨基酸 之间的区别在于其侧链r 的不同。通常的蛋白质所含氨基酸残基数量从5 0 到 1 5 0 0 不等。氨基酸残基首尾相连,通过缩水而形成肽键,进而形成多肽链。多 肽链折叠成三维结构。蛋白质结构级别依次是:一级结构,指组成多肽链的线 性氨基酸序列,靠翻译过程中形成的共价键维持。二级结构,指依靠不同肽 键的c = o 和n h 基团间的氢键形成的稳定结构,如0 c 螺旋,1 3 片,1 3 发卡等。 超二级结构,由相邻二级结构单元组合而成的结构单位,可作为蛋白质三维结 构的构件。如1 3 0 1 3 单元、1 3 折叠桶等。三级结构,指由一条多肽链的不同氨基 酸侧链间的相互作用形成的稳定结构,它反映了多肽链各部分在三维空间中的 具体构型和协调。有的蛋白质由多条肽链组成,每条肽链称为弧基,亚基之间 又有特定的空间关系,称为蛋白质的四级结构。特定的多肽链可能有多于一个 的稳定构型,每种构型都有自己特定的生物活性,其中只有一种具有天然活性。 蛋白质是生命活动的主要承担者。几乎所有的生物催化剂都是蛋白质( 上 世纪末,人们发现某种r n a 序列也具有催化活性) 。另外与膜结合的转运结构 和离子通道、受体以及抗体等大都是蛋白质。构成细胞骨架和动物大部分结构 的纤维物质,皮肤、毛发、软骨和肌肉大部分也是由蛋白质组成。因此,针对 蛋白质分子特性的研究是探索生命奥秘中关键的一步。 由于蛋白质只有保持它特有的三维结构才能发挥相应的生物功能,三维空 北京工业大学工学硕士学位论文 间结构稍有破坏,就很可能会导致蛋白质生物活性的降低甚至丧失。对于蛋白 质空间结构的研究不仅具有重大的科学意义,而且在医学和在生物工程领域具 有广泛的应用价值。 二十世纪五十年代初w a t s o n 和c r i c k 根据核酸的化学结构和x 射线衍射 结果提出了生命遗传物质脱氧核糖核酸( d n a ) 分子双螺旋结构模型,阐明了 生物遗传的分子基础,开创了在分子水平上认识生命现象的新学科分子生 物学。继d n a 双螺旋结构的发现,c r i c k 总结出分子生物学的中心法则,它揭 示了生命遗传信息传递的方向和途径,是生命科学中最基本的规律。 分子生物学的中心法则简单表达如下:d n a 分子携带遗传信息:一个d n a 分子经过复制制造出完全相同的另一个d n a 分子,储存在d n a 分子核苷酸 序列中的遗传信息,通过转录储存在核糖核酸( r n a ) 分子的核苷酸序列中, 再通过三联密码翻译成组成蛋白质分子的氨基酸序列。人们把从r n a 翻译到 多肽链的三联密码称作“遗传密码”。 黼簪:撩赣鹄骜麟写蛋审零 壤糍 。 图1 1 中心法则 f i g 1 - 1c e n t r a ld o g m a 中心法则中,d n a 和r n a 的复制、d n a 转录成r n a 、r n a 逆转录成d n a 以及以m r n a 为模板翻译成多肽链的过程和机制基本上已经阐明。如何从多 肽链折叠成蛋白质,是从“遗传信息”到“生物功能”的关键环节,此过程有 待继续研究。如果把这种一级结构决定空间结构的现象也看作是一种密码,人 们称它为“第二遗传密码”。 由于蛋白质只有保持它特定的天然三维结构时才能发挥生物功能,于是问 - 2 - 第l 章绪论 题归结为:蛋白质的氨基酸残基序列如何控制蛋白质在空间中的结构。1 9 7 3 年 a n f i n s e n 通过实验川发现,变性的核糖核酸酶( r i b o n u c l e a s e ) 可以在适当的溶液 环境下重新折叠并恢复其生物活性,而且这一过程不需要任何细胞机制的辅 助。所谓变性,是指由于蛋白质的空间结构发生变化,导致蛋白质丧失其生物 功能的现象。应注意,在此处并未指明蛋白质的化学结构发生变化与否。蛋白 质对于它周围的环境十分敏感。它们仅在一个很小的p n 范围内并且含有少量 电解质的溶液中保持他们的活性或天然状态,许多蛋白质不能存在于蒸馏水 中。高温、高压、以及溶液中存在变性剂,如酸、碱、重金属或某些有机试剂, 都能引起蛋白质的变性。蛋白质变性时,维系其空间结构的次级键被破坏,原 有的空间结构解体。在弱变性条件下,蛋白质部分变性,肽链保持一定结构; 在强变性条件下,蛋白质会完全伸展为无规则的随机肽链。a n f i n s e n 的实验说 明,蛋白质一级结构已经包含了编码蛋白质三级结构的所有必要信息。这一发 现为蛋白质的结构预测提供了理论依据。同时,a n f i n s e n 的发现虽然揭示了氨 基酸序列决定蛋白质分子在热力学稳定空间结构的必然性,但并未阐明蛋白质 折叠的整个过程。 现在知道,绝大多数蛋白质从一条伸展的肽链折叠成有特定结构的有活性 的蛋白质,并不是一步完成的,而要经过许多折叠的中间状态。含有多个亚基 的蛋白质分子,亚基间的相互作用使之组装成复杂蛋白质分子。 近年来,人们发现一些蛋白质只有当其他某些蛋白质存在时才能正确的折 叠。这一现象引发了对蛋白质“自发折叠”经典概念的认识的转变和更新。现 在认为,有些情况下蛋白质在细胞内的折叠不能自发完成,需要别的蛋白质帮 助。这个新概念并不与a n f i n s e n 原理相矛盾,而是在动力学的观点上完善了 a n f i n s c n 原理。 1 9 8 2 年,美国加州大学的斯坦利普鲁西纳( s b p r u s i n e r ) 提出了“毒蛋 白”即“朊病毒”( p r i o n ) 的新概念即1 。p r i o r i 被认为是引起人和动物某些脑病 北京工业大学工学硕士学位论文 的根源,是疯牛病和克雅氏病的病因。更重要的是,具有相同的一级结构p r p 8 。 和p r p 。却具有不同的空间结构。一级结构完全相同的蛋白质为什么会有不同的 空间结构,这一发现引发了人们对a n f i n s e n 原理的深思。 1 1 2 分子伴侣 蛋白质折叠成正确的三维空间结构才能具有正常的生物学功能。如果形成 错误的空间结构,蛋白质不但丧失其生物学功能,甚至会引起疾病。在细胞内, 大多数天然蛋白质能自发的形成比较稳定的天然结构,或被配体和代谢因子所 稳定。近年来,人们发现一些蛋白质只有当其他某些蛋白质存在时才能正确的 折叠。目前已认识到的在细胞内帮助多肽链折叠的蛋白有两类:一类称为分子 伴侣蛋白,另一类是与折叠直接有关的酶,又称折叠酶。约1 0 2 0 新合成的 多肽链需要分子伴侣的帮助才能正常折叠。分子伴侣是指一类与其他蛋白不稳 定构像相结合并使之稳定的蛋白,它们通过控制结合和释放来帮助被结合多肽 在体内的折叠、组装、转运或降解等【4 1 。分子伴侣在蛋白质的折叠和组装中起 非常重要的作用,它是细胞内蛋白质折叠和组装的重要调节者。分子伴侣实际 上是生物克服细胞内大分子拥挤环境对蛋白质生物合成影响的进化产物。它与 靶蛋白的结合不具有高度专一性,同一伴侣分子可促进多种氨基酸序列不同的 多肽链折叠。它只是蛋白质分子折叠的协助者,本身并不包含正确折叠所必须 的构象信息。没有分子伴侣的参与,蛋白质依然可以折叠;有了分子伴侣,许 多徒劳无益的折叠途径可以避免,从而可大大提高得到正确折叠产物的效率。 现在发现,不仅蛋白质的折叠需要分子伴侣的帮助,d n a 分子和r n a 分子的 折叠也往往需要分子伴侣的帮助。分子伴侣的精细三维结构、结构与功能的关 系以及它们帮助生物大分子折叠的机制都在研究中。 一4 一 第1 章绪论 1 1 - 3 蛋白质的错误折叠和朊病毒 多肽链在细胞中折叠和成熟的过程并非能百分之百地完成,有时会由于转 录或翻译出现了错误,或受到各种环境刺激而损伤,此时组成蛋白质分子的氨 基酸序列并没有改变,只是其结构或者说构象有所改变。生物体内的保护机制 可确保蛋白质正确折叠。一般情况是,分子伴侣帮助多肽链肽正确折叠;对于 一些不能继续正确折叠的或错误折叠的蛋白质,则由特定的蛋白水解酶把其水 解成小分子后清除。如果这一机制发生障碍,那些未被分子伴侣保护,又未被 蛋白酶降解的错误折叠分子,就可能相互聚合,从而引起蛋白质构象病,或称 “折叠病” 5 1 。 牛海绵状脑病( 又称疯牛病) 、羊瘙痒病、人克雅氏病、震颤病和吉斯综 合症等疾病的病因,是由于正常蛋白的错误折叠产生的被称为朊病毒蛋白( p r i o n p r o t e i np r p ) 的致病蛋白在脑组织中累积形成的。 朊病毒产生于脊椎动物脑腔中,是一种只有蛋白质而没有核酸的病毒的新 型亚病毒。生物学中对于亚病毒尚无完整的定义,以往发现的只有一小段r n a 片段而无蛋白外壳的亚病毒称为类病毒( v i r o i d ) 。 p r p 是神经活动所需要的蛋白质,有两种形式,分别是细胞型p r p 。和异常 型p r p * 。正常细胞中p r p 。的序列以a 螺旋结构为主。当p r p 。中的o l 螺旋发生结 构转换从而变成b 折叠时,p r p 。就变成为异常型的p r p ”。正是p r p ”蛋白聚集 沉积引发了疾病并导致传染。值得注意的是,p r p 。与p r p ”拥有完全相同的氨基 酸序列,二者的区别在于空间结构不同。 如果在p r p w 中加入六氟异丙醇,则p 折叠重新转化为c c 螺旋,同时积聚溶解 并丧失传染性。导致正常蛋白质转变为致病蛋白质的折叠状态是通过蛋白分子 间的作用感染的。显然,周围环境对蛋白质折叠的影响不容忽视。体外的多肽 链往往不能正确折叠成为有生物活性的蛋白质,更易形成不溶解的包含体或被 降解。认识导致蛋白质错误折叠的原因和途径,是防止和治疗这类疾病的关键。 北京工业大学工学硕士学位论文 蛋白质构象元件的结构转换是导致蛋白质错误折叠的主要原因。具有b 折 叠结构的蛋白质容易形成积聚。蛋白质由于突变或其他因素引起仪螺旋向b 折 叠的转换或许是较普遍的结构转换模式。与仅螺旋相比,b 折叠含较多的菲极 性残基,并埋在蛋白质内部形成疏水核心。吖b 的结构转换导致疏水核的暴露 和亲水面的减少,容易引起蛋白质分子间形成交叉p 折叠结构( c r o s s p s h e e t ) , 这可能是引起p r p 等蛋白质分子积聚的主要原因。 1 1 4 蛋白质的结构转换 许多蛋白质含有相同的氨基酸序列段却形成不同的空间均象。结构转换现 象广泛存在于蛋白质折叠过程中,具有重要的生物学意义。 实验表明,蛋白质多肽片段在水溶液中具有与原同源肽段不相同的二级结 构 6 1 ,同一片段在不同的溶剂环境中能进行二级结构的构象转变i t l ,甚至同一 肽段在不同的蛋白质中的二级结构也不一样1 8 】。如天花粉蛋白的d 螺旋同源片段 在水溶液中则形成d 折叠结构,可在六氟异丙醇中转变为典型的c t , 螺旋结构【9 】。 当通过分子设计置换一半以下的氨基酸残基,可将一个p 挢叠为主的蛋自质成 功地转换成为全a 螺旋折叠类型的蛋白质0 】。可见,蛋白质有时会随着环境因 素的变化而进行结构的转换。 在适当条件下给定级序列,肽链能自发她折叠成特定空闰结构和生物功 能的蛋白质分子。上述例子表明并不是所有蛋白质的天然活性状态一定是热力 学上的最稳定态,动力学因素对折叠途径和亚稳态的形成有一定程度影响【l ”。 在某些特别蛋白质的折叠过程中,动力学因素的作用相当重要。 蛋白质自身经历着繁杂的生理过程。蛋白质自翻译以后,还需进行包括跨 膜转运、修饰加工、折叠复性、生化反应、生物降解等一系列的翻译后过程。 这些过程似乎都伴随着蛋自质的结构转换。近年来,由于某些蛋白质结构转换 和错误折叠所引起的构象病的发现,促使人们更加深入地研究蛋白质构象转换 6 第1 章绪论 与生物功能的关系。对这个问题的研究也有助于更深刻地理解蛋白质折叠过程 中的内部机制。 1 2 蛋白质折叠的研究现状 1 2 1 蛋白质折叠机制的研究 近年来,蛋白质折叠的研究引起了人们的广泛兴趣。由于蛋白质分子结构 本身的极端复杂性决定了折叠的研究不可能一蹴而就。蛋白质折叠的研究主要 是研究蛋白质特定三维空间结构形成的规律、稳定性和与其生物活性的关系。 这里最根本的科学问题就是多肽链的一级结构到底如何决定蛋白质的空间结 构。蛋白质折叠是一个涉及分子生物学、多聚体物理、无序系统物理学的交叉 领域,目前在理论上对蛋白质折叠的研究方法主要分为以下两大类。一类基于 物理机制,基本原理是假设蛋白质分子的天然构象处于自由能最小的状态,考 虑蛋白质分子中各原子间的相互作用以及蛋白质分子与溶剂之间的相互作用, 采用能量极小化方法,计算出蛋白质分子的天然空间结构。物理理论上对异聚 体( 包括蛋白质) 理解的重要突破来自s h a k n o v i e h 和g u t i n 的工作【1 2 l ,他们 采用随机链的一个简单模型,并假设任意两个单聚体间的相互作用遵从高斯分 布。这是第个包括了泡状态( g l o b u l a rs t a l e ) 压缩序列( q u e n c h e ds e q u e n c e ) 的 微观理论,把聚合物物理和自旋玻璃理论两者连接了起来,而后者也是蛋白质 折叠研究的条理论路线。无序系统理论 t 3 , t 4 l 促进了蛋白质折叠理论的重要发 展。这方面的先驱性的工作是b r y n g e l s o n 和w o l y n e s 基于蛋自质和自旋玻璃的 相似性建立的进行蛋白质折叠研究的种唯象处理方法i ”】。如上所说, s h a k n o v i c h 的随机能量模型的工作 1 2 】导致了用现代物理理论和观点对异聚体进 行微观研究的途径。另一类是从半经验方法和统计的角度( 如生物分子序列的 同源性比较) 进行研究,即从数据库中寻找已有蛋白质的空间结构与其一级序 北京工业大学工学硕士学位论文 列之间的对应关系,总结出一定的规律。利用此规律逐级从一级序列预测二级 结构,再建立可能的三维结构。再从诸多可能的结构中排除不合理的结构,根 据能量最低原理最终得到修正的结构。在具体应用上,第一种方法会遇到在数 学上难以解决的多重极小值问题,并受到计算机计算能力的制约。而第二种方 法又受n - - - 级结构预测精度的限制,以及数据库容量的限制。 对蛋白质折叠的理解应注意以下三个方面:( 1 ) 蛋白质是如何在生物学的 时间尺度内达到其天然态的:( 2 ) 蛋白质折叠结构的预测,即一个给定序列的 氨基酸残基究竟会折叠形成怎样的空间结构:( 3 ) 蛋白质具体的折叠过程,即 具有完整一级结构的多肽链经历了哪些过程,最终折叠成为特定的空间结构。 1 9 6 8 年l e v i n t h a l 提出了著名的l e v i n t h a l 悖论| 1 6 】:一条氨基酸残基序列可 能形成许多不同的构象。假设一个残基平均有j 个分离的不同的可能构象 ( j 1 6 ) ,那么对于一个有n 个氨基酸的序列,其可能构象数目为m = j n 个, 天然蛋白质的构象只是其中之一。蛋白质如何能从这m 个可能构象中选出对 应天然构象的那个呢? 如果在整个构象空间中穷尽搜索,由于构象之间的转换 速度k 不可能快于1 0 ”s ,蛋白质分子经历全部构象的平均时间为:t = ( n k ) 1 0 “, 这将是一个天文数字,远远超过实验证实的天然蛋白质折叠时间( 约1 0 3 1 秒) 。 l e v i n t h a l 悖论表明,天然蛋白质折叠绝不是一个随机过程,一定是通过某一特 定路径( f o l d i n gp a t h w a y ) 才完成的。l e v i n t h a l 悖论导致人们去努力寻求折叠 的路径。 蛋白质的折叠过程既有自由能全局最小的热力学性质,又有路径相关并且 快速折叠的动力学性质。蛋白质系统有许多自由度,一个蛋白质分子的能量作 为由自由度基的集合所表示的高维函数构成了抽象空间的能量面( e n e r g y l a n d s c a p e ) ,能量面是一个高低起伏且具有众多局域极小值和极大值的复杂的 多维曲面。1 9 9 5 年,w o l y n e s 等人提出1 1 5 j t j $ 折叠是在一个折叠漏斗中进行的。 第1 章绪论 天然构象由于是能量的全局最小态,因此在能量面上对应于漏斗的底部,如图 1 2 所示。 图1 - 2 能量面 f i g 。1 - 2e n e r g yl a n d s c a p e 蛋白质分子由成千上万个原予组成,如果考虑所有原予之间的相互作用, 将极为复杂。人们希望能在研究蛋白质折叠机制的过程中能找到一些简单规 律,从而帮助人们绕过这种复杂性。b a k e r 认为蛋白质折叠的物理机制也许非 常简单,由蛋白质的天然折叠态的拓扑结构决定了折叠速率和机制岬】。其原由 是:蛋白质结构的复杂性来源于蛋白质中的多肽链中的主链原子与侧链原子之 间的相互作用。三个独立的研究表明,蛋白质折叠速率和折叠机制基本上是由 蛋白质拓扑结构决定的,而不是由原子之间较精细的相互作用决定的。蛋白质 中较大的氨基酸序列变化并不改变其拓扑结构的大致特征,一般只引起折叠速 率小于1 0 的变化。小蛋白的折叠速率与其天然态的拓扑特性密切相关。研究 表明,那些形成三维天然结构接触的接触序( c o n t a c to r d e r ) 越大的蛋白质, 折叠速率越低,反之亦然。这说明蛋白质具有的局域接触( l o c a lc o n t a c t ) 使得折 叠加快,非局域接触( n o 1 0 c a lc o n t a z t ) 使得折叠变慢 1 9 , 2 0 j 。简单的几何考虑似乎 能够解释不同蛋白质之间的不同折叠速率。需要指出,在b a k e r 所作的结论中, 9 一 北京工业大学工学硕士学位论文 其物理机制不是很清晰,还需要深入研究。 从理论上研究蛋白质折叠,中心问题是建立相互作用模型,研究蛋白质折 叠过程中不同阶段的行为特征及其物理本质,寻找一个统一的框架来描述蛋白 质折叠的物理机制。对真实蛋白质而言,则期望能分析和预测某些因素如氨基 酸序列、链的拓扑、p r i 值、盐浓度和温度等对折叠过程的运动学、热力学及 结构的影响。理论模拟和实验已提供了大量证据,表明蛋白质在折叠过程中表 现出丰富的热力学和动力学性质【2 l 】。 蛋白质具体的折叠过程是一个折叠的动力学的问题,虽然人们用体外实验 方法研究这一问题已有四十多年,但至今尚未解决。目前对折叠过程有以下几 种模型。( a ) 框架模型( f r a m e w o r km o d e l ) 1 2 2 - 2 4 ,二级结构的形成通常先独立于 三级结构形成。( b ) 扩散碰撞模型( d i f f u s i o n c o l l i s i o n ) 8 ”,折叠过程中,首先 形成较大的二级结构,此二级结构单元会不断摆动。在摆动过程中,通过随机 扩散和碰撞会暂时形成三级结构,如果这一结构是有利的,它就会被固定下来, 如果结构是不利的,二级结构会继续摆动,直到形成稳定结构为止。( c ) 疏水 坍缩模型 2 6 - 2 8 】,折叠过程先是分子快速坍塌,在坍塌过程中非极性残基会被埋 藏在蛋白质分子里面。然后疏水效应会驱动蛋白质形成二级结构及三级结构。( d ) 分级折叠模型,蛋白质折叠先在局部进行,在局部形成稳定结构后,折叠部分 会不断扩大,最终达到天然结构1 2 9 1 。上述模型中,框架模型和扩散一碰撞模型 认为,折叠过程中起主要作用的是局部相互作用( l o c a li n t e r a c t i o n s ) 。所谓局部 相互作用,即是指在一个多肽链上,空间位置相临近的氨基酸残基之间的相互 作用) 。而疏水坍缩模型则认为,折叠过程中主要是非局部相互作用( n o n l o c a l i n t e r a c t i o n s ) 起作用。以上模型彼此并不排斥,它们之间有交叉和共同的地方m 】。 就目前人们对于折叠机制的了解程度而言,还未达到预测一个特定的序列 如何折叠到天然构象,或用逆折叠方法设计出能折叠到具有稳定结构的真实蛋 白的新序列的水平。但是随着新的实验技术的发展,如光谱技术、动态n m r 、 1 0 第l 章绪论 飞秒激光技术等,能探测到蛋白质运动的时间和空间分辨率越来越高】。而计 算机模拟能力的增强也将在分辨率上逐步达到与实验可比较的程度。因而从 原子细节上用分子动力学模拟方法研究真实的或接近于真实的蛋白质的折叠机 理也是可能的t 3 2 - 3 4 。 1 2 2 蛋白质折叠模型的研究 1 2 2 1 格点模型和全原子模型 蛋白质分予结构非常复杂,在具体研究中需要做一些简化。d i l l 等人上世 纪8 0 年代将格点模型引入蛋白质折叠的研究 2 7 , 2 9 】。该模型在全空间划分网格, 把一个或几个氨基酸残基视为网格上的一个点,计算时仅考虑格点间的相互作 用。对于某个格点,该位置上要么有一个残基点,要么就没有。键角只能取一 些不连续的值,该值的精度取决于空间格点的结构。格点的具体划分方法会有 许多种,格子的维数不同,既有二维的,也有三维的。这样以来,如图1 3 所示, 一个蛋白质就简化为由n 个结点连在一起组成一条链,相当于在正方格子空间 的自回避行走( s a w ) 所得的轨迹。n 为组成蛋白质的氨基酸总数。格点模型简 化了结构空间和序列空间,但又保留了最基本的特性,利用此模型可以对结构 序列离散化空问进幸亍完备的描述及穷举化搜索。 圈1 - 3 格点模型( 黑、自点分鄹表示琉水、亲水残基) f i g 1 - 3t h e l a t t i c em o d e l ( b l a c ka n dw h i t eb a l l sr e p r e s e n th y d r o p h o b i ca n d p o l a r r e s i d u e sr e s p e c t i v e l y ) 北京工业大学工学硕士学位论文 对于个给定的氨基酸序列,如果把组成该序列的全部原子之间的各种相 互作用都考虑在内,这样建立的模型被称为全原子模型。全原子模型拥有较高 的分辨率,能较为准确的代表蛋白质的结构和能量的详细信息。但由于计算机 计算能力的限制,它只能给出发生在很短的时间内( 一般是皮秒到纳秒量级) 很 小的构象变化。而且不可避免地会遇到能量多重极小值的问题。全原子模型还 要求很多初始参数,同时引入了不完全的构象采样。由于其力场中考虑了共价 项,小的构象变化所引发的能量变化仅仅处在千卡量级,而整个能量项约为兆 卡量级,要分辨这一变化,计算的精度要求太高。所以,目前全原子模型多运 用于小蛋白质折叠研究上。 格点模型只关心蛋白质折叠过程中的主要驱动力对于主链走向的作用,并 不涉及侧链的走向。这将有助于我们对最基本折叠机制的认识。与全原子模型 比较而言,格点模型有以下特点:首先,格点模型可以研究在折叠过程中较长 的时间范围内较大的构象变化,全原子模型由于受计算机水平的限制,仅限于 模拟较短时间( 纳秒范围) 内的构象变化;其次,研究蛋白质分子时常常需要 计算熵和自由能。为了得到熵和自由能,需要计算配分函数。而计算配分函数 需要对所有构象求和。使用全原子模型很难做到搜遍所有构象,而利用格点模 型,问题就容易许多。o r r 首次使用二维和三维格点模型研究均聚体【3 5 】,这类 研究也为现代聚合物研究提供了理论基础,尤其在重整化群理论中有着重要的 应用价值。第三,格点模型可用来检验一些关于蛋白质的理论模型,比如自 旋玻璃理论( t h e o r yo f s p i ng l a s s e s ) 1 3 , 3 7 , 3 8 1 ,基于平均场方法的近似理论田j 9 4 0 1 , 如果用全原予模型就相当困难。当然,格点模型的简化也带来了负面影响,比 如它无法精确表示蛋白质结构的细节和分子内部的运动,用于研究的模型的链 通常较短,这与真实蛋白质并不符合。 为了更接近真实情况,有时可以采用简化的非格点模型。此类模型的氨基 酸残基都进行了适当的简化。虽然比起格点模型来说,空间自由度加大了, 第1 章绪论 但比起全原子模型来说,还是大为简化,同时也保留了真实蛋白质的一些本质 特征。 1 2 2 2 几种研究蛋白质折叠的简化模型 ( 1 ) h p 模型 把2 0 种氨基酸按一定原则分类,可以减少对残基之间的相互作用描述的复 杂程度。分类数介于2 和2 0 之间,分类数的大小决定了动力学模拟的难易程度 以及折叠的快慢程度。那些分类数较大且氨基酸残基间相互作用类型更多的模 型,折叠较快。最常见的划分方式是h p 模型( 疏水亲水模型) 1 4 2 - 4 4 1 。即把2 0 种氨基酸按照其疏水、亲水性质分为两类。疏水残基( h y d r o p h o b i c ) 由h 表示; 亲水的极性残基( p o l a r ) 由p 表示。h p 模型只考虑了蛋白质折叠过程中主要的 驱动力一疏水相互作用。 m y a z a w a 和j e r n i g a n 统计了2 0 种氨基酸之间的相互作用后,得到一个表达不 同残基间相互作用的m j 矩阵1 4 5 1 。汤超和李皓对m j 矩阵进行统计分析得出2 0 个 本征值【4 6 】,发现这些本征值明显分为两类。比较氨基酸的物理化学性质发现, 正是由于残基的疏水性与亲水性,导致了本征值的分类。m j 矩阵是蛋白质内部 相互作用的统计结果,表明h p 模型在简化了序列空间的同时在一定程度上反映 出蛋白质的基本特性,保留了折叠过程的主要特征。 利用h p 格点模型,可以简单地计算出蛋白质保持其特定结构时的能量。h p 格点模型只考虑最近邻结点间的相互作用。即在序列上不相邻的两个最近邻结 点,能够提供给体系一个单位的相互作用能。结点间相互作用可分为三类,即 h h 、h p 和p p 相互作用。h h 相互作用代表了蛋白质折叠过程中的主要驱动力一 疏水相互作用,它对体系影响最大,可表示为h i - i h p p p f ,接受采样盯:若, e 。时,存在大量错误折叠态。e e 0 时,存在错误折叠态的几率为 p = e x p ( e e d r t j ( 2 - 1 ) 其中,t o 是多聚体的热力学凝结温度。因此,那些能折叠成较低能量结构的序 列出现折叠错误的几率也小,当e “e c 时结构几乎是唯一的。进一步的研究 北京工业大学工学硕士学位论文 指出,能隙的存在可以保证较长的链( 链长超过1 0 0 ) 快速折叠1 9 0 】。 s h a k h n o v i c h 和g u t i n 最早用蒙特卡罗方法在目标结构中寻找能量最低的序 列惭烈删,这相当于把体系中自由能项当作常数并认为与序列无关,在实际搜 寻过程中可以忽略,即只需优化哈密顿量。构象的稳定性与能隙的大小有关, 能隙越大构象越稳定】。用格子模型和非格子模型测试这个方法( s g 方法) , 得到了有价值的结采 5 卿“l 。但是用s g 方法优化啥密顿量时为了避免结果序 列很快收敛为非极性的均聚体( n o n p o l a rh o m o p o l y m e r ) ,在优化过程中要对疏 水与亲水残基的比例作出限制。然而,实际上存在这样的情况,即某些拥有不 同疏水与亲水残基的比例的序列可能会拥有更低的能量。进一步的研究表明,即 使作出这种限制,找到的序列仍有可能在其他非目标结构中拥有更低能量。 k u r o s k y 和d e u t s c h t 鲢9 0 指出,体系中的自由能项不能忽略,并发展出了求 自由能的累积( c u m u l a n t ) 展开的一阶近似( k d 方法) 此方法与s g 方法相 比,不需要对残基比例作出限制。在格子模型上用模拟退火对此方法进行的测 试表明,k d 方法优于s g 方法叫1 。 s e n o 等人m 使用双重蒙特卡罗方法对构象空间和序列空间同时搜索,在特 定格子模型上的测试获得了成功。虽然此方法在原则上较前述方法更精确,但 在双重空间上的搜索需要大量计算机c p u 时问,很难用于较大体系。对于非 格子模型的真实蛋白质结构,迄今尚未见到使用双重蒙特卡罗方法的报道。 能否给出其他合理的优化函数和相应的优化算法用于蛋白质设计? 为了克服双重蒙特卡罗方法很难用于较大分子体系及非格子模型的困难, 我们进一步发展了基于相对熵概念提出的研究蛋白质折叠的算法 6 1 , 9 r ,在其基 础上发展出基于相对熵的蛋白质设计方法,用优化相对熵来代替优化哈密顿 量,从而克服了用s g 方法直接优化哈密顿量所遇到的困难。用一组真实蛋白 质检验后表明,与前述方法相比,此方法更为快速有效。这部分工作是由我们 小组刘赞等人完成的【9 9 】。 第2 章基于相对墒的蛋白质逆折叠方法的普遍近似 该方法在提出时所做的一些近似原则上是合理的。但由于这些近似只有 在特定条件下才能成立,从而限制了该方法的适用范围。本工作提出了新的近 似方法,使基于相对熵的蛋白质设计方法更具有普遍性,同时还提高了对蛋白质 序列的预测精度】。 2 1 2 基于相对熵的蛋白质设计方法的原理 假设h ( r ,s ) 是蛋白质分子体系的哈密顿量,可表示为简单的接触势形式 h ( r ,s ) = u ( q ,0 ) 爿( 一o ) ( 2 2 ) 其中n 为残基总数,s = ( s ,s :,s 。) 表示蛋白质的残基序列,表示第f 个残 基的坐标u ( s 。,s ,) 为残基i 与j 之间的接触势接触强度函数a ( - 一0 ) 表示 残基之间接触的紧密程度,如果。 r o ,否则a ( r ) = 0 。 一( 一- ) 越大,表明两个残基之间接触越紧密。一般的能量优化方法是,对于 给定目标构象 矿) ,从所有可能形成该构象的序列中寻找哈密顿量最小的序列 作为最佳序列。而基于相对熵的蛋白质设计方法呻3 是,对于给定的目标构象,从 形成该构象的序列中,找到相对熵最小的序列,即对应于该构象的最佳序列。 对任意结构r = “,r 2 ,) = r ,序列为s = ( s i ,s 2 ,s 。) ; s t 驹j l 率为”1 p ( j ) :! 竺:p 咧帅埘州州( 2 - 3 )p ( j ) = 二i = p 叩叫p 。卜5 扣”( 2 - 3 ) 厶, 其中互是配分函数,可表示为 z ,;,- 8 删p 。 ( 2 4 ) 其中卢= 1 r t ,t 为绝对温度,r 为普适气体常数,h ( r ,s ) 表示结构为r 且序 北京工业大学工学硕士学位论文 列为j 时的哈密顿量,下标r 表示对所有结构求和,竹印为体系的自由能。在 折叠转变温度之下的任何温度,使尸,倒取晟大值的序列s 就是最适合目标结构 的序列。 相对熵g 可表示为 g ( s ) = 只i n ( 只只( s | ,) ) ( 2 5 ) 其中下标a 表示目标结构。只( 5 p ) 定义为:在任意构象r 的条件下分子具有 序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论