(概率论与数理统计专业论文)蛋白质折叠片断疏水力强度及配对关系研究.pdf_第1页
(概率论与数理统计专业论文)蛋白质折叠片断疏水力强度及配对关系研究.pdf_第2页
(概率论与数理统计专业论文)蛋白质折叠片断疏水力强度及配对关系研究.pdf_第3页
(概率论与数理统计专业论文)蛋白质折叠片断疏水力强度及配对关系研究.pdf_第4页
(概率论与数理统计专业论文)蛋白质折叠片断疏水力强度及配对关系研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 蛋白质结构是生物信息学的重要研究问题之一,尤其是研究怎样从已测得的一 级结构和a 一螺旋,卢一折叠等部件线性构成的二级结构得出空间结构本文从d j f 的 理论,疏水力是蛋白质折叠的主要原因出发,利用p 模型的观点,探索蛋白质p - 折叠片断之间疏水力强度及配对关系,希望通过这些研究对在一级和二级结构基础 上得到空间结构有所帮助本文首先利用在数据库中统计的结果分别赋给2 0 个氨基 酸表现其疏水力强度的值,称之为亲和力接着发现蛋白质一级序列对应的亲和力序 列在做四项移动平均后与蛋白质的二级结构对应最好,因为此时它们的f f j 相关 系数最大在此基础上对蛋白质的每条折叠片断就可以分别得到亲和力序列,配对得 分序列,以及自由能序列最后本文尝试在已知二级结构的基础上,找出得到蛋白质 折叠片断之问相互配对关系的方法,对叩s p 3 4 中的5 2 个蛋白质进行了分析和检 验,并提出了一些改进的方向 关键词:口一折叠p 模型亲和力折叠配对关系 a b s t r a c t p r o t e i ns t r u c t u r e sa r ei m p o r t a n tr e s e a r c ht o p i c so fb i o i n f o 咖a t i c s ,e s p e c i a l l yo b t a i n i n gt e r t i a r ys t r u c t u r ef r o mp r i m a r ya n ds e c o n d a r ys t m c t i l r e d i l lo n c ep u tf o r w a r dat h e o r y t h a th y d r o p h o b i cf o r c ei st h em a i nr e a s o no f p r o t e i nf o l d i n g i nt h i sa r t i c l e ,w et r yt o 丘n d o u th y d r o p h o b i cs t r e n g t h sa n dp a r t n e r so f 卢- s t r a n d su s i n gt h ep o i n to ft h i st h e o r ya n d h pm o d e l w e 丘r s tc o n s t r u c ti n d e x e so fh y d r o p h o b i cs t r e n g t h sf o r2 0a m i n oa c i d sb y i n f o n n a t i c sa n ds t a t i s t i cm e t h o d s s e c o n d ly ,w em o d i 母t h e s ei n d e x e sb ym o v i n g - a v e r a g e w i t hl e n g t h - 4 ,b e c a u s ei nt h i ss i t l l a t i o nt h ec o r r e s p o n d i n gn u m e r i c a is e q u e n c eo f ap m t e i n h a st h eh i 曲e s tf i s h e r sc o r r e l a t e dc o e 币c i e n tw i t ht h es e c o n d a r ys t r u c t u r es e q u e n c e a n d t h e nw eg e tt h r e ek i n d so fs e q u e n c ef o ro n es t r a n do fap r o t e i nb a s e do nt h e s ei n d e x e s t h e ya r es e q u e n c eo fh y d r o p h o b i cs t r e n g t h ,c o m p l e m e n t a r yf o r c ea 1 1 df r e ee n e 唱y w e f l n a l i yd e 6 n et h ec o m p l e m e n t a r yf o r c ef o re a c hp a i ro fm es 仃a n d s ,a n dp r o p o s ea na l g o r i t h mt os e a r c ht h ep a n n e r ( s ) f o re a c hs t r a n db yu s i n gt h es i z eo fc o m p l e m e m a r yf o r c e b e t 、e e nt h eq u e r yp a r t n e r ( s ) i nt h ed a t as e to fc a s p 3 4 k e y w o r d : p s t r a n d s 月pm o d e l h y d r o p h o b i cs t r e n 垂h p a r t i l e “s ) o fs t r a i l d s i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:么掘矸车 如o6 年扩月乃。日如o6 年多月乃。日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: 雠 学位论文作者签名: 熟1 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内部5 年( 最长5 年,可少于5 年) 秘密1 0 年( 最长1 0 年,可少于1 0 年) 机密2 0 年( 最长2 0 年,可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:彳魄1 皂 如o6 年歹月力。日 第一章引言 1 1 生物信息学简介 伴随着基因组研究的发展,相关生物数据爆炸性增长,迫切需要对海量信息进 行处理生物信息学( 6 f o f ,咖r m 日f f c s ) 这样一个新兴的交叉学科应运而生生物信息 学,也称之为生物计算,已经成为科学界的日常用语h 匆研脚a 讲1 认为这个概念有 以下三种解释: 其一,它包含于传统生物学之中,要运用数学和计算科学的知识;其二,它包含 于数学之中,生物学是作为该学科发展动力的一个相对较远的领域;其三,它是一个 交叉学科,最初是生物学中的数学问题,又用来指导生物实验 当然,还有其他更广泛的起源于生物学原理的计算科学新方法,例如神经网络计 算,遗传算法和进化计算。 生物信息学的研究重点主要体现在基因组学( g e h d f c s ) 和蛋白学( 尸,d 把o f c j ) 两方面,关注从基因材料得出d 爿序列的主要途径,部分或全部序列的相关生物性 质( 如功能,位置,语义) 的注释,基因表达( 即在什么情况下蛋白质由d m 4 转录而 来) 的控制,以及蛋白质的氨基酸序列和它们的结构之间的关系研究最重要的目的 是理解生物体的功能,从而“改进生命的质量”这种改进可以通过很多种方法达到, 包括药物设计,基因功能的识别,基因治疗,食物和动物的基因修改等。生物信息学 的问题可以大概分为三类【2 : 1 与中心原则相关的问题 即序列,结构或功能,以及涉及到其中两个或更多方面的问题比如发现序列模 式,结构比对和分析代谢途径中功能关系分别只属于某一个方面,而决定一组蛋白质 序列结构和功能的关系就涉及到多个方面 2 与数据有关的问题 伴随着( 分子) 生物学知识的指数增长,类似存储,修复和分析数据的问题也很 第一章引言 2 快地增长因此就存在需要为生物资源设计数据库,如何清楚地表达生物知识,以及 数据处理方法应用( 数据挖掘) 等问题关键的基本技术是数据的提取,同时必须保 证对抽象数据的操作存在生物意义 3 生物过程的模拟 即推断生物系统的动力特征,例如用分子动力学模拟蛋白质折叠和代谢途径 1 2 蛋白质研究简介 蛋白质的研究是了解生命体功能基本原理的中心问题,包括基因是怎样排列以 及蛋白质之间怎样相互作用等问题 蛋白质大约占一个干燥活细胞重量的6 0 ,由d 爿序列编码而成d a 叫序列 由爿,c ,g ,丁四种核苷酸线性构成,其上的信息传递给一种中间形式的核酸( r | 爿) , 然后合成蛋白质核苷酸和蛋白质合成是分子动力学复杂性的典型代表 蛋白质是氨基酸单体的链状或序列状聚合物,组成蛋白质的氨基酸有2 0 种普 遍认为,蛋白质 叫) 的功能是由它们的结构决定的,而结构是唯一地由氨基酸序 列决定的( r j 爿中由核苷酸决定) 生物学中基本的信息中心原则就是氨基酸序列组成蛋白质,蛋白质的结构( 折叠 状态) 和它的作用就由d 啊通过月| v 爿转录后来决定 现在,确定蛋白质结构的物理方法仅有一射线结晶和a 很( 核磁共振) 方法, 它们都很费时,而且不能用于所有的蛋白质。生物信息学的重大突破点之一就是发展 计算方法从氨基酸序列来确定蛋白质的结构 1 3 蛋白质的结构 1 一级结构p r 砌d 叫j r r “c ,r e ) 第一章引言 3 蛋白质是一种生物大分子,基本上是由2 0 种氨基酸以肽键连接成肽链由尺j 爿 分子以三个为单位合成出2 0 种氨基酸之一,再由肽键连接成肽链,这样缵陛合成的 蛋白质序列就称为一级结构( 砌日砂s f r “c m r g ) 一级结构在许多数据库中都可以找 到,例如j w f s s p r 们,p d b 等不同蛋白质其肽链的长度不同,肽链中不同氨基 酸的组成和排列顺序也各不相同 2 二级结构( s p c o 如r ys ,r “c m m ) 蛋白质的二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性结构的 构象,是多肽链局部的空间结构,主要有口一螺旋、口一折叠、转角以及其他一些类 型,它们是构成蛋白质高级结构的基本要素做蛋白质预测时一般认为蛋白质的二级 结构分为a - 螺旋、卢一折叠和其他结构三大类 口一螺旋( 见图1 1 f ”1 ) 是蛋白质中含量最丰富的二级结构元件在a 螺旋中,每 个螺旋周期包含3 6 个氨基酸残基,残基侧链伸向外侧,同一肽链上的每个残基的酰 胺氢和位于它后面的第4 个残基上的羰基氧彼此之间形成与螺旋轴平行的氢键 图li 四种不同的。螺旋 p 一折叠( 见图1 2 【伸1 ) 也是一种重复性的结构,可分为平行和反平行两种类型,它 们通过肽链间或肽段间的氢键维系可以把它们想象为由折叠的条状纸片侧向并排 而成,每条纸片可看成是一条肽链,称为卢折叠股或卢股一s f r a ”力 第一章引言 图i2 在( 。) 平行和( b ) 反平行卢折叠片中氢键的排列 4 超二级结构o 印e r s p c o 月如s ,r “c m r e ) 是介于蛋白质二级结构和三级结构之间 的空间结构,指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、 在空间结构上能够辨认的二级结构组合体,并充当三级结构的构件,其基本形式有 a a 、p n 8 莉8 8 8 等 结构域( 如埘d f h ) 是在二级结构或超二级结构的基础上形成三级结构的局部折叠 区,通常由5 0 3 0 0 个氨基酸残基组成,其特点是在三维空间可以明显区分和相对独 立 3 三级结构( 胞r ,f d j f r “c f “r e ) 三级结构( 见图1 3 ” ) 是指整条多肽链由二级结构元件构建成的三维结构,包括 一级结构中相距远的肽段之间的几何相互关系,骨架和侧链在内的所有原子的空间 排列蛋白质特定的空间构象是由氢键、离子键、偶极与偶极间的相互作用、疏水作 用等作用力维持的,有些蛋白质还涉及到二硫键。 第一章引言 图l3 溶菌酶分子的三级结构 5 在二级结构过渡到三级结构的过程中还可以考虑一个中间过程,称之为布局图 ( ,o p o 0 9 f c d ,讲昭r 口m ) 布局图的特点是知道各个二级结构构件在二维平面内的相互 关系,虽然还不清楚它们在三维空间中的相互位置,但是比起线性的二级结构本身, 布局图又向三级结构迈出了一步 此外还可以考虑四级结构( g “d ,p r ”口杪j f r n c r “r e ) 。蛋白质中每个球状蛋白质称为 亚基,亚基通常由一条多肽链组成,有时含两条以上的多肽链,单独存在时一般没有 生物活性四级结构是指在亚基和亚基之间通过疏水作用等次级键结合成为有序排 列的特定的空间结构。 每一种蛋白质分子都有自己特有的氨基酸的组成和排列顺序,即一级结构,由这 种氨基酸排列顺序决定它的特定的空间结构,也就是蛋白质的一级结构决定了蛋白 质的二级三级等高级结构,这就是著名的爿,们月j e n 原理 1 4 蛋白质结构预测 第一章引言 6 对于自然蛋白质,蛋白质折叠成一个由氨基酸序列完全决定的稳定结构( 这个结 构被认为自由能量最小) 由于得到蛋白质序列比较容易,蛋白质结构预测的问题就 变为怎样从给出的序列来决定结构作为生物信息学中的重要问题之一,蛋白质结构 预测很重要但也很困难人们正在通过很多不同的方法( 例如例s | p 比赛) 解决这个 问题应该注意到人工序列的结构通常不由序列决定( 即人工设计的蛋白质通常不能 折叠成稳定结构) 根据对蛋白质结构的分类,存在预测二级结构【3 【4 5 】,进而预测三级结构的方 法,也有直接预测三级结构的方法广泛承认的结果是不可能只从二级结构来预测出 三级结构,还需要一级结构的信息 另一种研究蛋白质折叠问题的角度是研究蛋白质逆折叠问题,即给定一个三维 结构,并由此得到能唯一折叠成给定结构的序列蛋白质折叠问题和逆折叠问题是相 关的,因为逆折叠问题可以由结构预测来解决,也就是产生出一个序列,然后预测结 构,比较结果和给定的结构毫无疑问,这个问题对药物设计很有用,但是逆折叠问 题还没有彻底解决,还没有被用于药物设计 下面将讨论与本文有关的一种逆折叠模型及其相关的研究 1 5 胛模型及其在蛋白质折叠问题中的应用 对于一条具有确定氨基酸排列的多肽链,在一定的外界条件下,它的折叠状态是 自由能最低最稳定的构型,并且是唯一的。此折叠状态称为序列的自然态( 日r f w s ,口f g ) 与之相对应的结构称为自然结构( d f f v ps f r “c ,“,8 ) 自然结构是具有生物功能的折 叠结构实验告诉我们蛋白质折叠的时间大约在1 0 一1 秒左右但是每个蛋白质 可能折叠为很多种构象,把在这样的构象的全体看作一个空间的话,在这样的空间完 成全空间的搜索需要很长的时间。因此,虽然目前还不清楚蛋白质怎么在所有可能的 折叠种选择最小能量的折叠,但是蛋白质应该是按照某种特殊的机制完成折叠的 第一章引言 1 5 1 蛋白质折叠的主要力量 7 大约一百年前人们发现了蛋白质折叠过程。1 9 0 2 年e f ,f f j 幽p r 和舶,锄e f j 把r 分别独立地提出蛋白质是共价键连接氨基酸形成的链,但对蛋白质的结构和构象的 深入了解因为难于找到溶解蛋白质的环境而没有继续下去1 9 1 1 年c f c 女和 如r r 胁 第一个区分了解折叠( 变性) 过程和折叠( 聚合) 过程到1 9 2 5 年,变性过程被看 作要么是肽键的水解( 阡& 胁,1 9 2 5 ;爿月s d 月& 以r s 砂,1 9 2 5 ) ,要么是蛋白质脱水 0 6 8 r ,s o ,1 9 1 8 ) “( 1 9 2 9 ,1 9 3 1 ) 第一个提出把蛋白质变性看作解开折叠的过程。 他提出自然态的蛋白质像晶体一样,通过非共价键的连接把蛋白质链折叠成三维的网 状结构并聚合在一起“变陛过程就是打破这些易变化的连接这样蛋白质就散开了 不再是一个整体表面也发生了改变,内部的分子也露出来( 胁,1 9 2 9 ) ” 在讨论导致蛋白质折叠的主要力量之前我们会问:蛋白质自然结构的热力学性 质是稳定( ”热力学假设, s 册,1 9 7 3 ) ,或者是亚稳定,还是由某一个过程决定? 要证明热力学的稳定性必须证明蛋白质的自然结构同产生这一结构的初始条件和过 程都没有关系实验室研究证明,用可以破坏非共价相互作用的溶剂处理蛋白质,可 以使蛋白质解折叠,成为松散肽链当去掉这种溶剂时,蛋白质常可自发重新卷曲成 为原来的构象这说明规定蛋白质三维形状所需的全部信息包含在这个蛋白质的氨 基酸序列之中 长期以来人们考虑过的影响蛋白质折叠的主要因素有:( 1 ) 静电导致的长程反 应, ( 2 ) 氢键和范德华力,。( 3 ) 内部性质产生的短程反应,( 4 ) 疏水作用最后在 儿c 0 6 s e ”和加如r s f r d 川一日馏( 1 9 4 9 ) 排除静电力是折叠的主要原因之后,人们转而 认为蛋白质折叠现象是由非极性残基对水的厌恶而产生的( l 加如r s f r o 小一口馏,1 9 5 2 ; “& e 抄f 馏,1 9 5 4 :k o “z m 口n ,1 9 5 4 ) k 口w m 口n h 的两篇重要论述( 1 9 5 4 ,1 9 5 9 ) 首次阐述了疏水性在蛋白质折叠中的重要作用,他认为折叠形成的一个疏水“键” ( 他称之为反氢键) ,因为从水分子中得到一个完整的氢键如果氢键是使蛋白质折叠 的主要力量,那么获得一个完整的氢键显然要比仅仅是氢键强度发生变化的强度要 大。所以氢键不是蛋白质折叠的主要力量。其他的一些证据也说明疏水性是蛋白质折 叠的主要力量: 第一章引言 8 1 光谱和高辨析率扫描反应热测量实验表明,折叠的自由能变化对温度的依 赖与非极性复合物从水中转移到非极性介质中自由能变化对温度的依赖性有相似性 ( p 臼c e ,1 9 7 5 ;尸r f v 口,d w ,1 9 7 9 ;j d r f v d ,d v & g f ,1 9 8 8 ) 2 获得大量晶体结构的蛋白质它们表明球蛋白的一个普遍性质是非极性残基形 成一个核被l 辑离起来,以避免与水接触( 凡r 乜“口,1 9 6 5 ;c o 胁f 日,1 9 7 4 ,1 9 7 6 ;p r 拓 & s c p 厂昭日,1 9 7 8 ;m p f r d v i ,c 向& s c 向e ,昭口,1 9 8 0 ;g 掣,1 9 8 5 ) 3 蛋白质核中的残基的疏水性更保守,而且与结构的关系比其他类型的反应要更 紧密f m & s 口“已r 1 9 8 9 ;占d w 把“a ,1 9 9 0 ;k e f 纱& j v d f ,咖,1 9 8 7 ;s w p 已f & e f 碰w 6 e ,苫 1 9 8 3 ;b 口s 和r d 田口f ,1 9 8 7 ) 4 对折叠中产生错误的蛋白质进行计算机模拟表明判断蛋白质折叠错误的主要 依据就是疏水残基在内外部的分布( o v d ,砂e f 口7 ,1 9 8 4 ,1 9 8 8 ;占口“脚口月月e f 口,1 9 8 9 ) 基于以上原因d f ,删认为疏水性就是导致蛋白质折叠的主要力量同时,促进蛋 白质折叠的力量并不是整个折叠过程的全部与之相反的是一个大小几乎一样的反作 用力球蛋白的结构和稳定性就是促进和阻碍两种力量平衡的结果r a h 厂d r 以1 9 6 2 ) 和b r 口月斫s ( 1 9 6 4 ) 指出,如果只从疏水性出发得到的蛋白质稳定性将比实际测量所得 的高很多,他们估计在解开折叠时的自由能将是1 0 0 一2 0 0 k 。f m d f ,但是实际观察 到的自由能仅是5 2 0 妇,0 7 ( 几c e ,1 9 7 5 ;j d r 砌,d v ,1 9 7 9 ;j d r 砌d v & g f f f ,1 9 8 8 ) 这 表明存在和疏水性大小几乎一样的阻碍蛋白质折叠的力量 1 5 2 j d 模型 由于疏水性是蛋白质折叠的主要力量因此可以假设蛋白质折叠过程由两部分 组成首先,蛋白质密度增加,氨基酸位置随机;然后,蛋白质保持密度不变,疏水 残基逐渐占据内部( 可以分别给出这两个步骤的能量公式1 7 1 ) 。d i f ( 1 9 8 5 ,1 9 8 9 ) 提出 一个模型,蛋白质被表示为珠子一样的单体,并且由可以旋转键的连接成链这个模 型被用于预测存在非极性核的紧密状态和不存在非极性核的紧密状态两者之间自由 能的界限 8 1 。利用这个模型来处理关于自然状态和非自然状态的问题就转化为一个 第一章引言 9 列举的过程,也就是设法知道;( 1 ) 在折叠或者非折叠状态下非极性原子被埋住的数 量( 一些非极性原子在折叠状态下是露在表面的,而在非折叠状态下也有位于内部的 非极性原子) ;( 2 ) 可达到折叠和非折叠状态的构象的数目 进一步利用疏水性质,可以引入一个更简单的模型。把蛋白质看作由”个氨基酸 组成的链,每个氨基酸只能是两种类型之一:顶非极性) 或者p ( 极性) ,称之为胛 模型如图1 4 ,一条蛋白质的构象被看作是在一个二维方格子上并且避免重复的随 机游走 ppep 图l + 4 一条蛋白质序列的p 模型 在这里有两种不同的邻居关系一是“位置相邻”,单体,和_ ,+ l 在链序列上是 相邻的;另一种“拓扑相邻”则表示空间上是相邻的,但是在序列中的位置却是不相 邻的。假设每个拓扑相邻的删接触有自由能e ( o ,表示爿f :一,出现的频率高于相邻氨基酸爿一,出现的频率; ,0 9 2 k ( 爿f :爿,) zo ,表示一f :爿,是随机形成的; + ,o 臣足即f :彳,) o ,表示彳,:彳,出现的频率低于相邻氨基酸爿。爿,出现的频率。 2 1 0 对氨基酸的亲和力在附表第7 列中表示出来另一方面, 川剐却眇莩萋剐川她粼“m s 喇扯俐剐却) = 剐川) ,d 9 2 粼= 1 1 7 3 8 # l ,= i1 7 从这可以看出,氨基酸对之间互补的疏水力不是随机出现的 令 砌扣冀刚川淞z 篇焉 这样就有三( 4 。) = d ( 爿rm 川l p 卅却a 伪,称a f ) 是氨基酸爿f 的亲和力一般而 言p ( 爿,) ,) 是真正的亲和力,其中p 0 ,) 是爿f 在所有序列中出现的频率。2 0 个氨 基酸的亲和力以p 0 ,) 为条件的期望值为o 1 7 2 1 ,自然地,我们认为真正起作用的 氨基酸满足三似,) b ,犯( ,) ) = 0 1 7 2 1 这样挑选出的氨基酸有,厶y 和y 另外,用统计量 即f ) = r l o o = 罟盟生竺止1 0 0 表示氨基酸爿。对疏水力的贡 点p 一,( 。t ) 献率,就得出表3 2 ( 真正用于计算的是贡献率分值,我们同样称之为亲和力) 从表 3 2 的2 0 个值可以看出k ,l7 ,f 和爿的贡献率是8 7 1 8 ,而k l 和的贡献率 薰 一 ,# “i o 0 一 第三章数据准备和分析 有6 5 2 l 所以在形成折叠时k 和,可以看作是元音,爿,f 7 1 和y 可以看作是 半元音 表322 0 个氰基酸的亲和力以及它 的贡献率 a a l ( t )p ( ) p ( ) l ( ,) ( ) a0 1 2 l5 68 6 00 0 8 3 3 5 4 8 c00 5 4 4i9 6 00 0 1 0 6 606 do0 2 5 534 3 o0 0 0 8 7 505 e00 4 3 044 9 o0 0 1 9 3 l l f0 1 6 5 355 3 00 0 9 1 4 l5 3 go0 8 9 25s 3 oo 舾2 0 。30 h00 4 7 923 5 00 0 i i2 606 o3 2 5 793 9 00 3 0 5 8 3l7 8 k00 6 2 046 3 00 0 2 8 7 ll6 7 lo2 i5 797 0 00 2 0 9 2 31 2 1 6 mo0 4 8 423 7 o0 0 1 1 4 706 7 n00 2 6 929 5 o0 0 0 7 9 404 6 p一00 0 7 320 2 一00 0 0 1 4 700 8 o o0 3 2 229 0 o0 0 0 9 3 405 4 ro0 4 6 739 5 o0 0 1 8 4 51 0 7 so0 6 1 952 7 o0 0 3 2 6 2l9 t0 1 6 7 467 8 oo l l 3 5 066 v04 8 1 825 9 o0 6 0 6 5 93 52 5 wo0 6 0 58 4 00 0 l l l 30 6 5 y0 l7 5 55 1 7 00 0 9 0 7 3 52 7 这样对于每个片断就可以定义该片断的疏水力强度分数,这个分数由表3 2 的第 5 列相加再除以长度得来。例如,片断矿嘲y r 的分数为; ( 3 5 2 5 + 3 5 2 5 + 4 8 + 12 1 6 + 3 5 2 5 + 6 6 ) 6 = 1 2 9 3 1 6 = 2 1 5 5 3 2 数据分析 第三章数据准备和分析 3 2 1 亲和力序列s d 2 4 对于固定长度上( 4 ) ,在整条蛋白质序列中进行正向和负向的挪动配 对。具体步骤为: 第三章数据准备和分析 2 7 步骤一,由3 2 1 的结果可以知道对序列做4 项平均能更好的反应蛋白质的二级 结构,因此先把蛋白质序列f - f z 靠转化为l = 4 的亲和力序列口a a 5 a 步骤二,对折叠片断z 也做4 项平均同样得到一个亲和力序列6 4 6 s 6 ,折叠 片断z 长度不足4 的可以往两边延伸 步骤三,用蛋白质亲和力序列m a 5 d 前,一3 项分别乘以z 的亲和力序列 6 4 6 5 6 f 各项并求和,再除以z 亲和力片断的长度_ 3 ,得到配对得分序列s c 的 第一项c j ,即c j = 志口f 6 f 步骤四,从蛋白质亲和力序列a s a 的第二项开始重复步骤三,然后继续往后 挪动,直到亲和力序列短于z 亲和力片断的长度,得到配对序列s c + = c j c ;c 膏_ f _ : 反向比对的情况也采用如上步骤,得到配对序列s c 一= c i c i c i 一- 2 ,不同之 处仅在于做比较的两个序列方向相反。 这样,对于一个折叠片断可以得到在这个序列中的正向和反向两条配对得分序 列( 如图3 4 ) 对每条折叠片断都可以得到这样的图一般地,我们认为得分高的部 分所对应的蛋白质片断就有可能是这条折叠片断所对应的折叠 鬻赢3 | | | 氐 l1 42 7 4 0 5 36 67 99 21 0 5 ( a ) 11 4 2 74 0 5 36 67 99 21 0 5 图34 蛋白质l 咖f 中折叠片断r r 咖在整条序列中收索的结果( a ) 为正向搜 索情况( b ) 为反向搜索情况横坐标是序列的位置,纵坐标是配对的得分 从图中可以看出使用上述方法可能出现得分相近的很多条片断,应该考虑使用 其他方法找到正确的配对 第三章数据准备和分析 3 2 3 自由能序列j 2 8 根据h p 模型的观点以及对亲和力的分析,我们已经得出蛋白质折叠配对中的 元音有爿,f ,厶ky ,把这七个元音看作是尸模型中的氨基酸( 即黑点) ,那么 根据d f ,的理论,在蛋白质折叠成自然状态的时候黑点的对应应该尽可能的多,也 就是自由能最小 这里我们考虑如下的自由能计算方法:当两个折叠片断相互配对在一起时,如果 两个元音( 一,f ,l r ,ky ) 相配,认为自由能为0 ;如果两个非元音相配,也规定自 由能为0 ;当一个元音和一个非元音相配时,找到所有与这个元音配对的氨基酸得分 k ( 爿,:一,) 中最高的一个作为自由能的罚分从附表第7 列中可以看出,七个元音在 没配上时的罚分分别为: 表37 七个元音的自由能罚分 这样,用类似3 2 2 中求配对得分序列的挪动方法,对蛋白质序列f l 靠,就 可以得到正向和负向两个自由能序列斤疗麓+ l 和斤应彘+ l ( 设折叠片断长 度为,) 。按照蛋白质折叠自由能最小的原则,在折叠配对形成的地方应该是自由能 量最小,也就是( f ) 的取值位于最低点或者局部最低点这样对于任意一个折叠 片断就可以找到与它配对的具有自由能最低的片断从理论上说在这个部分或者其 附近应该是和这条片断相匹配的折叠如下图所示 厮= l 一 1132537 4 :旬6 3 8 5 9 71 0 9 :2 5 3 7 4 9 。) 6 3 8 5 盯1 0 9 图35 蛋白质i o p t 中折叠片断n v t v r 的自由能序列( a ) 为正向搜索得到的自由 能,( b ) 为反向搜索得到的自由能横坐标是序列的位置,纵坐标是自由能罚分 第三章数据准备和分析 2 9 自由能序列的性质可以对前面配对得分序列得出的结果形成补充如果前面的 配对序列恰好具有最低的自由能就为判定这两个折叠片断之间存在关系提供了更好 的依据当然,也可能出现最低自由能不惟一的情况,或者与前面配对得分序列得出 结果不符的情况,这时可以根据其他条件综合考虑,做出判断 3 2 4 确定折叠片断的相互关系 在已知蛋白质二级结构( 或者预测得到的二级结构) 情况下,可以准确地知道各 个折叠片断的信息,即起止位置和它们对应的氨基酸这时可以对所有折叠片断做两 两配对( 可以看作一种比对) ,判定出折叠片断之间是否构成相互配对 另一方面,预测二级结构时也会出现螺旋和折叠相互混淆的情况,如果能正确地 找出折叠之间的配对情况,那么在预测二级结构时,如果存在找不到配对的折叠,应 该进一步考虑是否把螺旋片断错判成了折叠片断这样对于二级结构的预测也能有 所帮助 两个折叠片断相互比对后可以得到一个分数,为了判定它们之间的关系,需要确 定这个分值是否大于某一个域值,如果大于该域值,则认为这两个片断是相互配对 的,反之,认为它们没有关系因此,我们需要选取一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论