（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：33 大小：674.44KB 积分：12 举报 版权申诉

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf_第2页

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf_第3页

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf_第4页

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf_第5页

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要研究蛋白质的结构对生命科学有重要意义，因为明确了蛋白质的结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质( 或其它分子) 之问的相互作用，这无论是对于生物学还是对于生物医学和生物药学，都是非常重要的。j a m e sl c o r n e t t e 等人于1 9 8 6 年发表了文章 1 ，针对八十多条蛋白质系列的样本用数字信号处理的方法发现了a 一螺旋的周期为3 6 到3 7 个氨基酸之间，b 一折叠的周期为2 o 个氨基酸。我们在研究蛋白质二级结构预测问题的过程中使用了以上结论。但是一些审稿人指出，随着现在试验得到的蛋白质数量的增加，原先在小范围内得到的结论是否正确还需要检验，不可以直接使用。为此，本文的第一部分严格地遵照j a m e sl c o r n e t t e 等人于1 9 8 6 年所用的数学方法( 傅立叶变换方法和最大特征值法) 用最新的p d b 数据库中三种有代表性的蛋白质序列集合研究了蛋白质的二级结构a 一螺旋和 p 一折叠的周期性，验证了a 一螺旋的周期为3 6 3 7 ，b 一折叠的周期为2 o 。并对此结果进行了显著性检验l 检验。本文的第二部分的论点是：由于。一螺旋的周期为3 6 到3 7 之间，我们就分别统计。一螺旋相差两个残基和相差三个残基的两个氨基酸之间疏水值的作用关系，利用相对熵值作为尺度，发现n 一螺旋内疏水力的作用非常显著。特别其中氨基酸a ，e ，l ，k 对组成。一螺旋的贡献最大，于是，将2 0 个氨基酸赋予新的反映。一螺旋内部疏水力的指标，在此指标下，每个氨基酸序列就成了一个数值序列，将它作八项移动平均所得的新数列与螺旋结构对应关系很强，f is h e r 相关系数为o 7 0 8 8 。关键词：a 一螺旋，b 一折叠，傅立叶变换，最大特征值，亲和性，疏水力垒! ! ! 翌! ! 一 a b s t r a c t i t i ss i g n m c a j l tt os t u d yt h es t r u c t u r eo fp r o t e i n sf o rl ( 1 1 0 w i n gt h es n u c t u r eo f p r o t e i ni sh e l p f u lf o rf i n d i n go u tt h ee 疏c to f t h i sp r o t e i n ，f i n d i n go u th o wt h ep r o t e i n f u n c t i o n s ，a n df i n d i n go u tt h em u t u a le a 、e c tb e t w e e nt w op r o t e i n s i ti sa l s oi m p o n a n t f o rb i o m e d i c i n ea n db i o l o g yp h a r m a c e u t i c st os t u d yt h es t r u c t u r eo fp r o t e i n s j a m e sl c o m e t t e 1 h a sf o u n dt h a tt h ep e r i o do fa - h e l i x i sa r o u n d3 6a n dt h ep e r i o do f b s h e e ti sa r o u n d2 oi n 19 8 6b ya p p l y i n gt h em e t h o do fs i g n a lo na b o u te i g h t y p r o t e i n s w eu s et h i s r e s u l tw h e nw ew o r k o v e rt h ep r e d i c t i o no ft h es e c o n d a r y s t r l l c t u r eo fp r o t e i n s ，b u ti ti sd o u b t e dt h a tm i sr e s u l ti sn o tc e n a i n i yc o r r e c tf o ri tw a s g a i n e df r o mar e l a t i v e l ys m a l ln u m b e ro fd a t ac o n s i d e r i n gt h a tt h ed a t ao fp r o t e i n s e q u e n c ei n c r e a s e ds oq u i c k l yt o d a y i nt h ef i r s tp a no ft h i st h e s i s ，w ea p p l yt h e m a t h e m a t i c a lm e t h o dp r o v i d e db yj a m e sl c o m e t t ei nl9 8 6o nt h et h r e et y p i c a l g r o u p so fp r o t e i ns e q u e n c e sp i c k e du pf r o mt h el a t e s tp d b b yd o i n gt h i s ，w e v a l i d a t et h er e s u l tg a i n e db yj a m e slc o m e t t e ：t h ep e r i o do fa h e l i xi s3 6 - 3 7a n d t h ep e r i o do fp s h e e ti sa r o u n d2 0 a n e rt h a t ，t h i st h e s i st e s t e dt h er e s u l tw i t h s t a t i s t i c sm e t h o d i nt h es e c o n dp a no ft h i st h e s i s ，w es t u d i e dt h ee h e c tb e t w e e nt w o a n dt h r e ea m i n oa c i d st h a ta r ea p a r tb ya n o t h e rt w oa m i n oa c i d s b yc o m p u t i n gt h e r e la t i v ee n t r o p y ，w en n dt h a ti n a - h e l i x ，t h ee 仃e c to ft h ef o r c eo ft h eh y d m p h o b i ci s n o t a b l e ，e s p e c i a l l yt h ec o n t r i b u t i o no ft 1 1 ea ，e ，l ，ki st h em o s tn o t a b l e t h e n ，w e c a nt r a n s l a t ee v e r yp r o t e i ns e q u e n c et on u m er i c a ls e q u e n c eu s i n gt h ec o n t r i b u t e d r a t e sw h i c hc a nb e t t e rr e n e c tt h eh y d r o p h o b i cs t r e n g t hi nt h ea h e l i x b yc o p p u t i n g t h ef i s h e r sc o r r e l a t i o nc o e 币c i e n t s ，w ea l s og e tt h er e s u l tt h a tt h eh y d r o p h o b i cs t r e n 豇h o ft h ep r o l e i ns e g m e n tw h o s el e n g i hi se i 曲ti si h em o s tr e l a t i v et ot h ep r o t e i ns e g m e n t s s e c o n d a r vs l r u c t u r e k e y w o r d s ：一h e l i x ，p - s h e e t ，f o u r i e rt r a n s f b r m a t i o n ，t h e1 a r g e s te i g e n v a l u e ，a 硒n i t y ， h y d r o p h o b i cs t r e n g t h 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电予版，并采用影印、缩印、扫攒、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或蛰部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名：俐弘年r 月占| 霸经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名： f 之彰妒位澈作者签名：龇辟解密时阕：年月日器密级的最长保密年限及书写格式规定如下： r ”一”“” 一4 ”、。? 。”“”一” 内部5 年( 最长5 年，可少于5 年) 秘密l o 年( 最长1 0 年，可少于i 0 年) 概密2 0 年( 最长2 0 年，可少于2 0 年) 南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：删尸年上月吾f 日第一牵引言第一章引言基因是生命的蓝图，蛋白质是生命的机器。来自于四种字符字母表( a ，t ( u ) ，c ，g ) 的核酸序列中蕴藏着生命的信息，蛋白质执行着生物体内各种重要的工作，如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传导等。蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来的d n a 序列，根据三联密码规则翻译成2 0 字符的蛋白质氨基酸序列( 2 0 种氨基酸的名字详见附录的表( 1 1 ) ) 。研究蛋白质的结构意义重大。分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认i = 5 = 蛋白质与蛋白质( 或其它分子) 之间的相互作用，这无论是对于生物学还是对于医学和药学，都是非常重要的。对于未知功能或者新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导设计进行功能确认的生物学实验。通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子结构。生物信息学的一个基本观点是：分子的结构决定分子的性质和分子的功能。因此，生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是，蛋白质的空问结构又是由什么决定的呢? 当一个蛋白质的空间结构被破坏以后，或者蛋白质解折叠后，可以恢复其自然的折叠结构。大量的实验结果证明：蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境，但是，决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而，这种编码是否能被破译呢? 或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢? 蛋白质是具有特定构象的大分子，为研究方便，将蛋白质结构分为四个结构水平，包括一级结构、二级结构、三级结构和四级结构。一般将二级结构、三级结构和四级结构称为高级结构。一级结构指蛋白质多肽链中氨基酸的排列顺序。肽键是蛋白质中氨基酸之间的主要连接方式，即由一个氨基酸的n 一氨基和另一个氨基酸的a 一氨基之间脱去一分子水相互连接。肽键具有部分双键的性质，所以整个肽单位是一个刚性的平面结构。在多肽链的含有游离氨基的一端称为肽链的氨基端或n 端，而另第一章引言一端含有一个游离羧基的一端称为肽链的羧基端或c 端。蛋白质的二级结构是指多肽链骨架盘绕折叠所形成的有规律性的结构。最基本的二级结构类型有a 一螺旋结构和b 一折叠结构，此外还有b 一转角和自由回转。右手。一螺旋结构是在纤维蛋白和球蛋白中发现的最常见的二级结构，螺距为0 5 4 n m ，螺旋中的每个肽键均参与氢键的形成以维持螺旋的稳定。b 一折叠结构也是一种常见的二级结构，在此结构中，多肽链以较伸展的曲折形式存在，肽链( 或肽段) 的排列可以有平行和反平行两种方式。氨基酸之间的轴心距为 o 3 5 n m ，相邻肽链之间借助氢键彼此连成片层结构。结构域是介于二级结构和三级结构之间的一种结构层次，是指蛋白质亚基结构中明显分开的紧密球状结构区域。超二级结构是指蛋白质分子中的多肽链在三维折叠中形成有规则的三级结构聚集体。蛋白质的三级结构是整个多肽链的三维构象，它是在二级结构的基础上，多肽链进一步折叠卷曲形成复杂的球状分子结构。具有三级结构的蛋白质一般都是球蛋白，这类蛋白质的多肽链在三维空问中沿多个方向进行盘绕折叠，形成十分紧密的近似球形的结构，分子内部的空间只能容纳少数水分子，几乎所有的极性r 基都分布在分子外表面，形成亲水的分子外壳，而非极性的基团则被埋在分子内部，不与水接触。蛋白质分子中侧链r 基团的相互作用对稳定球状蛋白质的三级结构起着重要作用。蛋白质的四级结构指数条具有独立的三级结构的多肽链通过非共价键相互连接而成的聚合体结构。在具有四级结构的蛋白质中，每一条具有三级结构的皑链称为亚基或亚单位，缺少一个亚基或亚基单独存在都不具有活性。四级结构涉及亚基在整个分子中的空间排布以及亚基之问的相互关系。维持蛋白质空间结构的作用力主要是氢键、离子键、疏水作用力和范德华力等非共价键，又称次级键。此外，在某些蛋白质中还有二硫键，二硫键在维持蛋白质构象方面也起着重要作用。蛋白质的空间结构取决于它的一级结构，多肽离岸主链上的氨基酸排列顺序包含了形成复杂的三维结构( 即正确的空间结构) 所需要的全部信息。近年来有各种不同的生物咨询研究方向，而蛋白质二级结构预测则是其中一门已经发展一段时间的学问，由于蛋白质的功能与其结构息息相关，因此如果能够知道蛋白质的结构，便有助于人们更进一步去了解蛋白质的功能。虽然在2 0 世纪初已有人以x 光线射结晶技术去设法得到蛋白质得结构，但是其耗时第一章引言耗力，尽管也许准确度比较高，相对的来说，以计算机学得方式去得到结构，或许没有那么精确，但那将会是相当节省时间且有效率的，因此蛋白质结构预测在目前来说仍有其价值。用于蛋白质二级结构预测的方法，有早期的统计学方法，以及常见的神经网络，还有基因演算法与支援向量机( s u p p o r tv e c t o r m a c h i n e ) 都有被用过做二级结构预测，但是直到现在并没有所谓能够完美预测蛋白质二级结构的方法，不过最近的方法通常都是利用各种方法的组合并从中选比较好的预测结果来当作最后的答案，不管如何，蛋白质结构预测仍会是生物咨询学上待人去研究的一个领域 2 3 。从人类基因定序计划( h u m a ng e n o m ep r o j e c t ) 的开始，陆陆续续就产生了大量的基因序列，从而出现了相应的二级结构的预测，a 一螺旋和b 一折叠的结构在1 9 5 1 年第一次被p a u l i n g 等正确的预测出 4 5 ，在p a u l i n g 的预测被 x 一衍射证实以前的1 9 5 7 年，s z e n t g y o r g y i 和c o h e n 提出了根据原始序列来预测二级结构的概念 6 。今天，存在很多种预测蛋白质二级结构的方法，现在最主要的任务就是提高这种预测的准确率。根据r o s t 的划分，二级结构的预测可以分为三代：第一代方法是在1 9 6 0 年到1 9 7 0 年间提出的，这些方法只是运用了原始序列的氨基酸的信息 7 8 ，这些预测蛋白质二级结构的方法的平均准确率最好只能达到6 0 。第二代方法在九十年代达到了它的高峰，运用计算机窗口的概念，把要预测二线结构的氨基酸前后的35 1 个氨基酸的信息也考虑进去了，还运用了例如贝叶斯理论和决策理论等统计方法 1 9 1 0 ，氨基酸的化学性质和它的极性，非极性，配对联的结构等因素也都被考虑了进去 1 1 1 2 1 3 。第二代预测蛋白质二级结构的方法的精度小于6 6 。第三代方法是在九十年代的末期发展起来的，这包括了对大量数据的处理方法，第三代方法的根据是给定的一条蛋白质序列中特定位置氨基酸的二级结构是由这条序列的整体性质决定的，而不是由第二代方法中所谓的固定长度的窗口( 即它邻近的局部的氨基酸) 决定的，也正是由于这点，第三代方法就把整体的信息引入到了局部的氨基酸片断中。根据d i c h e r s o n 在1 9 7 6 年提出的进化理论 1 4 1 5 ，第三代方法运用了同源蛋白质组的概念，把被预测的蛋白质跟已经知道二级结构的数据库中的它的同源家族进行比对来预测被预测蛋白质的二级结构。第一章引言更详细的关于蛋白质二级结构预测的历史可以在 1 6 中找到，总之，虽然在蛋白质的二级结构预测方面已经取得了重大的进展，预测的准确度也在不断的提高，蛋白质二级结构的预测仍然是一个艰难的工作，还需要进一步的研究。在众多的研究蛋白质二级结构的方法中，信号处理中的f f t ( f a s tf o u r i e r t r a n s f o r m ) 和统计方法被很多人用来研究蛋白质二级结构和三级结构的相关问题，并取得了一定的成绩。在 1 7 中，这两种方法被用来研究h s p s ( h e a ts h o c k p r o t e i n s ) ，h s p 是所有细胞中部含有的蛋白质组，当一个细胞被诸如热，冷，或者缺氧等因素影响时就会产生h s p s ，在正常情况下，h s p s 帮助新的或被损坏的蛋白质形成这个蛋白质执行其功能所必需的结构。同时，h s p s 还帮助免疫系统识别患病的细胞，二十年前，h s p s 被确定是动物中的抗癌因素，h s p 免疫疗法被认为是治疗癌症的最有效的方法，在 1 8 中，e i s e n b e r g 等人用f f t 方法确定了蛋白质序列倾向与形成使其极性达到最大的二级周期结构。并提出了用疏水值来研究蛋白质得原始序列的周期性，并指出这个用户疏水值表示的原始序列的周期性是蛋白质二节结构形成的一个因素。在 1 9 中，f f t 被用来做系列的比对，并显示出了其的优越性。在 2 0 中，f f t 被用来比较蛋白质的三级结构，并指出了它相对于以前传统的用于比较蛋白质三级结构的r m s ( r o o tm e a n s q u a r e d ) 的优越性。本文所用的数学方法也是f f t 和统计的方法。可见f f t 在研究蛋白质的结构方面有着很广泛的应用，值得进一步探讨。第二章预备知识第二章预备知识本节介绍了要理解j a m e sl c o r n e t t e 等人的文章 1 中的数学方法所必备的基础的数学知识，j a m e sl c o r n e t t e 等人的文章 1 所用的数学方法，以及我们文章的第二部分所用到的数学知识。差第一节预备数学知识 2 1 1 中心极限定理 ( 1 ) 设己( ”= l ，2 ，) 为互相独立的随机变量序列，有有限的数学期望和方 ( 磊) = 口。，d ( 彘) = 盯； ( = 1 ，2 ，) b ：= ：。d ( 轰) ，若对于x 兄一致地有亡益二生台b 。墼嘞。叫= 击一p 2 咖 7 f 则称随机序列) 服从中心极限定理。 ( 2 ) 设己( h = 1 ，2 ，) 为相互独立同分布的随机序列，且则喜。) 服从中心极限定理。 2 1 2 特征值和特征向量 e ( 彘) = a d ( ) = 盯2 - o u 那么取白( p | | q ) = m 。从上式可以看出总有d ( p 1 q ) o 成立，且等号成立的充分必要条件是 p ( x ) = q ( z ) 对任何的p ( x ) o 的x 成立，因此把它看成是两个概率分布“差异性的度量特征。第二节j a m e sl c o m e t t e 等人的文章【l 】中所用的数学方法蛋白质的二级结构。一螺旋和p 一折叠是周期性的，而蛋白质的二级结构是由其原始序列决定的，所以二级结构的这个周期性可以通过其原始序列表现出来，我们可以通过给原始序列赋予疏水值来表示其周期性 1 8 。不同的疏水值会影响这个周期的表达，但并不会改变周期本身。本文用到的都是e i s e n b e r g 疏水值，我们比较了传统的离散傅立叶变换的方法和一种新的与所用疏水值无关的最大特征值的方法。发现在基本上得到的结果是一样的。本文在介绍了最大特征值方法后还给出了理想的最优的表达这一周期的疏水值。 2 2 1 傅立叶变换的频谱法给定一段p d b 中长度为f 的二级结构已知的蛋白质的片断，依次给这个序列上的每个氨基酸残基赋予疏水值( 本文所用的是e is e n b e r g 疏水值) 记为：，一，。= 眠) = ，定义爿( 珊) = 2 。鼠c 。s ( 女国) ，b ( 国) = ：是。s i n ( 是珊) p ( 国) ：爿( ) 】z “b ( ) ：区：。女f + 陛铀i 。t 甜f 那么这个序列的傅立叶变换的频谱j p 如) 就可以用来显示这个序列片断的周期性变化。第二章预备知识可以使得尸b ) 最大的值础也就是眠) 芝。的主频率，从而2 衫。也就是它的主周期。详细的解释参看 1 。 2 2 2 最大特征值法从( 2 2 1 ) 可以看出，对一给定的山，尸) 是一个用2 0 个不同的疏水值表达的非负的二次型，如果把二十个疏水值看作变量的话，p ( ) 是一个非负的二次方程式，非负的二次方程式的代数方法就提供了很好的方法来研究一个二级片断序列集合的周期性。假设二十种氨基酸序列是按一定的顺序排列好的d 。，“l ，n 。，用一个2 0 1 列向量”来表示相同顺序排列这2 0 个氨基酸的疏水值，如果一个蛋白质片断盯，有残基，蜀，是。，那么这个片断的氨基酸的疏水值序列慨 = 就可以由以下规则决定：“= ，7 ，当月。= 。，我们可以构建一个f 2 0 的“选择”矩阵： e 。= k j ，其中e = 1 当凡。= d ，e = o 当r 。口，。那么疏水值序列 = 就可以表示成一个f x l 的列向量 = e 。，7 。我们再让c 和s 分别表示，x 2 0 的列向量 c o s 女如 s i n 女，其中女= o ，1 ，一l ，那么一个蛋白质片断盯的p ( ) 就可以写为：匕( 。) ：睦：。阮c 。s 甜f + 睦：ks i n ) 2 = p a ) 2 + p ) 2 = 0 7 ，叩) 2 + - 7 。，7 ) 2 = b 7 占；c k 7 e 。，7 ) + ( 叩7 e ：s 始e 。冲) = 7 77 江( c ，+ 净。扣町。e ；f ( 珊) e 。7 7 其中f ) = c c + 船7 ，) 的第f ，j 个分量是第二章预备知识 c o s c o s - ，+ s i n 女珊s i n ，= c o s 忙一b ，因为c o s 忙一_ ，b = c o s o 一女b ，所以 f 瑚e ：f 如) e 。是对称的。又因为| p 如) 是非负的二次型形式，所以e ：，妇) e 。是半正定矩阵，也就是有非负的实特征值。更进一步，任何的蛋白质的二级序列a 一螺旋或0 一折叠的聚合s ，s 中的所有片断的频谱和b ) 可以表示成 b ( ) = 只( ) = 7 7 7 e ：，( ) e 。叩：叩，e ：f ( 甜) e 。叩 l 耐j = ，77 眠h 其中眠) = ；f b 皿。，根据| d b ) 是非负的二次型，可得b ) 也是非负二次型，所以如) 也是半正定矩阵，有非负的实特征值。矩阵0 ) 是集合 s 的一个重要的与疏水值无关的特征。对任何标准化的疏水值，7 ，如) 的最大特征值旯b ) 是7 77 如b 可能的最大值。更进一步，假如固定为一值，不妨为1 0 0 。，如果设善是( 1 0 0 。) 的属于最大特征值五的特征向量，那么这个最大特征值丑和这个特征向量就使得 b ( 1 0 0 。) 达到了最大，所以验证二级结构的最佳的疏水值序列就是# ( 这只是理论上成立) 。 2 2 3t 一检验一个总体数学期望a 的检验。 h o ：a = a o ， h i ：a a o 假设总体e 服从正态p ，仃) ，其中方差。未知专，f - l ，2 ，“是总体的第二章预备知识予序列，则有：历兰服从自由度为n 一1 的t 一分布。其喀去缸s =氍忑第三节本文所用到的数据类型 j a m e sl c o r n e t t e 等人于1 9 8 6 年得到的蛋白质的二级结构a 一螺旋的周期为3 6 3 7 和b 一折叠的周期为2 o 的结果由于所用的蛋白质序列不足够多而使得大家对这一结果都持怀疑态度，我们把同样的数学方法运用到了从p d b 数据库中提取出具有代表性的的蛋白质序列的三种数据类型的中的a 一螺旋和b 一折叠的片段中。本文所用到的数据都是从p d b 数据库中提取出来的。共用到了以下六种a 一螺旋和0 一折叠数据类型：数据类型 1 ：p d b 中全部的蛋白质序列中( 共5 7 3 0 0 条蛋白质序列) 长度大于3 的d 一螺旋的片断( 共4 1 6 2 3 9 条片断) 。数据类型 2 ：f ，d b 中同源相似率小于9 0 的蛋白质序列中( 共8 4 4 6 条蛋白质序列) 长度大于3 的。一螺旋的片断( 共5 9 7 7 0 条片断) 。数据类型 3 ：p d b 中同源相似率小于2 5 的蛋白质序列中( 共2 4 8 5 条蛋白质序列) 长度大于3 的a 一螺旋的片断( 共1 2 1 1 2 条片断) 。数据类型 4 ：p d b 中同源相似率全部的蛋白质序列中( 共5 7 3 0 0 条蛋白质序列) 长度大于3 的b 折叠的片断( 共4 2 8 叭3 条片断) 。数据类型 5 ：p d b 中同源相似率小于9 0 的蛋白质序列中( 共8 4 4 6 条蛋白质序列) 长度大于3 的b 一折叠的片断( 共6 4 3 5 0 条片断) 。数据类型 6 ：p d b 中同源相似率小于2 5 的蛋白质序列中( 共2 4 8 5 条蛋白质序列) 长度大于3 的b 一折叠的片断( 共1 3 0 2 0 条片断) 。第三章结果一：严格重复j a m e sl c o m e n e 等人的工作第三章结果一：严格重复j a m e sl c o r n e “e 等人的工作第一节q 一螺旋的结果 1 用第一种方法即傅立叶变换方法得到的结果。数据聚合数据类型 1 数据类型 2 数据类型 3 p 最大时u 的值 9 8 5 。9 9 。1 0 0 。 a 一螺旋的相应周期 3 6 53 6 4 3 6 0 对应图形图形( 3 1 )图形( 3 2 )图形( 3 3 ) 2 用第二种方法即最大特征值法得到的结果。数据聚合数据类型 1 数据类型 2 数据类型 3 五) 最大时 9 9 o l o o o 1 0 1 5 。 m 的值 a 一螺旋的相 3 6 43 6 03 5 5 应周期对应图形图形( 3 4 )图形( 3 5 )图形( 3 6 ) 从结果中我们可以看出，无论是用那种数据库还是那种方法得到的a 一螺旋的周期都为3 6 3 7 。这个结果可以通过图形更好的表现出来。笙三皇笙墨二：! 兰堡重望! ! 竺! ! 生壁翌竺旦笠堕三笪一幽形( 31 ) 山数撒类型【1 】用傅立叶变换方法得到的频率u 和 p ( 甜) 的对应图图形( 33 ) 由数据类型【3 】用傅立叶变换方法得到的频率u 和尸b ) 的对应| 兰| 图形( 35 ) 由数据类型【2 】用最大特征值方法得到的频率u 和 ) 的对应图图形( 32 ) 山数据类型【2 】用傅立叶变换方法得到的频率u 和尸( ) 的对应图图形( 34 ) 山数据类型【l 】用最大特征值方法得到的频率u 和五b ) 的对应图 1 2 图形( 36 ) 由数据类型【3 1 用最大特征值方法得到的频率u 和 ) 的对应图 l 11i 第三章结果一严格重复j a m e sl c o m e n e 等人的工作第二节p 一折叠的结果 1 用第一利，方法即傅立叶变换方法得到的结果。数据聚合数据类型 4 数据类型 5 数据类型 6 p 最大时u 的值 1 7 8 。1 7 8 。1 7 8 5 。 b 折叠的相应周期 2 o 2 02 o 对应图形图形( 3 7 )图形( 3 8 )图形( 3 9 ) 2 用第二利，方法即最大特征值法得到的结果。数据聚合数据类型 4 数据类型 5 数据类型 6 五) 最大时 1 7 9 o 1 7 8 o 1 7 6 5 。 u 的值 b 一折叠的相 2 o2 02 0 应周期对应图形图形( 3 1 0 )图形( 3 1 1 )图形( 3 1 2 ) 从结果叶，我们可以看出，无论用那种数据库还是那种方法得到的b 一折叠的周期都为2 o 。这一结果可以通过图形更明显的表现出来。图形( 3 7 )图形( 38 ) 由数捌类型f 4 】用傅立叶变换方法得到的频率u 和山数据类型f 5 】用博立叶变换方法得到的频率u 和 p p ) 的对应图 p ) 的对应幽兰三至堕墨二：! 兰堡里星! ! 竺! ! ! ：竺! 竺! 竺竺塑三堡图形( 3 9 ) 山数据类型【6 】用傅立叶变换方法得到的频宰u 和 p 如) 的对应图图形( 31 1 ) 由数据类型【5 】用最大特征值方法得到的频率u 和五0 ) 的对应图图形( 31 0 ) 山数据类型【4 】用最大特征值方法得到的频率u 和兄) 的对应幽图形( 31 2 ) 山数据类型【6 】用最大特征值方法得到的频率u 和五) 的对应圈第三节对结果进行显著性检验t 一检验本节我们对通过六种数据集合得到的六种结果分别抽查一百个数据子集进行了t 一检验，得到了如下的结果：用n 一螺旋的三种数据类型通过两种方法得到的结果都符合a 2 0 o l 的t 检验。用b 一折叠得三种数据类型通过两种方法得到的结果显著性都不是特别显著。从我们的结果可以看出，在蛋白质的二级结构a 一螺旋中，无论_ l _ j 怎样的蛋：-r；“一：；【lp-lllll【frllll【rriliii-iilri-lllli【i 第三章结果一：严格重复j a m e sl h c o m e t t e 等人的工作白质数据库，a 一螺旋的周期都为3 6 到3 7 之间，b 一折叠的周期为2 o 。且前一结果的显著性明显，后一结果的显著性不是特别明显，所以本论文的第四章接着研究n 一螺旋的性质。第四章关于疏水力度的信息学第四章q 一螺旋内疏水力度的分析第一节得到2 0 个氨基酸的贡献系数用数据类型 1 和数据类型 4 加上p d b 中所有的系列，我们可以得到2 0 个氨基酸在这三种数据库中的频率 h e l i xs h e e t 所有s h e e t 中所有 h e l i x 中由中 a8 2 3 l o 8 8 6 4 4 4 2 l8 6 6 1 0 8 3 9 9 4 r4 9 5 5 6 9 4 1 5 k5 9 6 6 4 6 4 7 5 d5 7 3 5 5 8 3 1 8 m 2 1 5 2 4 8 2 1 5 n4 3 7 3 9 1 2 7 5 f3 8 9 3 8 6 5 5 0 c 1 4 4 1 2 4 2 0 5 p4 6 7 2 6 4 2 0 3 e6 5 2 8 3 7 4 3 9 s6 1 1 5 4 2 5 4 5 q 3 7 4 4 4 3 3 o o t5 7 7 4 7 5 7 1 3 g7 7 1 4 8 6 5 3 3 w 1 4 4 1 5 1 1 9 0 h2 4 1 2 2 7 2 2 7 y3 4 9 3 2 8 4 9 8 i5 5 4 5 4 1 9 3 7 v7 0 4 5 9 6 1 3 1 2 表( 41 ) 从这个结果我们可以得出在q 一螺旋中，a ，e ，l ，k 的频率要明显高于他们分别在整个蛋白质系列和b 一折叠中的频率。在a 一螺旋中，a 占了l o 8 8 ，l 占了1 0 8 3 ，e 占了8 3 7 ，k 占了6 4 6 ，它们几个的和就占了3 6 5 4 。为了使这一根据更具有可靠性，我们通过另一种方法来验证这个结论。利用数学的方法，我们也可以发现氨基酸的疏水力在蛋白质二级结构a 一螺旋的形成中也有很大的贡献。我们用相对熵d ( pi lg ) 来研究p 和g 之间的关系。其中，是由疏水力形成的。一螺旋中隔一个螺旋相对应的两个氨基酸发生的频率。口是由于两个氨基酸之间的力形成的两个氨基酸相邻发生的频率。通过计算我们发现，这种疏水力在a 一螺旋内部是很明显的。我们用( 爿，：4 ，) 来表示蛋白质爿，和爿，在h e l i x 中相对应，即蛋白质4 。经过一个周期( 经过一个螺旋) 后和爿相对应。由于本文的第三章已经得出。一螺旋第四章关于疏水力度的信息学的周期在3 6 3 7 之间，我们分别计算隔两个和隔三个氨基酸残基的氨基酸的性质。我们先对隔两个氨基酸的两个氨基酸进行计算，p ( 爿，：月，) = 翌! 等! 立表示( 爿，：爿，) 在a 一螺旋中出现的概率，其中n 是数据类型 1 中所有蛋白质配对的总个数，( 爿，：爿，) 是蛋白质爿，和爿，配的总个数，显然p ( 爿，：爿j ) = p ( 爿，：爿，) 。附录中的表( 4 2 ) 的第二列就列出了2 l o 对氨基酸配对的概率。如果我们引入相对熵来检验4 。和爿，配对是否具有倾向性，我们需要用随机情况下的分布作为参照系，于是取g ( 一，爿，) = p ( 爿，) p ( 爿，) 为爿，和爿，相连的概率。令k c 4 ：爿，= 号暑去孚，。s zkc 4 ：爿，被称作爿，：爿，的亲和性。我们对 1 0 9 ：k ( 爿，：爿，) 的值给出如下的三种情况的解释 ( 1 ) l o g2 k ( 爿，：爿，) o ，意味着爿，m ，发生的概率要比爿，爿，独立出现的概率要大。 ( 2 ) l o g2 k ( 爿，：爿，) zo ，意味着爿，：爿，的发生是随机的。 ( 3 ) l o g2 k ( 爿：爿，) o ，意味着爿，：爿，发生的概率要比爿，爿，随机发生的概率要小。在附录中的表( 4 2 ) 的第三列中列出了2 1 0 种氨基酸配对的亲和力。通过统计计算，亲和力的数学期望d ( p lp ) 的值为。( p ( 爿，：爿，) i lq ) 竺喜善p ( 爿，：爿，) l 。g ，揣2 1 1 6 6 4 d ( p ( 爿，：爿，) | | q ) 三p ( 爿，：爿，) l o g ，_ = ；i 斋2 1 1 6 6 4 这就说明这些配对不是随机的。第四章关于疏水力叟的信息学令三( 爿1 竺萝j p ( 爿，：爿，) l 。g ，二! 生坐，我们有令以4 ) 三蔷尸( 4 叫0 9z 云i 旁罱我们有 2 0 ( 爿，) = d ( p ( 爿，：4 川iq ) ，我们称( 爿，) 是蛋白质爿，的亲和性。我们用统计量l ：之丛生兰竺上来描述蛋白质爿，对h e l i x 的贡献系数 p ( 爿，) l ( 爿，) 其中p ( 爿，) 是蛋白质爿，在h e l i x 中出现的的概率 2 1 。我们在表( 4 3 ) 的第二列中列出了2 0 个氨基酸的贡献系数。同理，我们用( 爿，：爿) 表示相隔三个氨基酸残基的氨基酸重复上边的步骤得到了表( 4 3 ) 的第二列的结果。从表( 4 3 ) 的第二列和第三列可以看出这两个结果没有太大的差异。从表( 4 3 ) 的第二列和第三列我们也可以看到，无论是隔两个还是隔三个，氨基酸a ，i 。，e ，k 对h e x 的贡献都是最大，在第二列中，这四个氨基酸占了4 8 6 。在第三列中，这四个氨基酸占了4 7 3 。又因为 a 一螺旋的周期为3 6 3 7 ，也就是对一个固定的氨基酸，并没有一个固定的氨基酸与它相对应，而是，与它相隔两个和相隔三个残基的氨基酸对它共同作用了疏水力，所以我们得到了表( 4 3 ) 的第四列：把贡献系数大于5 的氨基酸的的两个贡献系数相加得到此氨基酸的新的贡献系数。贡献系数小于5 的氨基酸的贡献系数不变，例如a 的新贡献系数：3 1 4 11 2 = 1 6 7 5 9 4 + 1 4 6 5 1 8 。d 的新贡献系数仍为4 9 5 5 4 。氨基，r 酸( 隔两个)( 隔三个) a1 6 7 5 9 41 4 6 5 1 8 3 1 4 1 1 2 l1 5 9 0 3 71 6 3 7 2 13 2 2 7 5 8 e 8 4 7 18 4 5 5 91 6 9 2 6 9 k7 4 4 8 17 8 2 7 81 5 2 7 5 9 v 6 7 9 1 8 6 8 8 1 31 3 6 7 3 1 g6 0 6 7 26 5 0 0 21 2 5 6 7 4 第四章关于疏水力度的信息学工5 1 4 4 85 3 5 4 0l o 4 9 8 8 d 4 9 5 5 4 4 9 0 3 2 4 9 5 5 4 r4 8 3 6 55 0 6 5 74 8 3 6 5 s4 6 0 3 24 6 5 3 84 6 0 3 2 t4 3 7 5 84 4 5 5 14 3 7 5 8 q 2 9 7 3 12 8 7 5 9 2 9 7 3 l n2 7 3 0 42 8 3 5 62 7 3 0 4 f2 4 2 5 52 4 5 0 42 4 2 5 5 p1 8 9 0 52 0 3 9 51 8 9 0 5 y1 6 9 5 41 7 3 0 41 6 9 5 4 m1 1 1 71 0 9 4 61 1 1 7 h 1 1 0 3 7 81 w 0 4 3 7 1o 4 4 1 8o 4 3 7 1 co ：3 7 4 3o ：j 7 3 2 o 3 7 4 3 表( 43 ) 第二节问题的进一步分析根据表( 4 3 ) ，当选定了一列以后，比如我们选定了第二列，我们就可以把每个蛋白质序列转化成一个数字序列。给定一个片断，我们定义他的疏水力度为这个片断疏水力的平均值。例如：给定片断v v a l v t ，这个片断的疏水力度就是： ( 6 7 9 1 8 + 6 7 9 1 8 + 1 6 7 5 9 4 + 1 5 9 0 3 7 + 6 7 9 1 8 + 4 3 7 5 8 ) 6 = 9 5 7 总之，任意给定的l n ，和任意的蛋白质序列卣岛靠，让点。当。：缶为第f “片断，那么第f 个氨基酸的疏水力度就可以表示为q = ( 善。) ，其中， l = o b l ，+ l ，。当i 。从l 变换到1 0 ，可以得到十个数字序列“。( ) ，“( ) ，我们就可以计算当l 从l 变换到1 0 时由不同的数据库得到的这l o 种长度各异的片断的疏水力度和二级结构的f i s h e r 相关系数 2 1 ，经我们计算，无论选定表( 4 3 ) 的第几列，当l 从1 变到8 时，f i s h e r 相关系数随着l 的增加而增第四章关于疏水力度的信息学加，l 大于8 时，疏水力度和f is h e r 相关系数就不怎么变化了，也就是当l = 8 时的疏水力度就能反映二级结构的信息。在表( 4 4 ) 我们列出了当l 由l 变到 l o 时，选定表( 4 3 ) 的第四列作

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf

文档简介

温馨提示

最新文档

评论

（概率论与数理统计专业论文）蛋白质二级结构周期的检测及α螺旋内疏水力的分析.pdf

文档简介

温馨提示

最新文档

评论

相关文档