(概率论与数理统计专业论文)蛋白质侧链空间结构统计分析与预测应用.pdf_第1页
(概率论与数理统计专业论文)蛋白质侧链空间结构统计分析与预测应用.pdf_第2页
(概率论与数理统计专业论文)蛋白质侧链空间结构统计分析与预测应用.pdf_第3页
(概率论与数理统计专业论文)蛋白质侧链空间结构统计分析与预测应用.pdf_第4页
(概率论与数理统计专业论文)蛋白质侧链空间结构统计分析与预测应用.pdf_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 无论对于生命科学还是生物信息学,蛋白质空间结构的研究都是核心课题之一, 因为结构决定功能而蛋白质侧链的空间结构研究是其中的一个重要分支传统的 侧链结构研究还主要集中在单个氨基酸残基上,对于多个氨基酸残基的侧链结构研 究还不是很丰富 本文以世界上广泛使用的生物分子三维结构数据库p d b 为基础,利用沈世镒 教授提出的对多氨酸残基侧链碳原子间距离的统计分析方法,对蛋白质侧链的空间 结构进行了详细分析通过正交试验设计和信息论中的熵函数等相关知识,给出了 不同位置、不同氨基酸残基种类对侧链结构的影响,并从分子生物学角度进行了原 因分析,得出了侧链结构与化学键、疏水性的关系本文还讨论了由侧链空间结构 预测蛋白质二级结构的可能性,得到了侧链长度的不同峰值范围与二级结构关系的 性质,为今后进行二级结构的辅助预测打下了基础 关键词: 蛋白质结构分析,侧链的空间结构,蛋白质二级结构,三联子,正交 试验设计,熵函数 a b s t r a c t t h er e s e a r c ho fp r o t e i ns p a “a ls t r u c t u r ei so n eo ft h ev i t a ls u b j e c t sf b rb o t h g e n e t i c sa n db i o i n f o r m a t i c s b e c a u s et h es t r u c t u r ed e t e r m i n e st h ef u n c t i o n ,t h e r e s e a r c ho fp r o 七e i ns i d ec h 出ns p a t i a ls t r u c t u r ei so n eo ft h eb r a n c h e 8o ft h i ss u b j e c t b u ct h et r a d i t i o n a lm e t h o d so f s i d ec h a i ns t r u c t u r ea r es t i l lf o c u s e do np r o t e i ns i n 9 1 e a m i n oa c i dr e s i d u e ,a n dw en e e dm o r er e s e a r c h e so ns o m ec o n j o i n r e s i d u e s i nt h i sp a p e r ,t h ea u t h o ra p p l yt h es t a t i s t i cm e t h o df o rt h ed i s t a n c eo fc a r b o n a t o m so np r o t e i ns i d ec h a i n ,p r o p o s e db yp r o f s h i y is h e n ,t oa n a l y z et h es p a t i a l s t r u c t u r eo fs i d ed l a i n ,b 8 s e do nt h ew i d eu s e d3 d s t r u c t u r ed a t a b a s ep d b t h e a u t h o rg i v eo u tt h ei n 丑u e n c e so ft h ed i h b r e n tp o s i t i o na n dd i 珏b r e n ta m i n oa c i d r e s i d u es p e c i e sf b rt h es i d ec h a i ns t r u c t u r e ,b ya p p l y i n gt h eo r t h o g o n a lt e s ta n d e n t m p y a f t e rt h a t ,t h ea u t h o rm a k ea na n a l ”i so ft h eb i o l o 时cr e 粥o n ,a n d6 n dt h e r e l a t i o no ft h es p a t 谢s t n l c t u r eo fs i d ec h a i na n dt h ec h e m i c a lb o ds t l l i sp a p e r a 1 8 0d i s c u s st h ep o s 8 i b i l i t yo ff o r e c a s tt h ep r o t e i ns e c o n d a r ys t r u c t u r eb yt h es i d e c h a i n ,a n dg e tt h er e l a t i o nc h a r a c t e ro ft h ed i f f e r e n tp e a kv a l u e so ft h es i d ec h a j n a n dt h es e c o n d a 。ys t r u c t u r e ,w h i c hl a yaf b u n d a t i o nf o rt h ea c c e s s o r i a lp r e d i c t i o n o fp r o t e i ns e c o n d a r ys t r u c t u r e k e y w o r d sp r o t e i ns t r u c t u r ea n 以y s i s ,p r o t e i ns i d ec h a i ns p a t i a ls t r u c t u r e ,p r 0 t e i ns e c o n d a r ys t r u c t u r e ,t h r e ea m i n oa c i dr e 8 i d u e s ,o r t h o g o n a lt e s t ,e t 。0 p y 2 1 前言 蛋白质是生命科学的重要研究对象从细胞分裂到细胞运动,从代谢到免疫, 已知的生物功能没有一个是离开蛋白质能实现的。 研究蛋白质的功能需要深入了解它们的结构,特别是空间( 三维) 结构,因为 结构决定功能。生命的功能和它的结构,二者是统一的无论对于生命科学还是生 物信息学,蛋白质空间结梅的分析都是核心课题之一 蛋白质的三维结构完全由其氨基酸序列决定如果能从氨基酸序列直接确定蛋 白质的结构,将大大有助于了鳃其结构与功能之间的关系近几年来,已有十万种 蛋白质的一级结构( 氨基酸序列) 被测定出来各种生物学的研究也将会大大丰富 蛋白质一级结构的数据库而同时,传统的用来测定蛋白质三维结构的实验方法, 例如x 射线晶体衍射和核磁共振技术,已经无法跟上序列产生的脚步,我们需要结 合计算的方法去预测蛋白质的空闻结构 常用的蛋白质结构预测方法有很多,如比较建模法、反向折叠法、人工神经网 络方法、模拟退火算法等但对于蛋白质侧链的结构预测方法还主要集中在单个氨 基酸残基的侧链结构上,如d * m e t 的死端消除法等( 参考文献【3 l 、 6 】) 在多个氨基 酸残基侧链闯的相互影响及其空间构象方面,相应的研究还不是很丰富 为了能够更有效的分析和预测蛋白质的空间结构,沈世镒教授提出了一种分析 多个氨基酸残基侧链空间结构的方法:通过对侧链上碳原子间距离的统计,分析不 同位置、不同氨基酸残基类型对侧链空间结构的影响传统的蛋白质二级结构预测 通常为了简化模型而不考虑侧链的影响,而实际上侧链可能形成的氢键与二硫键在 蛋白质的空间结构形成中起重要作用因此,我们在本文中也着重讨论了侧链空间 结构与蛋白质二级结构的关系 本文的主要目的就是通过分析蛋白质一级结构与其侧链空间结构的关系,能对 未知蛋白质的侧链结构进行简单预测,并进一步作为二级结构预测的辅助信息计 算方法主要利用正交试验设计与分析和信息论中熵函数的有关知识 本文第二节介绍了关于生物学中蛋白质分子结构的基本知识,第三节介绍了数 据的收集方法与一些简单的统计结果,第四节给出了利用正交表和熵函数来设计统 计试验的方法,第五节介绍了对试验结果的统计分析,第六节从分子生物学的角度 对试验结果进行了原因分析,最后一节简单讨论了利用侧链空间结构进行二级结构 预测的方法 本文的主要结果有:不同二级结构的蛋白质片断,对其侧链结构的差异的分析; 对于多个氨基酸残基,不同位置、不同氨基酸类型对侧链空间结构的影响;常用氨 基酸残基的侧链空间结构峰值统计表;提出了利用侧链空间结构对于蛋白质二级结 构进行辅助预测的方法,得到了侧链长度的不同峰值范围与二级结构关系的性质。 4 2 预备知识 蛋白质是一种生物大分子,是生命物质的基础它是一切活细胞的组织物质, 也是酶、抗体和许多激素中的主要物质 所有的蛋白质都是由氨基酸构成的氨基酸是带有氨基的有机酸,如下图所示, 它由一个氨基、一个羧基、一个氢原子和一个r 基团组成 h i r c c o o h l n h 2 圉2 - 1 氨基酸的化学结构式 r 基团通常是氨基酸的侧链它们是氨基酸中不参与肽键形成,而斌予氨基酸 独特性的部分( 如亲水和疏水,带电和不带电,有无极性等) 氨基酸目前已知的已 经超过1 0 0 种以上,但在生物体内作为合成蛋白质的原料的只有2 0 种它们的中文 名称和字母符号列成表格如下; 表2 1 常用氢基酸名称符号对照表 序号名称字母符号序号 名称字母符号 l 丙氨酸 a l a1 1 亮氨酸 l e u 2 精氨酸a r g 1 2 赖氨酸 l y s 3 天冬酰胺 a b n1 3 甲硫氨酸 m 色t 4 天冬氨酸a 8 p 1 4 苯丙氨酸 p h e 5 半胱氨酸c y b 1 5 脯氨酸 p r o 6 谷氨酰胺 g l n1 6 丝胺酸 s e r 7 谷氨酸 g l u1 7 苏氨酸 t h r 8 甘氨酸g 1 y 1 8 色氨酸n p 9 组氨酸 h 诘1 9 酪氨酸t n l o 异亮氨酸 i e 缬氰酸 v 越 一个氨基酸的* 氨基和另一个氨基酸的* 羧基之间脱去一分子水相互连接, 形成的酰胺q 做肽,而形成的酰胺键称为肽键由多个m 氨基酸缩合形成的肽称 为多肽,通常把含有1 0 0 个以上氨基酸且具有一定功能的多肽( 有时是含有5 0 个以 上) 称为蛋白质较大的蛋白质可能会含有多条肤链 不同蛋白质其肽链的长度不同,肽链中不同氨基酸的组成和排列顺序也各不相 同蛋白质一级结构指的便是蛋白质多肤链中氨基酸的排列顺序。同时肽链在空间 又卷曲折叠成为特定的三维空间结构,具体包括:二级结构、超二级结构、结构域、 三级结构和四级结构现在研究最多的是蛋白质二级结构。二级结构是指多肽链借 助于氢键沿一定方向排列,组成具有周期性结构的构象,是多肽链局部的空间结构 ( 构象) 。最基本的二级结构类型有a 一螺旋( h e l i x ) 结构和卢折叠( s h e e t ) 结构,此外 5 还有卢转角( m n ) 和无规则卷曲( g o i l ) ,它们是构成蛋白质高级结构的基本要素 m 螺旋是蛋白质中最常见且最典型的,含量最丰富的二级结构元件在a 一螺 旋中,每个螺旋周期包含3 6 个氨基酸残基,螺距为o 5 4 n m ,螺旋中的每个肽键均 参与氢键的形成以维持螺旋的稳定右手m 螺旋结构是在纤维蛋白和球蛋白中发 现的最常见的二级结构,除此以外,还有右手一螺旋、右手n 螺旋、右手7 一螺旋、 右手3 1 0 螺旋、左手a 螺旋、左手u 螺旋、左手t 螺旋、2 7 m b b o n 螺旋、多聚 脯氨酸,共1 0 种螺旋结构 卢一折叠结构也是一种常见的二级结构,在此结构中,多肽链以较伸展的曲折形 式存在,肽链( 或肽段) 的排列可以有平行和反平行两种方式氨基酸之间的轴心 距为o 3 5 n m ,相邻肽链之间借助氢键彼此连成片层结构肛转角结构是种简单的菲 重复性结构在卢一转角中第一个残基的c = o 与第四个残基的n - h 氢键键合形成 一个紧密的环,使伊转角成为比较稳定的结构,多处在蛋白质分子的表面,在这里 改变多歇链方向的阻力比较小而无规则卷曲,是泛指那些不能被归入明确的二级 结构如折叠片或螺旋的多肽区段 蛋白质的生物学功能在很大程度上取决于其空间结构,蛋白质结构构象多样性 导致了不同的生物学功能蛋白质结构与功能关系研究是进行蛋白质功能预测及蛋 白质设计的基础因为它们的特定的结构允许它们结合特定的配体分子,例如,血 红蛋白和肌红蛋白与氧的结合、激素与受体、以及抗体与抗原等知道了基因密码, 科学家们可以推演出组成某种蛋白质的氨基酸序列,却无法绘制蛋白质空间结构 因而,揭示人类每一种蛋白质的空间结构,已成为后基因组时代的制高点,这也就 是结构基因组学的基本任务对于蛋白质空间结构的了解,将有助于对蛋白质功能 的确定同时,蛋白质是药物作用的靶标,联合运用基因密码知识和蛋白质结构信 息,药物设计者可以设计出小分子化合物,抑制与疾病相关的蛋白质,进而达到治 疗疾病的目的 3 数据收集与整理 3 1 选材 在这2 0 种常用的氨基酸排列中,它 f 的空间结构分主链与侧链的二个结构层 次,其主链由n 原子与二个c 原子交替排列而成,在生物学中把第一个c 原子称为 p a 原子,我们记之为a 原子,因此蛋白质主链是由n ,a ,c 三原子交替排列组成, 我们记之为: z = ( 。1 ,纯,砘n ) = ( ( l ,a l ,a ) ,( 2 ,a 2 ,岛) ,( ,厶,) ) 其中n 为蛋白质的长度( 含氨基酸的个数) 而与主链相连的是不同氨基酸侧 6 链,生物学中把氨基酸侧链上与主链c a 原子相连的c 原子称为c b 原子本文 讨论的就是在蛋白质序列中,相邻与次相邻氨基酸c b 原子间的距离与蛋白质一级 结构、二级结构之间的关系 c b 2 图3 1 蛋白质主链与侧链原子结构示意图 在本文中我们重点使用2 0 0 4 年版的p d b 数据库,p d b ( p r o t e i nd a t ab a n l 【) 蛋 白质空间结构数据库是1 9 9 7 年在纽约建立的b r o 旅h a v 一国家试验室国际蛋白质结 构数据库,至今已有2 0 ,0 0 0 多个蛋白质结构及核酸数据我们取其中蛋白质的氨基 酸序列以及相匹配的蛋白质二级结构资料以相邻的三个氨基酸残基为一组( 下文 中称为三联子) ,记录如下内容: l 、三联子首、中、尾的氨基酸类型,记为a ,i l ,2 ,3 其中a = 1 ,2 ,2 0 2 、侧链信息,即三联子中任意两个氨基酸残基的c b 原子间的距离分别记为 d ( 1 ,2 ) ,d ( 2 ,3 ) 和d ( 1 ,3 ) 3 、该三联子属于哪种二级结构若属于口- 螺旋或卢一折叠,则再记下其属于该 二级结构的哪种具体类别在p d b 数据库所记录的所有蛋白质中,m 螺旋、卢一折 叠、肛转角中三联子数分别为2 3 5 6 2 0 8 ,9 4 5 2 7 2 和2 9 8 3 2 3 1 侧链原子间距离的统计与整理 首先,暂不考虑三联予的首、中、尾的氨基酸类型,以及二级结构的差异,计算 所有三联子中任意两个氨基酸残基的侧链c b 原子间的距离,结果如下 表3 一l 所有三联子佣链距离的分布参数统计表( 单位:埃) i 侧链类型均值方差 标准差 d ( 1 3 ) 7 1 9 0 1 8 30 8 8 2 1 4 20 9 3 9 2 2 4 d ( 1 ,2 ) 5 4 9 1 0 2 60 1 0 0 3 4 bo 3 1 6 7 7 8 d ( 2 。3 ) 5 4 8 6 7 8 8 0 1 0 2 3 7 9o 3 1 9 9 6 7 由于d ( 1 ,2 ) 与d ( 2 ,3 ) 都是相邻氨基酸残基的侧链c b 原子间距离,在实质 上是一样的,从上表中也可以看出,它们的均值方差几乎一致因此我们把d ( 1 ,2 ) 与d ( 2 ,3 ) 归为一类来研究,统称为d ( 1 ,2 ) 与之对应的d ( 1 i3 ) 则与他们差别较 大,不仅边长较之更长,分布也没有前者集中。我们分别画出它们的分布图来进行 7 观察。 图3 2 次相邻氨基酸c b 原子距离分布图 图3 3 相邻氨基酸c b 原子距离分布图 由以上两图及表3 一l 可以看出相邻氨基酸侧链c b 原子间的距离非常稳定, 集中在5 0 6 直6 0 7 范围内,因此在预测上没有什么难度。而次相邻的d ( 1 ,3 ) 较前 者分布更广,但规律性也非常强。从图形上看比较接近于l a p l ”e 分布,其主要峰值 在7 o 至8 o 范围内。这给了我们一个课题,就是如何预测次相邻氨基酸侧链c b 原 子间的距离。另一方面,我们也需要了解蛋白质侧链的空间结构与其它结构层次间 的关系。我们先来讨论氨基酸侧链与二级结构间的关系。 一般认为蛋白质二级结构是由主链完全决定的,与侧链无关,但实际上各种侧 链在蛋白质结构中也起着重要的作用因为侧链是把相邻的肽链连接在一起的重要 因素。当一条链上的1 个带负电荷的侧链靠近其邻居上的1 个带正电荷的侧链时, 它们会形成1 个静电键侧链还可以提供起连接作用的氢键。因此,若能有效地预 测侧链形态,就能够帮助我们更好的预测蛋白质二级结构。 通过对p d b 数据库中蛋白质的所有三联子按二级结构的不同进行分类,我们 得到每一类三联子氨基酸侧链c b 原子间距离的分布,如下: 图3 4 不同二级结构中次相邻氨基酸c b 原子间距离分布图 8 图3 5 不f 司二级结构中相辱f l 氨基酸c b 原子间距离分布圉 在图3 4 与图3 5 中,蓝线表示螺旋结构,红线为卢- 折叠,黄线为卢一 转角结构。从图3 4 中可以看出在不同二级结构中,次相邻氨基酸c b 原子距离 d ( 1 ,3 ) 的分布存在较大差异其中。一螺旋结构的次相邻氨基酸c b 原子间距离相 对最为集中,稳定在7 5 附近。这与a 螺旋结构的特殊性是密不可分的:一条多肽 链呈n 一螺旋构象的推动力就是所有肽键上的酰胺氢和羰基氧之间形成的链内氢键 在m 螺旋中,残基侧链伸向外侧,同一肽链上的每个残基的酰胺氢原子和位于它后 面的第4 个残基上的羰基氧原子之间形成氢键,这种氢键大致与螺旋轴平行这种 稳定的构象使得其侧链也具有相对稳定的空间结构。相比之下,由于肛折叠和卢一 转角结构自身稳定性的差异也造成了侧链空闻结构的差异。 而观察图3 5 则可以发现相邻氨基酸c b 原子间距离d ( 1 ,2 ) 的分布差异很 小所以,若能预测三联子中d ( 1 ,3 ) 的长度,则能更好的划分其二级结构。因此在 下文中我们主要讨论次相邻氨基酸c b 原子间距离的预测问题。下表给出了不同二 级结构中d ( 1 ,3 ) 的一些分布参数: 表3 2 不同二级结构侧链距离的分布参数统计表( 单位:埃) i 二级结构均值方差标准差 f 篡 72 4 6 5 5 50 2 6 0 2 2 60 5 1 0 1 2 4 6 0 6 5 7 5 506 4 8 2 9 0o 8 0 5 1 6 5 68 2 9 3 8 210 8 l 4 5 81 0 3 9 9 3 2 为了提高预测准确度,我们要具体分析不同种类的螺旋结构和折叠结构。首先, 螺旋结构共分为1 0 类,在p d b 数据库中这1 0 类螺旋结构所包含的三联子数目如 下表: 9 表3 31 0 类螺旋结构侧链距离的分布参数统计表 从上表中我们发现第一种右手a 一螺旋结构和第五种右手3 1 0 螺旋结构在所有 螺旋结构中所占比例最高。它们的三联子d ( 1 ,3 ) 分布情况如下图: 图3 6 右手a 一螺旋结构d ( 1 ,3 ) 分布图图3 - 7 右手3 1 0 螺旋结构d ( 1 ,3 ) 分布图 可以看出尽管在螺旋结构中,次相邻氨基酸c b 原子间距离多集中在7 o 至8 o , 但也有一部分在4 5 至5 5 区间内。这让我们可以更周密的考虑二级结构的预测问 题 再考虑卢一折叠结构。我们知道,相对于前导链的意义,卢折叠共分为3 类:第 一前导链,相对为顺式和相对为反式这三类d ( 1 ,3 ) 的分布如下图: 图3 - 8 三类伊折叠结构的d ( 1 ,3 ) 分布图 从上图可以发现,这三类芦一折叠的次相邻氨基酸c b 原子闻距离分布情况几 乎一致,没有特异之处,可以作为一个整体来对待。 l o 5 4 由蛋白质一级结构到侧链空间结构 若想通过蛋白质一级结构来预测其侧链的空闻结构,我们首先要解决的问题是 在氨基酸三联子中,侧链空间结构是由谁决定的。也就是说对于三联子而言,谁对 次相邻氨基酸c b 原子间的距离影响更大。 为了比较三联子中哪个因素对侧链影响更大,我们利用正交设计的方法来筛选 试验数据并进行因素分析正交试验设计是数理统计中的一个较大的分支,是利用 “正交表”进行科学地安排与分析多因素试验的方法其主要优点是能在很多试验 方案中挑选出代表性强的少数几个试验方案,并通过对这少数试验的结果分析,推 断出最优方案,同时还可以做进一步的分析,得到比试验结果本身给出的还要多的 有关各因素的信息。在我们所要进行的蛋白质侧链结构分析试验中,考虑三联子共 有2 0 x2 0 x2 0 种组合,利用正交设计不仅可以大大降低计算量,还可以提高试验 数据的代表性 4 1 正交表的构造 正交表是一种特别的表格,是正交设计的基本工具由于每个氨基酸残基有2 0 种可能,我们需要的是一张3 因素2 0 水平的正交表但是没有已知的正交表可以 利用,所以我们需要首先构造一张符合要求的正交表。而一张符合要求的正交表需 要满足以下特点: 1 、正交表中任意一列中,不同的数字出现的次数相等这表示:在试验安排中, 所挑选出来的水平组合是均匀分布的( 每个因素的各水平出现的次数相同) 这称 作正交表的均衡分散性 2 、正交表中任意两列,把同行的两个数字看成有序数对时,所有可能数对出现 的次数相同这表示:任意两因素的各种水平的搭配在所选试验中出现的次数相等 这称作正交表的整齐可比性 以上两点是设计正交试验表的基本准则除此以外,正交表的选择要遵循一条 原则:要考察的因子及交互作用的自由度总和必须不大于所选正交表的总自由度。 由于我们需要一张2 0 水平的正交表,若考虑三因素的交互作用,构造起来难 度很大,还需要在今后作进一步研究因此,本文中只考虑三因素单独对侧链空间 结构的影响。 下面,我们按照如下步骤来构造这张正交表: l 、在第一列中写试验序号:1 ,2 ,3 , 2 、在第二列中放第一个因素的各种水平,即三联子中第一个氨基酸残基的可 能种类,序号为1 到2 0 。以2 0 行为一组,共2 0 组记a ,i = 1 ,2 ,2 0 ;j : 1 ,2 ,2 0 为第一个因素第i 组第j 行的氨基酸序号则我们令a ,j = i ,即第i 组的所有行第一个氨基酸序号都为i 3 、在第三列中放第二个因素,即第二个氨基酸残基的可能种类。记b ,j ,i ,j 定义同上,为第二个因素第l 组第j 行的氨基酸序号我们令b 。j = j ,即所有组的 第j 行第二个氨基酸序号都为j 。 4 、在第四列中放第三个因素,即第三个氨基酸残基的可能种类记q j ,i ,j 定义同上,为第三个因素第i 组第j 行的氨基酸序号。我们令虢。,= 2 l j ,即所有 组的第j 行第三个氨基酸序号都为2 1 一j 构造好的正交表共有4 0 0 组试验,具体见表4 1 ,现证明其正交性 证明; l 、三联子中第一个氨基酸残基的2 0 种类型,每类都出现2 0 次,第二第三个残 基同样每类都出现了2 0 次,也就是说每个因素的各种水平出现次数相同 2 、任意两个因素间,各种水平搭配出现的次数是一样的以第一和第三个氨基 酸残基搭配为例,每个因素有2 0 种水平,他们之间不同的搭配共有4 0 0 种从构造 方法中可以看到,这些搭配在这4 0 0 次试验中都依次出现,且每种搭配只出现一次 同样可以验证第一和第二个残基,以及第二和第三个残基的搭配也具有均衡性 由此可以证明,在3 个因素各水平之间,搭配是均衡的,符合正交表的性质 另外,我们考察正交表是否符合关于自由度的原则:正交表总的自由度 = 试 验次数一1 = 3 9 9 ,而因子的自由度矗= 因子的水平数一l ,因此这三个因子的自由 度为 = ,2 = 厶= 1 9 可见 + ,2 + ,符合正交试验的自由度原则 由上面的证明,我们可以得出结论:表4 1 所构造的试验是满足正交试验性 质的,可以运用正交试验的统计方法对试验结果进行分析 4 2 利用熵函数来测量侧链结构稳定性 利用正交表,我们可以筛选出试验数据,下面我们要考虑的是如何衡量在一定 的三联子搭配下侧链结构数据的可测性 常规方法是记录每组试验中侧链数据的均值和方差,再对方差进行极差分析, 以确定哪个因素的影响更为重要。但通过对大量数据的观察我们发现,在很多三联 子中d ( 1 ,3 ) 的分布并非如常规分布那样只有一个峰值,而是往往有多个峰值存在, 且以两峰值居多在这种情况下,用方差来衡量数据的可测性就会带来很大误差。 考虑信息论中s h a n n o n 熵理论,它并不限制数据信息分布的具体峰值个数,只 需考虑数据信息的不确定性大小。数据信息出现的不确定性越小,其熵越小。则越 容易对消息进行预测。因此,我们可以利用熵函数来代替方差进行数据预测分析。 1 2 在信息论中,信息量被定义为,= 一l o g p ,其中p 为某一消息出现概率这表明 出现概率愈大的消息一经出现,所提供的信息量愈小而概率的大小恰恰表明消息 出现不确定性的大小而熵定义为信息量的概率加权统计平均值,即 日:一量张1 0 9 肌 ( 离散型)其中墨肌:1 t = 1 l = l 或日= 一仁嚣p ( z ) l o g p ( z ) 如( 连续型)其中p ( x ) 为概率密度函数 上式表明日是肌的函数,是不确定性的一种表征圩越大,说明消息出现的不 确定性越大;日越小,则越容易对消息进行预测而熵的单位取决于对数的底当 底为2 时,熵的单位是比特例如,若消息完全确定时,熵函数最小,有日一= o 。 而当所有消息出现概率都相等时,即鼽= 1 n 时,就无法说哪个消息将会出现,说 明此时的不确定性是最大的,所以熵在此时取最大值日。= 一l o g1 n = l o g n 在我们的试验中,由于次相邻氨基酸c b 原子间距离一般在1 0 o 以内,我们把 区间( o ,1 0 ) 分为2 0 份,每份长度为0 5 从而我们用熵; 2 0 日( 口,b ,c ) = 一芝:p “i o ,6 ,c ) 1 0 9 p “i 口,6 ,c ) = 1 来定量描述氨基酸三联子( a ,b ,c ) 中次相邻氨基酸c b 原子间距离的不确定性。其 中p ( 啦,6 ,c ) 为当已知三联子三个位置的氨基酸残基依次为a 、b 、c 时,d ( 1 ,3 ) 在第 i 个区间g l ,i ) 内的概率,从而可以得到ep ( 凇,6 ,c ) = 1 由熵函数的定义可知,日( o ,6 ,c ) 越小,三联子( a ,b ,c ) 中次相邻氨基酸c b 原 子间距离的不确定性越小;日( a 6 ,c ) 越大,其d ( 1 ,3 ) 就越难以预测而熵函数的 最大值出现在d ( 1 ,3 ) 在区间上均匀分布的情况下,此时有p ( i i o ,6 ,c ) = 1 2 0 ,i = l ,2 ,1 0 我们得到五k 。= l 0 9 2 0 = 4 3 2 1 9 ,这时d ( 1 ,3 ) 的不确定性最大 为了能利用熵函数对d ( 1 ,3 ) 的分布做量化的比较和描述,我们需要确定给熵函 数一个标准凰,使得当日( o ,6 ,c ) 凰时,我们可以认为三联子的侧链c b 原子间 距离在一定程度上可以确定 假设随机变量f 服从正态分布( o ,矿2 ) ,则肛服从标准正态分布n ( o ,1 ) 我 们认为若p ( 一o 5 z o 5 ) = o 9 ,则称f 落在区间( 0 5 ,o 5 ) 内的概率为o 9 ,随机 变量f 可基本确定。由于p ( 蚓 o 5 ) = p ( 警 警) = o 9 ,查标准正态分布的上分位 数表,得到u o 0 5 一1 6 5 ,因此口= o 3 0 3 。 计算分布( o ,o 3 0 3 2 ) 的熵函数: ,+ o o 一 日= 一 p ( o ) l o gl ( 盯 2 丌) e x p ( 一0 2 2 仃2 ) d z = 1 5 1 j o 。 因此我们可以说,若日( 。,6 ,c ) 1 5 l ,则三联子( a 山,c ) 的侧链c b 原子间距离稳 定在长度为1 o 的区间内的置信概率为o9 。 1 3 我们记置信区间为1 o ,置信概率为d 的熵函数为风,则凰9 = 1 5 1 。同样可 以计算出凰8 = 1 7 8 ,日07 = 2 0 5 。 5 试验结果分析 通过观察表4 1 我们发现h ( n ,6 ,c ) 的差异还是很大的置信概率为o 9 的试验 共有4 组,分别为第2 6 5 号试验p h e _ c y s n p ,第1 3 号试验a 1 a 州e t 埘e t ,第8 7 号 试验c y s g l u j e u 和第h 3 号试验g l n e t m p 。而置信概率为o 8 和o 7 的分别有 2 0 和5 6 组试验。可见除了少数的三联子组合外,大部分的氨基酸三联子侧链的空 间结构都不是十分稳定的。 但这并不意味这无章可循。注意到这4 0 0 组试验中熵的最大值出现在第3 0 9 号 试验s e r m i s a s p ,其熵达到了3 4 0 5 4 ,但是相对于月。= 4 3 2 1 9 还相去甚远。这说 明侧链的空间结构还是有一定规律的,需要我们进一步的挖掘 5 1 熵与标准差的比较 为了进行比较分析,我们一同计算了各组试验d ( 1 ,3 ) 的熵和标准差,观察试 验结果可以发现,绝大多数三联子的熵函数和标准差所反映的信息都是一致的,即 熵函数较大的三联子标准差也较大这说明这两组指标都可以很好的反映三联子的 侧链空间结构稳定性。但是我们也发现在有些组中这两个指标给出了相反的信息, 这就需要确定哪个指标更能反映真实的情况。 观察第1 5 号试验a l a j m j r o 其熵函数为1 7 6 8 3 ,标准差为o 4 5 1 9 ,而第2 4 l 号试验m e t _ a 1 a e t :熵函数为1 6 9 6 6 ,标准差为o 8 6 6 2 。比较这两组试验结果,会 发现前者的熵函数大于后者,而标准差则小于后者。若从标准差的角度来分析,前 一个试验的三联子侧链空间结构比后者稳定;若从熵函数的角度分析,得出的结论 就会恰恰相反。我们将这两组试验的d ( 1 ,3 ) 分布图绘制如下: 图5 - 11 5 号与2 4 1 号试验侧链c b 原子间距离分布图 1 4 在上图中蓝线表示第1 5 号试验,红线表示第2 4 l 号试验从图中可以看出尽管 第1 5 号试验的c b 长度都集中在8 o 附近,但分布范围却相对较广;而第2 4 1 号试 验虽然有两个峰值,但它们界限清楚,且每个峰值各自分布都很集中。因此后者的 侧链空间结构确定性更大,也更容易预测,这与熵函数所放映的信息是一致的。 通过多组类似试验的比较,我们得出结论:使用熵函数作为标准来描述侧链空 间结构稳定性要优于标准差。基于熵函数在这个问题上的优越性,我们下面的研究 主要针对熵函数这个指标来展开 5 2 利用极差分析三联子不同位置对侧链的影响 极差分析法是正交试验设计最常用的统计分析方法极差指的是各列中各水平 对应的试验指标平均值的最大值与最小值之差极差越大,说明这个因素的水平改 变对试验结果的影响越大,极差最大的那个因素,就是最主要的因素 为了比较三联子不同位置上的氨基酸对其侧链空间结构的影响,我们需要把氨 基酸三联子每个位置上的总的熵函数计算出来 氨基酸三联子中第一个位置为a i a ( 丙氨酸) 的是第l 至2 0 号试验,它们总的 熵函数为 = 日( n ,6 ,c ) = 4 1 6 9 6 8 类似的,可以求出第一个位置为第i 种氨基 8 = 1 酸的总的熵函数为:五= 日( n ,b ,c ) ,i = 1 ,2 ,2 0 为便于比较,再分别把上述总的熵函数取平均值,即除以熵函数不为零的试验 次数例如;三联子第一个位置都是a l a 的共有2 0 个试验,其中第8 号试验由于第 三个位置为g 1 y ,熵为零,所以有效的试验次数为1 9 故第一个位置为a 1 a 的平均 熵为 1 9 = 4 1 6 9 6 8 1 9 = 2 1 9 4 6 类似可求出第一个位置为其它氨基酸的平均熵 比较这些平均熵,就可以看出三联子同一位置上不同氨基酸类型对侧链空间 结构稳定性的影响通过计算我们发现,当三联子第一个位置上为仕p 时得到最 小的平均熵2 1 3 1 6 ,面当其为a s n 时平均熵最大为2 8 9 8 4 此时,因素一的极差为 2 8 9 8 4 2 ,1 3 1 6 = o 7 6 6 7 ,这反映了氮基酸三联子中第一个位置对侧链空间结构的影响 程度 类似,可以比较另外两个位置对侧链的影响以上的计算列成表格如下: 表5 ,l 侧链结构正交试验的极差分析表 水平因素l 熵因素2 熵因素3 熵因素l 标准差西翥2 标准差因素3 标准差 14 16 9 6 84 60 0 5 44 4 6 7 4 11 3d 5 41 57 5 7 41 53 1 5 8 24 76 4 1 74 54 9 0 54 5 7 8 6 81 5 6 6 4 41 5 5 3 5 71 53 5 1 5 35 50 6 8 74 98 1 1 25 03 3 7 2 2 0 8 3 7 6 1 7 6 4 1 41 7 1 5 3 6 45 35 6 1 24 82 7 2 25 35 6 4 41 94 5 3 61 65 2 2 71 98 1 3 5 54 59 4 0 64 28 4 1 84 58 0 8 41 6 1 2 5 31 45 6 8 51 45 5 8 7 64 45 1 3 74 3 6 9 9 54 4 9 3 5 61 4 1 91 4 9 7 6 31 49 8 8 6 74 62 8 1 34 19 5 4 7 4 90 9 3 2 1 47 9 4 41 4 1 7 3 91 7 5 2 8 1 5 水平因素l 熵 因素2 熵因素3 熵因素l 标准差因素2 标准差因素3 标准差 o5 42 4 4 9oo 2 17 9 2 l0 94 77 9 4 14 46 6 2 64 8 4 5 9 8 1 6 5 3 1 61 55 6 5 8i 68 0 9 8 1 04 5 4 7 2 84 2 6 5 9 54 7 0 2 2 91 3 5 3 3 4 1 26 6 2 5 1 52 9 9 1 1 4 67 5 9 24 23 8 2 84 44 4 9 31 4 7 2 9 91 30 7 0 71 44 6 8 9 1 24 80 7 7 24 5 5 5 3 1 4 82 3 6 7 1 5 6 2 0 4 1 55 2 6 2 1 63 4 1 2 1 34 27 9 4 93 9 1 8 6 54 1 8 6 4 41 3 5 4 11 29 4 0 41 4 4 4 5 9 1 4 4 3 9 5 1 94 38 9 2 94 6 ,5 6 2 61 3 5 4 2 21 4 2 7 3 7 1 45 9 1 4 1 55 l4 8 5 24 8 3 0 3 34 6 5 3 5 81 8 1 1 6 81 66 8 4 41 46 9 6 6 1 65 46 8 3 34 8 ,1 7 85 2 0 4 2 l2 19 1 1 71 69 0 7 81 79 6 3 4 1 75 l8 6 9 54 65 9 6 15 1 4 7 5 5 1 96 0 5 2 1 50 7 1 2 1 7 6 2 9 1 84 05 0 1 24 16 6 7 14 34 3 4 5 1 34 8 4 4 1 3 5 1 2 2 1 49 4 1 94 83 6 0 l4 4 0 1 7 74 7 3 8 l l1 5 ,5 2 0 91 3 9 9 0 81 5 ,4 6 2 5 2 04 7 2 1 5 l4 42 4 8 95 20 0 4 31 43 7 3 1 1 3 4 5 6 31 7 2 7 2 6 l ,n u m2 1 9 4 62 4 2 1 32 3 5 1 30 6 8 7 1o8 2 9 3 o 8 0 6 l 2 n u m2 5 0 7 525 2 7 224 0 9 8 o8 2 4 40 8 6 3 1o 8 0 8 3 ,n u m2 8 9 8 427 9 7 32 6 4 9 3l0 9 6 709 8 0 1 o9 0 2 8 4 ,n u m2 8 1 92 ,6 8 1 82 8 1 9 2 l ,0 2 3 9o9 1 7 91 0 4 2 8 5 ,n m2 4 1 7 92 3 8 0 l2 4 i l o 8 4 8 70 ,8 0 9 4o7 6 6 2 6 ,n u m2 3 4 2 82 4 2 7 82 3 6 5o 丁4 6 8 0 8 3 20 7 8 8 9 7 ,n u m2 4 3 5 923 3 0 825 8 3 9 o 7 7 8 707 8 7 409 2 2 5 8 ,n u m 0 3 0 1 3 600l _ 2 1 0 丁 o 9 ,n u m2 5 1 5 524 8 1 32 5 5 0 5 0 8 7 0 l0 8 6 4 80 8 8 4 7 1 0 ,n u m23 9 3 32 3 7 2 4 了4 907 1 2 3o 7 0 3 5 0 8 0 5 2 1 1 ,n u m 2 4 6 1 2 3 5 4 62 3 3 9 4 0 7 7 5 30 7 2 6 20 7 6 1 5 1 2 ,n u m25 3 0 42 5 3 0 7 2 5 3 8 80 8 2 2 lo8 6 2 6 0 8 6 0 l 1 3 n u m 2 2 5 2 4 2 1 7 72 2 0 3 40 7 1 2 7 o 7 1 8 9o 7 6 0 3 1 4 ,n u m2 3 1 3 324 3 8 524 5 0 7 0 7 1 2 707 9 307 6 8 1 5 删h n2 7 0 9 726 8 3 524 4 9 3 o ,9 5 3 5 09 2 6 907 7 3 5 1 6 ,n u m28 7 8 l26 7 6 62 7 3 9 1 1 1 5 3 20 9 3 0 9 4 5 4 1 7 ,n u m27 325 8 8 727 0 9 2 1 _ 0 3 1 908 3 7 3 09 2 7 8 1 8 ,n u m2 1 3 1 623 1 4 82 2 8 60 7 0 9 7 0 7 5 0 707 8 6 3 1 9 ,n u m2 5 4 5 32 ,4 4 5 42 4 9 3 7 0 8 1 6 9o 7 7 7 3 0 8 1 3 8 2 0 ,n m2 4 8 52 4 5 8 3 2 7 3 7 lo 7 5 6 5 o ,7 4 7 80 9 0 9 l 极差 0 7 6 6 70 8 3 6 60 6 1 5 8 0 4 6 6 205 0 7 2 02 8 2 5 观察上表,通过比较极差我们可以得到如下结果: 1 、单从极差来分析,无论是从熵函数的角度还是标准差的角度,三联子中位于 中间的氨基酸即第二个因素的极差都是最大的这似乎说明了在氨基酸三联子中第 二个氨基酸对d ( 1 ,3 ) 的影响程度最大,其次是第一个氨基酸的影响,而第三个氨基 酸的影响则更次之而且他们之间的差异还是比较显著的。 但这里有一个因素应当考虑,就是当三联子第二个位置为甘氨酸时,平均熵取 到所有平均熵的最大值30 1 3 6 。这应源于甘氨酸的特殊性:甘氨酸是唯一在c n 原 子上只有2 个氢原子,没有侧链的氨基酸。因此它既不能和其它残基的侧链相互作 用,也不产生任何位阻现象这就造成了侧链空间结构的随意性加大,d ( 1 ,3 ) t 巳就 1 6 很难预测。但这个特殊值却严重左右了极差的比较如果去掉这个特殊值,因子2 的极差就变为o 6 2 0 3 ,这就小于因子l 的极差而略大于因子3 的极差 因此,排除第二个位置可能为甘氨酸的特殊性,在三个位置中,第一个位置对 三联子侧链的空间结构影响是最大的,而后面两个位置对侧链的影响相差不多 2 若从各因素中选出平均熵最小与最大的水平,组成两个试验:n p m e t 埘e t 和a s n g l y a s p 。他们虽然都不在由正交表选出的4 0 0 组试验中,但通过计算我们发 现它们的熵分别为1 2 7 6 9 和3 0 9 7 4 这确实反映了各因素不同水平对熵的作用,而 且也说明正交表所安排的试验确实有很好的代表性。 3 ,为了将因子水平的变化所引起的试验结果间的差异与误差的波动所引起的 试验结果间的差异区分开,我们对试验结果进行了方差分析,以弥补直观分析与极 差分析的精度不足的缺点 用皿,i = 1 ,2 ,4 0 0 来表示这4 0 0 组试验的结果,用日表示它们的平 均值,记岛为试验结果的总偏差平方和,则岛= ( 甄一日) 2 。其中琏0 总偏 差平方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论