




已阅读5页,还剩84页未读, 继续免费阅读
(生物医学工程专业论文)基于知识的蛋白质结构预测评分函数的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
布的评分函数。并通过多次实验确定计算距离分布时的离散区间数目为 2 0 。 ( 2 ) 在蛋白质结构中,主链二面角( ,妒) 的分布就可用拉氏构象 图来描画。本文构建了一个基于二面角的评分函数,通过计算确定把 ( ,伊) 空间离散为6 0 的网格是最好的选择。 ( 3 ) 进一步组合上述从距离和角度两个方面建立的评分函数,所得 的评分函数性能比前两者有大幅提高。通过正确识别蛋白质天然结构总 数和zs c o r e 这两个性能指标,确定了性能最好的一组组合能量,此组 合能量函数能识别出1 5 0 条天然结构的测试集中的1 0 9 条。 ( 4 ) 由于2 0 种氨基酸在蛋白质中出现的频率不一样,因此存在着 数据稀疏性。本文采用了一种稀疏数据校正策略,通过计算确定了另一 组识别性能最优的组合能量,能识别11 4 条天然结构,识别率为7 6 , z _ s c o r e 值也同时得到改善。 关键词:基于知识的评分函数,能量函数,依赖距离分布的能量函数, 二面角能量函数,组合能量函数,稀疏数据校正 ak n o w l e d g e b a s e ds c o i u n gf u n c t i o n f o r p r e d i c t i n gp r o t e i ns t r u c t u r e s a b s t r a c t i th a sr e c e n t l yb e e nac h a l l e n g i n gr e s e a r c ht o p i ci nb i o i n f o r m a t i c st o p r e d i c tt h et e r t i a r ys t r u c t u r eo fap r o t e i nf r o mi t sa m i n oa c i ds e q u e n c e i ti s c r i t i c a lt od e s i g nag o o ds c o r i n gf u n c t i o ni nr e c o g n i z i n gt h en a t i v es t r u c t u r e o fap r o t e i n s c o r i n gf u n c t i o n ,w h i c hi sa l s oc a l l e da se n e r g yf u n c t i o no rp o t e n t i a l f u n c t i o n ,c a nb ec l a s s i f i e d i n t ot w oc a t e g o r i e s :p h y s i c s b a s e ds c o r i n g f u n c t i o na n dk n o w l e d g e - b a s e ds c o r i n gf u n c t i o n t h ef o r m e ri sa l le x p e r i e n t i a l f o r m u l ar e s u l t i n gf r o ma n a l y z i n gt h ef o r c e sb e t w e e nt h ep a r t i c l e ss oi tr e a l l y r e f l e c t st h ef o r c e sb e t w e e nt h ep a r t i c l e si n s i d et h ep r o t e i no rb e t w e e nt h e p a r t i c l e s o ft h e p r o t e i n a n ds o l v e n t i ti s c o m p l i c a t e d a n d v e r y t i m e c o n s u m i n gt oc a l c u l a t ep h y s i c s b a s e ds c o r i n gf u n c t i o n t h el a t t e ri s d e r i v e df r o mt h ek n o w np r o t e i ns t r u c t u r e sd a t ai np r o t e i nd a t a b a s e ( p d b ) a s t r a i n i n gd a t aa n di ss t a t i s t i c a l l ye f f e c t i v e t h ek n o w l e d g e - b a s e ds c o r i n g f u n c t i o ni m p l i c i t l yr e p r e s e n t st h ep h y s i c a la n dc h e m i c a lf o r c e si nt h en a t i v e p r o t e i ns t r u c t u r e sa n dc a nb ec o m p u t e dm o r ee a s i l yt h a nt h ef o r m e r t h e p e r f o r m a n c eo fk n o w l e d g e b a s e ds c o r i n gf u n c t i o nl a r g e l yd e p e n d so nt h e q u a n t i t ya n dq u a l i t yo fk n o w np r o t e i ns t r u c t u r e st h a tw e r es e l e c t e da st h e t r a i n i n gd a t a i nt h i sp a p e r , w ee m p l o y e dp r o t e i n sl i s t e di np d bs e l e c t2 5a sl e a r n i n g d a t a a st h es e l e c t i o no f a r e p r e s e n t a t i v es e to f p d bc h a i n s ,t h ep d bs e l e c t2 5 l i s th a sb e e nc o n t i n u a l l yu p d a t e db yt h em e m b e ro fe u r o p e a nm o l e c u l a r b i o l o g yl a b o r a t o r y t h em a i np o i n t s i nr e s e a r c ho ft h i s p a p e ra r ea s f o l l o w i n g : ( 1 ) b a s e do nt h ea s s u m p t i o nt h a tt h ed i s t r i b u t i o no ft h ed i s t a n c e s b e t w e e np a i r w i s er e s i d u e si nt h en a t i v ep r o t e i ns t r u c t u r e si sa c c o r d i n gw i t h b o l t z m a n n sp r i n c i p l e ,w ed e s i g n e das c o r i n gf u n c t i o nw h i c hr e p r e s e n t s p a i r w i s ed i s t a n c e d e p e n d e n tp o t e n t i a l s i tw a sa l s os u g g e s t e dt h r o u g ho u r e x p e r i m e n t st h a t 2 0i n t e r v a l sb er e a s o n a b l ei nt h ep r o c e s so fd i s t a n c e d i s t r i b u t i o nc a l c u l a t i o n ( 2 ) t h ed i s t r i b u t i o no fp r o t e i nb a c k b o n ed i h e d r a la n g l e sc a nb e d e s c r i b e db yr a m a c h a n d r a np l o t b a s e do nt h i sk n o w l e d g e ,w ec o n s t r u c t e da b a c k b o n ed i h e d r a la n 酉e - d e p e n d e n tp o t e n t i a l t h r o u g ho u re x p e r i m e n t sa m e s ho f6 。o v e rt h er a n g eo f ( 痧,妒) e m p l o y e dt oc o u n tt h er e l a t i v ef r e q u e n c y o fo c c u r r e n c eo f r e s i d u e sw a sp r o v e dt 0b et h eo p t i m u m ( 3 ) t h ep e r f o r m a n c e so fd i f f e r e n tc o m b i n a t i o n so fp a i r w i s e d i s t a n c e d e p e n d e n tp o t e n t i a l sa n dd i h e d r a la n g l e d e p e n d e n tp o t e n t i a l sw e r e t e s t e d i tw a sf o u n dt h a t10 9n a t i v ep r o t e i n sc a nb ec o r r e c t l yr e c o g n i z e di n 15 0d e c o ys e t sw i t ht h eb e s tc o m b i n a t i v ep o t e n t i a la ss c o r i n gf u n c t i o n ( 4 ) b e c a u s et h eo c c u r r e n c eo f2 0t y p e sa i n i n oa c i d si np r o t e i n si s v a r i a n t ,t h ep r o b l e mo fs p a r s ed a t ao c c u r s as t r a t e g y o fs p a r s ed a t a c o r r e c t i o nw a se m p l o y e dt os o l v et h i sp r o b l e m t h er e s u l t so fe x p e r i m e n t s s u g g e s t e dt h a to n ec o m b i n a t i v ep o t e n t i a lp e r f o r m sb e s t ,w h i c hc a nc o r r e c t l y r e c o g n i z e d11 4n a t i v ep r o t e i ns t r u c t u r e sw i t hr e c o g n i t i o np r e c i s i o no f7 6 a n ds i g n i f i c a n t l yi m p r o v e dz _ s c o r ev a l u e k e yw o r d s : k n o w l e d g e b a s e ds c o r i n gf u n c t i o n , e n e r g yf u n c t i o n , d i s t a n c e d e p e n d e n tp o t e n t i a l ,d i h e d r a la n g l ed e p e n d e n tp o t e n t i a l , c o m b i n a t i o n so f p o t e n t i a lf u n c t i o n ,s p a r s ed a t ac o r r e c t i o n 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名:彩碗数 日期:o 年 j 月岁日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密吼 ( 请在以上方框内打“4 ”) 学位论文作者签名:独兢故指导教师签名 日期:训5 年了月8 日 日期:年月日 上海交通大学博士学位论文 1 1 研究的目的和意义 蛋白质的三维结构是体现其 生化功能和细胞功能的基础。借助 蛋白质的三维结构,可以研究蛋白 质的生物角色、分子机制、催化作 用、分子问相互作用及绑定其他效 用分子等重要特征目前,实验测 定方法( 如x - 射线衍射法和核磁 共振法等物理实验方法) 仍然是获 得蛋白质结构的最可靠的方法。已 经测定的蛋白质三维结构的数日 一直远少于已经测定的蛋白质一 维序列的数耳( 图1 1 ,1 - 2 ) 截 至2 0 0 6 年4 月4 日,s w i s s r o t 4 9 4 数据库1 1 】中蛋白质序列的纪 录达到2 1 5 ,7 4 1 条,而蛋白质结 构数据库p d b b 在同一天的统计 记录是3 5 ,9 1 7 条结构数据在可 以预见的未来,这两个数据库中数 量差距加大的趋势将继续下去嘲 第l 章绪论 ; 。 jj , j , ,一 i _i 憎i 惜n _t 斜 i _ _ _ - l # 一- z _ 图l - ls w i s s - p r o t 数据库中蛋白质序列数目增长曲纠1 】 f i g 1 lt h eg r o w t ho f 灯i i ns w i s s - p r o td a t a b a s e 1 l 图1 - 2p d b 结构数据增长曲线( 2 j f i g 1 - 2y e a r l y o r o w t ho f t o t a l s t m c t u r e si np d b 2 这是由蛋白质结构的测定方法所决定的:以x 射线衍射法测定结构需要采用高纯度的蛋白质晶 第l 章绪论 体,而以核磁共振法只能测定小蛋白质的三维结构。在这些技术条件的局限下,并不是所有的蛋 白质都能通过实验测定来获得其结构。 1 9 6 1 年,a n f l n s e n 等科学家通过核糖核酸酶的变性和复性实验,揭示核糖核酸酶折叠成天 然结构所需要的全部信息都包含在它的一维序列中网这一结论为后来大多数的球蛋白所证实。 正是这一事实,使研究者相信,对于目前尚未知其结构的蛋白质,可以通过其序列和一些已经被 发现的序列一结构之间的关系来计算或者建立其三维结构模型因此,目前的结构基因组计划 ( s t r u c t u r a lg e n o m i c si n i t i a t i v e ) 主要是以实验方法测定重要且具有代表性的蛋白质结构,在此 基础上,通过建立模型的方法预测其它蛋白质的结构预测蛋白质的结构是当前生物信息学领域 中一个非常具有挑战性的课题 总的来说,预测蛋白质结构的研究途径有两大类:( 1 ) 基于物理原理:a n f i n s e n ( 1 9 7 3 年) 1 0 1 0 帅科口h 蝈啪嘲 m 只也功v x 玲s 辩f w f d k k 翻仃t 丫 0 同雕葺脯挣眠轴锄“峭岣 矿 觳等嚣:怒勰f r o m m 茹怒n g r 嘲n 曲机g r t o 鼬 = a u t i s mj l i t i t e l u r e 图1 - 3 蛋白质预测的两天途径嘲 f i g 1 - 3t h e t w oa p p r o a c h e so f p r o t e i ns t r u c t u r e p r e d i c t i o n ! q 2 提出热力学假说,即天然蛋白质的结构处 于自由能全局最小状态这种研究方法先 模拟蛋白质的空间构象的变化,再从中搜 索自由能最小的构象,以此作为蛋白质的 结构和这种研究途径相对应的蛋白质结 构预测方法称为“从头建模”脚( d en o v o m o d e l i n g ) 这种预测方法原则上适合所有 的蛋白质类型,包括那些没有合适模板存 在的蛋白质。( 2 ) 基于进化论的观点当 第一批少数的蛋白质结构被测定之后,研 究者发现尽管同源蛋白质存在着不同的变 异,但它们往往保持同样的折叠形状( 即 保持相同的二级结构排列及连接) ,且结构 的变异程度远远低于序列的变异程度。因 此研究者就把结构待定的目标蛋白质 ( t a r g e t ) 的序列映射到另外一个结构已知 穆白 上海交通大学博士学位论文 的模板蛋白质( t e m p l a t e ) 上,建立目标蛋白质的总体折叠形状,然后根据序列中氨基酸的替换 ( s u b s f i t u b o n s ) ,插入( i n s e r t i o n s ) 和删除( d e l e t i o n s ) 来导出目标蛋白质的可能结构( 如图1 3 ) 。 和这种研究途径相对应的蛋白质结构预测方法称为“同源建模”嘲m ( c o m p a r a t i v em o d e l i n g 或 h o m o l o g ym o d e l i n g ) ,即把已测定结构的同源蛋白质作为模板,把目标蛋白质序列装配( a l i g n ) 上去 从头建模可进一步分为两类:( 1 ) 从头预测方法 s - l q ( a bi n i t i om e t h o d s ) ,即完全借助多 肽链内部的物理作用及多肽和溶剂之间的作用;( 2 ) 基于知识的方法( k n o w l e d g e - b a s e d m e t h o d s ) 即根据目前已测定的蛋白质结构数据通过统计规律建立能量函数来预测目标蛋白质 结构啊 同源建模也可进一步分为两类:( 1 ) 把模板的坐标拷贝到所对齐的目标蛋白质的核心区域。 这些坐标也可以取多个模板的坐标平均值,可变区域则从事先准备好的数据库中提取相似序列的 结构片断来构建然后把发生变异的侧链以符合立体化学标准和能量优化原则的旋转异构体 ( r o t a m e r s ) 来取代网上自动同源建模服务s w i s s - m o d e l l 习就采用了这种方式( 2 ) 把同目 标蛋白质对齐区域的模板的原子间距离和二面角作为建模的约束条件。该方法允许使用来自多个 可能有冲突的结构的信息,并使之遵循从已知蛋白质结构数据库中提取的空间和立体化学的约束 条件同源建模程序m o d e l l e r ! 嘲用了这种方式 同源建模后来被拓展为折叠识别【1 q n 目( “f o l dr e c o g n i u o n ”) ,即模板和目标蛋白质不必是同 源蛋白质,只要它们拥有相似的折叠形状即可早期的折叠识别大多采用“t h r e a d i n g ”嗍方法 ( 即蛋白质能量的计算基于物理或者统计的能量函数) 当前的折叠识别大多转向序列对比及同 源关系较远的蛋白质,而不再依靠没有同源关系的无关蛋白质 为了客观评价不同预测方法的性能,国际上有三个评价平台为各国的研究者认同并共享: ( t ) c a s p ( c d t j c a la s s e s s m e n to ft e c h n i q u e sf o rp r o t e i ns t r u c t u r ep r e d i c 6 0 n ) ,( 2 ) c a f a s p ( c r i t i c a l a s s e s s m e n t o f f u l l y a u t o m a t e d s t r u c t u r e p r e d i c t i o n ) ,( 3 ) l i v e b e n c h 1 7 。其中c a s p 是由代表不同预测方法的专家来评估的,而c a f a s p 和l i v e b e n c h 1 7 1 平台则完全是自动完成的 近年来这三个平台都显示:综合多种预测方法的元预测【1 吼1 砚( m e t a - p r e d i c t i o n ) 方法的性能超 过任何一种单独的预测方法 第l 章绪论 在以上种种预测方法中,不论是同源建模中从模板建立模型,还是从头建模中以多个互相重 叠的3 1 5 个氨基酸长度的片断来构建目标蛋白质的模型,都需要从产生的候选模型中选出最接 近天然结构的模型这时,都不可避免地要建立一种评价准则,作为判断哪个候选模型最接近天 然结构的依据。这种评价准则称为评分函数或能量函数评分函数的性能将直接影响蛋白质结构 预测的准确性,因此,评分函数的设计是蛋白质结构预测的核心及关键之一 本文研究的目的就是设计一个预测蛋白质结构的合适的评分函数,井以实验验证该评分函数 的有效性。 1 2 国内外评分函数的研究现状 根据热力学的假说,在自然条件下,蛋白质天然结构的自由能最低因此,反映自由能大小 的评分函数( 能量函数) 被广泛地应用于蛋白质的结构预测、蛋白质折叠模拟和蛋白质设计等 在蛋白质的结构预测中,可采用评分函数指导蛋白质构象的搜索过程,或者在一系列可能的候选 结构中选择合适的结构 使蛋白质结构形成折叠且保持稳定的物理作用目前尚未被完全了解 2 0 j 因此,大多数研究 者目前主要是依靠物理经验公式或者根据已知蛋白质结构的知识来设计评分函数【2 l 】。表i - i 显示 了一些典型的蛋白质结构预测软件及其所采用的评分函数类型。 表i - i 几种蛋白质结构预测软件及其所采用的评分函数类型【5 j 蛋白质结构预测软件采用的评分函数 p c o n s s基于知识的评分函数 f r a n k c n s k i n 3 d基于知识的评分函数 i ns i l i c op r o t e i nr e c o m b i n a t i o n基于知识的评分函数 g e n e t i c a l g o r i t h m 基于知识的评分函数 r o s g 兀a物理评分函数和基于知识的评分函数 s i m f o i d物理评分函数 p r o f e s y物理评分函数 f r a g f o l d基于知识的评分函数 加田延r 五u 话震基于知识的评分函数 a b l e物理评分函数和基于知识的评分函数 1 a s s 腿基于知识的评分函数 f l u 心t l c ,c a b s基于知识的评分函数 ( 1 ) 基于物理经验公式的评分函数 4 上海交通大学博士学位论文 若以物理原理来建立分子模型,最精确的自然是采用量子力学( q u a n t u mm e c h a n i c s ) 的公式。 在量子层次上,电子分布被明确表达在公式中,因此可以用来研究分子的化学反应如化学键的形 成及断裂等矧。但是对于蛋白质这样的大分子来说。量子力学建模的计算量极大,目前的计算 工具难以在合理的时间内完成计算量如此巨大的预测因此,分子力学( m o l e c u l a rm e c h a n i c s ) 成了量子力学的替代计算方法在分子层次上,电子运动被忽略,系统的能量仅是原子核位置的 函数。目前常用的分子力学与力场工具有:a m b e r 2 4 1 ,c t t a v , m m 【2 5 1 1 2 6 1 ,e c e p p 2 2 7 l 2 s 。这些 分子力学公式一般都包含四个主要成分】:( 1 ) 键伸缩能量( b o n ds t r e t c h i n gp o t e n t i a l ) ,( 2 ) 键 角张合能量( a n g l eb e n d i n gp o t e n t i a l ) ,( 3 ) 扭转能量( t o r s i o n a lp o m n t i a l ) 和( 4 ) 非键作用( n o n - b o n d e d i n a c t i o n s ) 这些组成部分可以用不同的函数形式及参数来近似。这些分子力学公式都是物理 经验公式,在蛋白质结构的预测中发挥着重要作用1 9 9 8 年,d u a aya n dp ak o l l m a n l 2 9 1 使用 a m b e r 模拟了一个3 6 个氨基酸长度的蛋白质在一微秒内的折叠过程,在一个2 5 6 个处理器的 并行计算机上花费了两个月的时间,最后仅得到跟天然结构相似的结构。这种分子力学方法p 0 】 直接近似了原子层次的物理作用,能提供蛋白质结构形成的动态机制。但由于其昂贵的计算代价, 目前只能局限于小蛋白质的结构预测 与此同时,大量粗粒度的物理经验公式0 1 3 q 被开发出来它们往往从上述全原子分子力学 公式中抽取某些组成部分,从而降低计算代价研究者发现蛋白质在真空状态下的能量加上溶剂 化自由能9 7 1 ( s o l v a t i o n f r e n e r g y ) 可以区分蛋白质的天然结构及非天然结构t 溶剂化自由能大 多由电介质连续体模型( d i e l c c t d cc o n t i n u u m ) 和泊松一波尔兹曼方程( p o i s s o n - b o l t m n a n n e q u a t i o n ) 这种隐含方式来计算,这样可以取代溶剂分子显式地出现在计算过程中尽管如此, 其计算量仍然巨大为了进一步简化计算,研究者提出普适波恩模型p | j ( g e n e r a l i z e db o r nm o d e l ) 来减少泊松波尔兹曼方程的计算时间 ( 2 ) 基于知识的评分函数 基于物理经验公式的评分函数能近似地描述蛋白质结构的真正能量函数,但是这种近似能量 函数的计算量太大基于知识的评分函数( 有时也称为统计评分函数) 根据已知蛋白质结构的统 计规律,能包含尚未被认识的物理作用,其预测蛋白质结构的性能不低于基于物理经验公式的评 分函数由表1 1 可以看出,目前在蛋白质结构预铡软件中,应用最多的仍然是基于知识的评分 函数。 5 第1 章 绪论 大多基于知识的评分函数都采用某种简化模型来表示蛋白质。如以c 。或者c b 来代表每个氨 基酸残基分析氨基酸残基之间的距离分布,构建依赖距离分布的评分函数是最常用的一种方式。 其创始者t a n a k a 和s c h e m g a 【,”根据在一定空间距离内的氨基酸之间接触频率,提出接触偏向 ( c o n t a c tp r e f e r e n c e s ) 能量模型其后,m i y a z a w a 和j 即g 鲫【舯1 1 2 j 提出一种接触能量( c o n t a c t p o t e n t i a l ) 模型,假设蛋白质结构是互相不连接的氨基酸残基在统计平衡状态下的贝特近似( b e t h e a p p r o x i m a t i o n ) s i 即l 【3 】i “】引入了一种依赖两两氨基酸残基距离分布的评分函数与此同时,也 有研究者提出了比氨基酸残基更进一层的原子层次1 4 5 - - 4 7 统计评分函数,并对这种两两氨基酸残 基分布的评分函数进行了优化h ”# o i 但是这种基于两两氨基酸残基关系的能量并不能识别出所 有的天然结构h h 9 】p ”而后,也有研究者提出多体作用的能量5 2 捌此外,有些研究者则是从 数据库中推出一些启发式的规则来模拟蛋白质内部的平均作用 5 4 。日。 研究者发现仅依靠距离这样的各向同性能量函数不能识别出所有的天然结构,因此提了一些 出各向异性的能量函数形式t 5 7 “在这些研究中,一般使用极坐标体系和欧拉角度来表示氨基 酸残基之间的三个平移自由度及三个旋转自由度。 尽管能量函数被分为基于经验物理公式的评分函数和基于知识的评分函数,但是有些能量函 数则是综合二者的优点。例如:很难用分子力学来确定扭转角度能量,就可采用基于知识的评分 函数,而l e n n a r d - j o n e s 能量公式可明确表示原子间范德华作用,就可采用经验物理公式 6 2 1 6 3 最后的能量函数既考虑扭转角度能量,又考虑原子间范德华作用,则是由两者按一定比例的加权 和构成目前也出现这样的趋势:因为基于知识的评分函数对微小的位移不敏感,有很好的鲁棒 性,因此被用来快速生成大量的候选结构;而经验物理能量函数则用于后期结构的细化和评估阶 段采用了这一策略的r o s e t t a “1 多次在c a s p 中被证明是最好的蛋白质三维结构预测方法之 一 1 3 本论文的结构及主要研究内容 由于p d b 中高分辨率结构数据的不断增加,基于知识的评分函数将获得更好的蛋白质天然 结构识别性能。本文从这一现状出发,设计评分函数,并对所设计的评分函数进行性能评估,最 后导出一个有效的评分函数本文的主要研究内容如下: 6 上海交通大学博士学位论文 ( 1 ) 从两两氨基酸残基空间距离的分布出发,基于在热力学平衡条件下,蛋白质分子在溶 液中微观状态的分布符合玻尔兹曼定理,导出一个依赖距离分布的评分函数。并探讨了计算距离 分布时的离散区间数目 ( 2 ) 在蛋白质结构中,主链二面角( ,伊) 的分布就可用拉氏构象图来描画因此本文构建 了一个基于二面角的评分函数,同时也探讨了( ,p ) 空间离散的区间数目。 ( 3 ) 对上述从距离和角度两个方面建立的评分函数进行了更进步的组合,发现所得的评 分函数性能比前二者有很大的提高通过正确识别蛋白质天然结构总数和zs c m e 这两个性能指 标,确定影响依赖距离分布的评分函数性能的序列间距的最优值 ( 4 ) 由于2 0 种氨基酸在蛋白质中出现的频率不一样,因此在有些区域数据分布存在着稀疏 性本文采用了一种校正策略,发现在序列间距越大时,正确识别的蛋白质天然结构总数改进得 也越多,同时z s o o r c 值也优化了很多 ( 5 ) 总结本文并给出未来的研究方向 本论文的结构如图l - 4 所示 i 第一章绪论l i 第二章基于两两氨基酸第三章基于二面角分布 l 距离分布的评分函数的评分函数 第四章组舍评分函数 i 第五章稀疏数据校正 i 第六章 总结 图i - 4 论文的整体结构 f i g i - 4f r a m e w o r ko f t h i st h e s i s 7 第2 章基于两两氨基酸距离分布的评分函数 第2 章基于两两氨基酸距离分布的评分函数 2 1 蛋白质 2 1 1 蛋白质的结构 蛋白质( p r o t e i n ) 是细胞组分中含量最丰富、功能最多的生物大分子,占人体干重的4 5 。 它们在整个生命活动中起着非常重要的作用,决定着生物物种的性状、新陈代谢类型等。决定各 种生命现象和生命活动的基因也都是通过蛋白质来表达 和实现的 蛋白质分子是由氨基酸组成的从各种生物体中发现 的氨基酸已有1 8 0 多种,但天然蛋白质主要由2 0 种标准 氨基酸组成旧。这2 0 种氨基酸具有共同的结构特点,下 面是它们的通式;每种氨基酸都至少含有一个氨基和一个 羧基,在蛋白质中,氨基都以 i1 o 耐腻钝而羧基以c 0 0 ,;曼j 2 鬈淼 十hj h g o 广c 形式存在,中间是m 碳原子, 。 ib h 即c 。它连接了四个部分:一个氨基,一个羧基,一个氢原子和一个 侧链r 基。每个氨基酸的前三者都相同,唯一的区别就是各个氨基酸的侧链r 基不同如图2 1 所示的丙氨酸结构图示中,c 。的下方是丙氨酸的侧链c h ” 表2 - 12 0 种氨基酸的名称,侧链及在蛋白质中的出现率嗍 t a b l e 2 - 1t h el l a m e ,s y m b o l , s i d ec h a i na n do c , c u l t e n c , eo f 2 0t y p e so f a m i n oa c i d s t 6 6 l n a m s y m b o l s i d ec h a i no c c u r r ( ) 丙氨酸 a l a n i n e a l a c h 广7 4 9 精氨酸 j 苫i n i i l er ,a r g州:c 州咐卅( c h o l l - 5 2 2 天冬酰胺a s p m g m c n a mh 荆叫:0 1 沪4 5 3 天冬氨酸脚a 埘c a c i d d ,a s ph o o c - c h 2 - 5 2 2 8 上海交通大学博士学位论文 续表2 - 1 n a m cs y m b o ls i d ec h a i no c c u r r d 3 c c ( ) 半胱氨酸c y s t e r n ec c y s h s c h ,-】8 2 谷氮酰胺g l u t a m i n eq ,g i nh 2 n - c o - ( c h 2 ) 2 - 4 1 l 谷氨酸 g l u t a m i ca c i de g l u h o o c - ( c h 2 ) 2 62 6 甘氨酸 g l y c i n eg g l y h -7 - 1 0 忙c h 州嗍却c 卜 组氨酸h i s t i d i n e i l h i s2 2 3 ii 异亮氟酸i s o | v u c i n ei l e c h r _ g h 2 c h ( c h i ) 一5 4 5 亮氨酸l e u c m cl l e u( c h | ) 广c h _ c h 广9 0 6 赖氮酸l y s m e砭l y s h 舻( c h 0 r5 8 2 甲硫氨酸m e t h i o n i n e 札m e t c 肾s - ( c i u2 -2 2 7 苯丙氨酸p h e n y l a l a n i n e f ,p h ep h e n y i - c k - 3 ,9 1 * - ( c h 0 广c h 脯氨酸p r o l i n ee p r o5 1 2 ii 丝氨酸 s e r i n e s ,s e t啪h 卅。 7 3 4 苏氨酸t h r e o n i n et t h r 0 t h - o t ( 0 t o 一5 9 6 p h e n y i - n h - o d = - 色氨酸t t y p t o p h a nw r r p 1 3 2 li 酪氨酸 3 “y r o s i n ey t y r4 删忡h e n y 卜c h f - 3 2 5 缬氨酸 v a l i n e 、v a l c h h ( c 呦一6 4 8 根据r 基的不同极性性质,可将2 0 种标准氨基酸分成四组;非极性r 基氨基酸;不带 电荷的极性r 基氨基酸;带正电荷的r 基氨基酸;带负电荷的r 基氨基酸 非极性r 基氨基酸有8 种,分别为丙氨酸( a l a ) 、缬氨酸( v a d 、亮氨酸( l e u ) 、异亮 氨酸( i l c ) 、苯丙氨酸( p h e ) 、色氨酸( t r p ) 、甲硫氨酸( m e t ) 和脯氨酸( p r o ) 不带电荷的极性r 基氨基酸有7 种,分别为丝氨酸( s e t ) 、苏氨酸( t h r ) 、酪氨酸( 1 弦) 、 天冬酰胺( a ) 、谷氨酰胺( g t n ) 、半胱氨酸( c y s ) 和甘氨酸( o t y ) 带正电荷的r 基氨基酸有3 种,分别为赖氨酸( l y s ) 、精氨酸( a r g ) 和组氨酸( h i d 带负电荷的r 基氨基酸有2 种,分别为天冬氨酸( a s p ) 和谷氨酸( g l u ) 蛋白质分子是氨基酸以肽键( p e p t i d eb o n d ) 连接而形成因为氨基酸同时含有氨基和羧基, 所以它们能以首尾相连的方式进行聚合反应,除去一个水分子形成肽键如图2 - 2 所示: 9 第2 章基于两两氨基酸距离分布的评分函数 h 3 n l f + h 3 n r 。0 一一“爪一 p e p u d eb o n n - t e r m l n u s d r 2 i沪 o + h 2 0 j 、0 一 个 c - t e r m i n u s 图2 - 2 肽键的构成 f i g 2 - 2 t h ef o r m a t i o no f p e p t i d eb o n d 多个氨基酸通过肽键相互连接成多肽链,每条多肽链都有一个游离的氨基末端( n - 端) 和 一个游离的羧基末端( c 一端) ,多肽链盘曲折叠构成了蛋白质分子的结构蛋白质的结构分为四 个层次: 如图2 - 3 ,这四个层次分 别为:一级结构( p r i m a r y s t r u c t u r e ) ,即蛋白质多肽链中 氨基酸的有序排列;二级结构 ( s e c o n d a r ys t r u c t u r e ) ,即蛋 白质中多肽主链局部有规则 的构象,主要有d - 螺旋,b 一 折叠,b 转角和无规则卷曲四 种;三级结构( t e r t i a r y s t r u c t u r e ) ,即多肽链借助各种 非共价键弯曲,折叠成具有特 l 剑巨麴塑国 图2 - 3 蛋白质的结构层次 f i g 2 - 3p r o t e i ns t r u c t u r eh i e r a r c h i c a ll e v e l s 定走向的紧密球状构象;四级结构( q u a t e r n a r ys t r u c t u r e ) ,有的蛋白质由一条以上的肽链形成, 四级结构即指这些多个肽链之间的相互结合和组织方式。 2 1 2 稳定蛋白质三级结构的作用力 蛋白质发挥作用要依靠它的三级结构,而稳定三级结构的作用力主要是一些所谓弱的相互作 用。这种弱作用力也称为非共价键( n o n c o v a l c n t i n t e r a c t i o n s ) 或次级键,包括氢键( h y d r o g e n b o n d ) , l o 书声挪一 上海交通大学博士学位论文 范德华力( v a nd e rw a a l sf o r c e ) 、疏水作用( h y d r o p h o b i ci n t e r a c t i o n ) 和离子键( e l e c t r o s t a t i cb o n d ) 。 ( 1 ) 氢键 氢键在稳定蛋白质的结构中起着极其重要的作用,多肽主链上的羧基氧( c = o ) 和酰胺氢 0 l h ) 之间很容易形成氢键。例如,在d - 螺旋中。每个残基的( 2 - - 0 基和n h 基都参与形成 氢键。氢键还可以在侧链和侧链、侧链和介质水、主链肽基与侧链、主链肤基与介质水之间形成。 大多数蛋白质折叠采取的策略是:使主链肽基之间形成最大数目的分子内氢键( 如口螺旋,1 3 折叠) ,与此同时,保持大多数能形成氢键的侧链处于蛋白质分子的表面,并与水相互作用。 ( 2 ) 范德华力 范德华力包括 【力和斥力两种作用。引力主要是由相邻的非键合原子之间电子电荷密度的波 动导致的瞬时偶极作用当非键合原予之间距离太近时,由于电子云重叠,形成范德华斥力虽 然范德华力很弱,但是其相互作用数量大,因此就形成了不可忽视的作用力 ( 3 ) 疏水作用 水介质中球状蛋白质的折叠总是倾向于把疏水残基埋藏在分子的内部,这一现象被称为疏水 作用因为水是极性介质,非极性的氨基酸侧链出自避开水的需要而被迫接近蛋白质溶液系统 的熵增加是疏水作用的驱动力 ( 4 ) 离子键 离子键是正电荷和负电荷之间的一种静电相互作用有的氨基酸侧链带正电( 如赖氨酸、精 氨酸、组氨酸) ,有的带负电( 如天冬氨酸、谷氨酸) 此外,蛋白质的n 端和d 端也处于离子 状态,这些都会形成静电作用。带电的残基通常位于蛋白质的表面,便于和介质水更好地相互作 用 2 2 评分函数 a n f i n s e n ( 1 9 7 3 年) 提出蛋白质的热力学假说:天然蛋白质的结构处于自由能全局最小状 态。因此,需要用一个能量函数来寻找能量最低的蛋白质构象能量函数也称为评分函数,评分 函数的构建可以是依据经验的物理公式,也可以是依据关于己知蛋白质结构的知识( 即基于知识 的评分函数) 。通过分析蛋白
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年文山州麻栗坡县教育体育系统事业单位第二次紧缺岗位招聘(3人)备考练习题库及答案解析
- 2025年西安工投园区建设运营有限公司社会招聘(5人)备考练习试题及答案解析
- 2025浙大宁波理工学院招聘高层次人才102人备考练习题库及答案解析
- 2025国家统计局横州调查队招聘编制外工作人员1人(广西南宁)备考练习试题及答案解析
- 2025年肾病学肾功能评估及治疗模拟试题答案及解析
- 2025年胸外科胸腔引流管护理考试卷答案及解析
- 图书销售居间合同范本
- 定制床垫合同范本
- 2025年恩施市城区学校教师选聘83人备考练习试题及答案解析
- 2025年济南高新区教育系统所属事业单位公开招聘会计(6名)备考练习试题及答案解析
- 2025新疆天泽和达水务科技有限公司部分岗位社会招聘28人笔试备考试题及答案解析
- 《生成式人工智能基础与应用》高职AIGC应用基础课程全套教学课件
- 2《中国人首次进入自己的空间站》课件【知识精研】统编版语文八年级上册
- 方太- IPD流程基础知识培训
- 乡镇应急信息报送制度
- 农业机械化发展历程课件
- 新生儿内科专业质控中心督查内容与要求评分表
- 实验动物遗传学及质量控制课件
- 新能源概论全解课件
- 《中国的行政区划》- 完整版课件
- 《中国公民科学素质基准》题库500题(精品)
评论
0/150
提交评论