




已阅读5页,还剩124页未读, 继续免费阅读
(工程力学专业论文)蛋白质结构预测中几个关键问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学博士学位论文 摘要 上世纪8 0 年代以来,d n a 测序方法的发展累积了海量的大分子序列数据信息,提 供给人们丰富的资源来研究蛋白质的生物功能。蛋白质的生物功能很大程度上取决于蛋 白质的三维结构性质。虽然随着实验手段的发展,越来越多的蛋白质结构通过实验手段 被测定了出来,但是还是远远落后于新的蛋白质序列的增长速度。如何缩小蛋白质序列 以及结构之间的鸿沟已经成为分子生物学的一个中心课题。随着计算技术的发展,计算 生物学或者称为生物信息学作为一门新的学科为这个问题提供了一种解决的途径。其主 要依据来自于这样的假设,即蛋白质折叠所需要信息完全包含在蛋白质的一级序列之 中。基于这一假设,同源模建、折叠识别以及从头预测等一系列基于序列的结构预测方 法得到了广泛的发展,并取得了相当的成果。在此基础上,本文对蛋白质结构预测中一 些关键问题,如蛋白质序列分析、蛋白质折叠识别势函数以及对处于序列相似性“朦胧 区域”的蛋白质的结构预测等,进行了深入的研究。 利用小波包在提取信号局部特征的优势,发展了一种基于小波包变换的多序列比对 方法。小波包能够准确定位多个序列之间的相似区域,即保守域,增强了多序列比对精 度且缩短了比对时间。在b a i i b a s e 以及r o s e 测试平台的帮助下,验证了本文所提出 的多序列比对方法具有良好的精度以及速度,是一种有效的多序列比对工具。 发展了一个简化蛋白质折叠识别函数,势函数包括三个简单的能量项:残基接触相 互作用能、疏水能以及主链虚拟二面角扭转能,仅需要2 1 2 个参数,具有计算简单的特 点。利用一个蛋白质训练集,对势函数的参数系通过线性规划的方法求解。势函数的蛋 白质自然构象识别能力在几个高质量的测试集上进行了验证,结果显示我们的势函数具 有非常高的自然构象识别能力,与其他简化势函数比较其精度位于前列,具有良好的应 用前景。 提出了基于参数评价函数的蛋白质折叠识别势函数优化模型。参数评价函数把复杂 的多目标多约束优化问题转化为单目标无约束问题,然后用共轭梯度法进行求解,不但 降低了求解难度,而且使得在优化过程中其解远离可行域的边界,保证了对多目标中所 有目标同时进行优化。在几个标准测试集上的测试结果表明,与基于线性规划的势函数 相比,结果显示新的优化模型以及方法提升了势函数的质量。 发展了一个基于遗传算法的t h r e a d i n g 程序。其能量函数更加具有物理性,包含了 六个能量项,成对接触相互作用使得目标序列与模板蛋白的匹配问题变成了一个n p 完 全问题。遗传算法是一个全局启发式算法,具有良好的搜索能力,在f i s c h e r 测试平台 蛋白质结构预测中几个关键问题的研究 上的测试也证明了本文所提出方法具有良好的折叠识别能力以及比对精度。另外,比对 精度与折叠识别结果之间的关系也显示出了能量函数的合理性。 本文的工作得到国家自然科学基金“药物分子优化设计的网格计算方法研究 n o 1 0 7 7 2 0 4 2 ”、国家重点基础研究发展规划项目“基于基因功能的创新药物研究 n o 2 0 0 4 c b 5 1 8 9 0 1 ”和国家8 6 3 科技计划课题“新药研发网格n o 2 0 0 6 a a 0 1 a 1 2 4 ”的资 助。 关键词:蛋白质;多序列比对;势函数;折叠识别;蛋白质结构预测;t h r e a d i n g 大连理工大学博士学位论文 s e v e r a lk e yp r o b l e m si np r o t e i ns t r u c t u r ep r e d i c t i o n a b s t r a c t t h ee x p o n e n t i a lg r o w t ho f m o l e c u l a rs e q u e n c ed a t as t a r t e di nt h e19 8 0 sw h e nm e t h o d sf o r d n a s e q u e n c i n gb e c a m ew i d e l ya v a il a b l e ,w hi c hp r o v i d e sa b u n d a n tr e s o u r c e sf o rr e s e a r c h e r s t os t u d yt h eb i o l o g i c a lr o l e so fp r o t e i n s t oag r e a te x t e n t ,t h eb i o l o g i c a lr o l eo fa p r o t e i ni s d e t e r m i n e db yi t st h r e ed i m e n s i o n a l ( 3 d ) s t r u c t u r e w i t ht h ed e v e l o p m e n to fe x p e r i m e n t a l t e c h n i q u e st oo b t a i nn a t i v e3 dp r o t e i nc o n f o r m a t i o n s ,m o r ea n dm o r ep r o t e i ns t r u c t u r e sh a v e b e e nd e t e r m i n e d ,b u tt h eg r o w t hs p e e do fp r o t e i ns t r u c t u r e si sf a rb e h i n dt h a to fp r o t e i n s e q u e n c e s t h e r e f o r e ,h o wt on a r r o wt h eh u g eg a pb e t w e e nt h en u m b e ro fp r o t e i ns e q u e n c ea n d s t r u c t u r eh a sb e c o m eac r i t i c a lt a s ki nm o l e c u l a rb i o l o g y w i t ht h e d e v e l o p m e n to f c o m p u t a t i o n a lt e c h n i q u e s ,c o m p u t a t i o n a lb i o l o g y ,o rc a l l e db i o i n f o r m a t i c s ,a san e ws u b j e c t , h a sp r o v i d e da na p p r o a c hf o rs o l v i n gt h i sp r o b l e m ,t h et h e o r i c a lf o u n d a t i o no fw h i c hi st h a ta ll t h ei n f o r m a t i o nr e q u i r e df o rd e t e r m i n i n gat e r t i a r y p r o t e i ns t r u c t u r ei sc o n t a i n e di nt h e c o r r e s p o n d i n gs e q u e n c e b a s e do nt h i st h e o r y ,p r o t e i ns t r u c t u r ep r e d i c t i o nm e t h o d ss u c ha s h o m o l o g ym o d e l i n g ,f o l dr e c o g n i t i o na n da bi n i t i om o d e l i n gw e r eb r o u g h tf o r w a r da n da p p l i e d w i d e l yi nt h ep a s td e c a d e s t h i s p a p e rf i r s t l yi n t r o d u c e ss o m eb a s i ct h e o r i e sa n dr e l a t e dk n o w l e d g eo fp r o t e i n s t r u c t u r e ,a n d d e s c r i b e st h er e a l i s t i c b a c k g r o u n da n ds i g n i f i c a n c eo fp r o t e i n s t r u c t u r e p r e d i c t i o n ,t h e nb r i e f l yi n t r o d u c e sa n dd i s c u s s e st h ep r e s e n tt h r e em a j o rt y p e so fp r o t e i n s t r u c t u r ep r e d i c t i o nm e t h o d s :h o m o l o g ym o d e l i n g ,f o l dr e c o g n i t i o na n da bi n i t i om o d e l i n g o nt h i sb a s i s ,s e v e r a lk e yp r o b l e m sa r ef u r t h e rs t u d i e di nt h i sp a p e r ,s u c ha sp r o t e i ns e q u e n c e a n a l y s i s ,p r o t e i nf o l dr e c o g n i t i o np o t e n t i a lf u n c t i o na n dp r o t e i ns t r u c t u r ep r e d i c t i o ni nt h e t w i l i g h tz o n e ”o fs e q u e n c es i m i l a r i t y c o n s i d e r i n gt h ea d v a n t a g eo fw a v e l e tp a c k a g ei ne x t r a c t i n gl o c a lc h a r a c t e r e so fs i g n a l , w ep r o p o s e dam u l t i p l es e q u e n c ea l i g n m e n tm e t h o db a s e do nw a v e l e tp a c k a g et r a n s f o r m w a v e l e tp a c k a g ec a na c c u r a t e l yl o c a t et h es i m i l a rr e g i o n s ,i e c o n s e v e rr e g i o n s ,a m o n g s e v e r a ls e q u e n c e s ,w h i c hi m p r o v e st h ea c c u r a c ya n dd e c r e a s et h et i m ec o n s u m i n go f m u l t i p l e s e q u e n c ea l i g n m e n t w i t hb e n c h m a r k “b a i i b a s e a n d “r o s e ”,t h i sm e t h o di sv e r i f i e d t h e r e s u l t sd e m o n s t r a t ei th a sf a v o r a b l ee f f i c a c ya n di sa ne f f i c i e n tm u l t i p l es e q u e n c ea l i g m e n t t 0 0 1 as i m p l i f i e dp r o t e i nf o l dr e c o g n i t i o np o t e n t i a li sp r o p o s e d t h ep o t e n t i a lc o n s i s t e so f t h r e e s i m p l ec o m p o n e n t s :r e s i d u ec o n t a c ti n t e r a c t i o ne n e r g y ,h y d r o p h o b i ce n e r g ya n d b a c k b o n ep s e u d o d i h e d r a lt o r s i o ne n e r g y ,a n do n l y212p a r a m e t e r sa r en e e d e dt oc o n s t r u c tt h e i i i 蛋白质结构预测中几个关键问题的研究 p o t e n t i a l w i t hap r o t e i nt r a i n i n gs e t ,t h ep a r a m e t e rs e to ft h i sp o t e n t i a li sd e t e r m i n e db y l i n e a rp r o g r a m m i n gm e t h o d t h ep r o t e i nn a t i v es t r u c t u r er e c o g n i t i o na b i l i t yo ft h i sp o t e n t i a l i st e s t e do ns e v e r a lh i g hq u a l i t yt e s ts e t s ,a n dt h er e s u l t sd e m o n s t r a t ei tc a ns e p a r a t et h en a t i v e s t r u c t u r e so fm o s tp r o t e i n si nt h et e s ts e t s c o m p a r i n gw i t ho t h e rs i m p l i f i e dp o t e n t i a l s ,i t s e f f i c a c yi so n eo f t h eb e s t ,a n dh a saw i d ea p p l i c a t i o np r o s p e c t ap r o t e i nf o l dr e c o g n i t i o no p t i m i z a t i o nm e t h o db a s e do np a r a m e t r i ce v a l u a t i o nf u n c t i o n i sp r e s e n t e di nt h i sp a p e r p a r a m e t r i ce v a l u a t i o nf u n c t i o nc a nc o n d e n s et h ec o m p li c a t e d m u l t i - o b j e c t i v ea n dm u l t i c o n s t r a i tp r o b l e mi n t oas i n g l e - o b j e c t i v eu n c o n s t r a i n e dp r o b l e m , t h e ns o l v e dw i t hc o n j u g a t eg r a d i e n tm e t h o d t h ep a r a m e t r i ce v a l u a t i o nf u n c t i o nm e t h o d d e c r e a s e st h eo p t i m i z a t i o nd i f f i c u l t y ,a n dm a k e st h es o l u t i o na w a yf r o mt h eb o u n d a r yo f f e a s i b l er e g i o nd u r i n gt h eo p t i m i z a t i o np r o c e s s ,w h i c hm a k g sa l lt h eo b j e c t i v e so p t i m i z e d s i m u l t a n e o u s l y t e s t so ns e v e r a ls t a n d a r dt e s ts e t ss h o w e st h eq u a l i t yo fp o t e n t i a ld e t e r m i n e d w i t hp a r a m e t r i ce v a l u a t i o no p t i m i z a t i o nm e t h o di si m p r o v e dw h e nc o m p a r e dw i t hp o t e n t i a l d e t e r m i n e dw i t hl i n e a rp r o g r a m m i n gm e t h o d w eh a sd e v e l o p e da n dd e s i g n e dag e n e t i ct h r e a d i n gp r o g r a m ,w h i c hi sp r e s e n t e da tt h e e n do ft h i sp a p e r i t se n e r g yf u n c t i o ni sm o r ep h y s i c s - b a s e d ,a n dc o n s i s t so fs i xe n e r g y c o m p o n e n t s t h ei n c l u d i n go fp a i r w i s ec o n t a c ti n t e r a c t i o nm a k e st h em a t c hb e t w e e nt a r g e t s e q u e n c ea n dt e m p l a t es t r u c t u r ean p - c o m p l e t ep r o b l e m g e n e t i ca l g o r i t h mi sag l o b a l h e u r i s t i cm e t h o d ,a n dh a sg o o ds e a r c ha b i l i t y t e s t s0 1 1t h ef i s c h e rb e n c h m a r ks h o wt h e p r o p o s e dg e n e t i ct h r e a d i n gm e t h o dh a sf a v o r a b l ef o l dr e c o g n i t i o na b i l i t ya n da l i g n m e n t a c c u r a c y i na d d i t i o n ,t h ec o r r e l a t i o nb e t w e e na l i g n m e n ta c c u r a c ya n df o l dr e c o g n i t i o nr e s u l t d e m o n s t r a t e st h er a t i o n a l i t yo ft h ea d o p t e de n e r g yf u n c t i o n w eg r a t e f u l l ya c k n o w l e d g ef i n a n c i a ls u p p o r tf o rt h i sw o r kf r o mt h en a t i o n a ln a t u r a l s c i e n c ef o u n d a t i o n ( g r a n t s10 7 7 2 0 4 2 ) ,t h en a t i o n a lb a s i cr e s e a r c hp r o g r a mo fc h i n a ( g r a n t s 2 0 0 4 c b 5 1 8 9 0 1 ) a n dh i g hs c i e n c ea n dt e c h n o l o g y ( g r a n t s2 0 0 6 a a 0 1 a 1 2 4 ) o f c h i n a k e yw o r d s :p r o t e i n ;s e q u e n c ea l i g n m e n t ;p o t e n t i a lf u n c t i o n ;f o l d r e c o g n i t i o n ;p r o t e i ns t r u c t u r ep r e d i c t i o n ;t h r e a d i n g i v 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:益鱼匦丝塑墼丝) 士! 竺睦焦! 望兰丝塑型: 作者签名:堆牛一魄耳年上月丛日 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学博士学位论文 1绪论 1 1 引言 上世纪8 0 年代以来,由于d n a 自动测序方法的发展使蛋白质大分子序列数据有了 指数级别的增长。这些数据被源源不断地录入到些大型生物信息数据库诸如 g e n b a n k ,e m b l ( e u r o p e a nm o l e c u l a rb i o l o g yl a b o r a t o r y ) ,d d b j ( d n ad a t ab a n ko f j a p a n ) ,p i r ( p r o t e i ni n f o r m a t i o nr e s o u r c e s ) 以及s w i s s p r o t 等,详细信息如表1 1 所 示。随着基因组测序计划的持续开展,研究重点逐渐从数据的积累转向数据的分析。在 这种情况下,一门新的学科生物信息学便应时而生。生物信息学研究生物信息的采 集、处理、存储、传播、分析和解释等各方面的一门学科,它通过综合利用生物学、计 算机科学和信息技术来揭示大量而复杂的生物数据所包含的生物学奥秘【卜3 1 。目前,d n a 序列编码区识别、序列分类、相似性搜索、分子结构与功能预测等方面的计算工具已经 成为研究工作的重要组成部分。这些工具有助于我们了解生命的本质和进化过程,同时 对新药和新疗法的发现具有重要意义【4 】。 蛋白质是一切生命的物质基础,机体中的每一个细胞和所有重要组成部分都有蛋白 质的参与,它是与生命及与各种形式的生命活动紧密联系在一起的物质。蛋白质的生物 活性不仅取决于蛋白质分子的一级结构,而且作为在生命活动中起重要作用的生物大分 子,其在生物体内的各种功能都由其空间结构决定。异常的蛋白质空间结构很可能导致 其生物活性的降低、丧失,甚至会导致疾病。对于蛋白质空间结构的研究不仅有利于认 识蛋白质的功能,也有利于认识蛋白质的生物功能以及蛋白质与蛋白质之间的相互作 用。所以,确定蛋白质的结构无论对于生物学还是对于医学以及药学都具有重大意义。 基因组测序计划产生了大量的蛋白质大分子氨基酸序列,给我们提供了丰富的蛋白 质一级结构资源。迄今为止,已经有超过6 , 0 0 0 ,0 0 0 条蛋白质序列被储存蛋白质序列数 据库当中,且其增长速度日益加快,如图1 1 所示。蛋白质的三级结构主要依靠实验手 段如x 射线晶体学方法或者核磁共振方法测定,目前存储在蛋白质结构数据库p d b 中 的数目超过了5 0 ,0 0 0 个,且其速度还呈现逐年增加的趋势,如图1 2 所示,但蛋白质三 级结构数量增长的速度还远不能与其序列数量的增长速度相比,这主要因为基因组大规 模测序比蛋白质三维结构的测定容易得多。x 射线晶体学方法是至今为止确定蛋白质结 构最有效的方法,但它的缺点是蛋白质的晶体难以培养,晶体结构测定的周期较长。近 年来发展的多维核磁共振方法可以直接测定蛋白质在溶液中的构象,但由于对样品的需 蛋白质结构预测中几个关键问题的研究 n u m b e ro t - n 七r i ,i r lu n i p r 口t k b ,t r h b l 文 i i ? 。7 , ,。 r p 一 ,- 广 r 一 1 拿9 61 9 9 71 9 9 81 9 9 92 b e b叠日l己日0 22 日0 3已0 日4己日f 1 52 8 日6己臼b 7已0 0 92 口口9 图1 1蛋白质序列数据库u n i p r o 1 r e m b l 中收录序列的增长趋势图 f i g1 1 t h eg r o w t ho f t h ep r o t e i ns e q u e n c ed a t a b a s eu n i p r o k b 1 1 r e m b l 2 0 0 8 2 7 2 0 0 6 2 0 0 5 2 4 2 0 0 3 - 2 0 0 2 2 0 0 1 2 0 0 0 1 嘲 1 9 9 8 1 0 0 2 3 0 0 0 04 0 0 0 05 0 0 0 0 n u m b e r 图1 2 蛋白质结构数据库( p d b ) 中收录结构的年度增长图 f i g1 2y e a r l yg r o w t ho f t o t a ls t r u c t u r e si nt h ep r o t e i nd a t ab a n k ( p d b ) 要量大、纯度要求高,被测定的蛋白质分子量一般不能超过2 万。通过实验方法确定蛋 白质结构在目前仍显得非常复杂,且代价高昂。因此,实验测定的蛋白质结构比已知的 蛋白质序列要少的多。而且随着基因自动测序方法的发展,蛋白质序列与结构的数量差 洲 洲 聃 洲 洲 洲 酬 洲 甜 州 觚 5 5 3 3 2 2 l l 口驰 大连理工大学博士学位论文 距将会越来越大。发展一种不需要复杂实验手段,简单、易行的蛋白质结构确定方法就 显得十分迫切。基于氨基酸序列的蛋白质结构预测方法就是应这种需要发展起来的。 表1 1 主要的生物信息学数据库 t a b 1 1 p r i m a r yb i o i n f o r m a t i c sd a t a b a s e s 基于氨基酸序列预测蛋白质自然结构仍然是分子生物学中最重要且尚未解决的问 题。其主要理论依据是蛋白质的自然构象被假定处于自由能的极小位置,大量的蛋白质 从变性状态重新折叠的实验都给予这个假设以事实的支持【5 6 】,图1 3 为蛋白质的复性实 验示意图。如果改变蛋白质的外界环境条件,比如温度、压力或者溶剂条件,那么蛋白 质就会失去折叠,并且失去活性;但是一旦环境条件恢复到正常生理状态,蛋白质又会 自发的折叠成其天然结构,并且恢复活性。因此,蛋白质的折叠过程很明显是一个热动 力学过程,而且形成蛋白质天然三维结构所需要的全部信息都包含在相应的蛋白质序列 当中。 1 2 蛋白质二级结构预测 蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,是根据预测的局部结 构,对蛋白序列中的氨基酸的二级结构类型进行分类。一些现在主要的蛋白质二级结构 预测服务器如表1 2 所示。 蛋白质结构预测中几个关键问题的研究 一, u 翰e 胪l l 2 啉m e u 凇 + t r a c e 2 m e r a n d o m l yf o r m e dd i s u l f i d eb o n d s 堂j r e v e r s i b l yd e n a t u r e dr i b o n u d e a s ea ; d i s u l f i d eb o n 如h a v eb e e nr e d u c e d 图1 3a n f m s e n 的蛋白质复性试验示意图 f i g 1 3t h es c h e m a t i cd i a g r a mo f t h ea n f i n s e ne x p e r i m e n to np r o t e i nr e n a t u r a t i o n 蛋白质二级结构的预测开始于2 0 世纪6 0 年代中则。7 1 。二级结构预测的方法大体分 为三代,第一代是基于单个氨基酸残基统计分析【_ 7 1 ,从有限的数据集中提取各种残基形 成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸 片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基, 而是氨基酸片段,片段的长度通常为1l 2 1 个氨基酸残基。片段体现了中心残基所处的 环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为 预测依据。这些算法可以归为几类:( 1 ) 基于统计信息;( 2 ) 基于物理化学性质;( 3 ) 基于序列模式:( 4 ) 基于多层神经网络;( 5 ) 基于图论;( 5 ) 基于多元统计: ( 6 ) 基于机器学习的专家规则;( 7 ) 最邻近算法。第一代和第二代预测方法有共同的缺陷, 它们对二级结构三态( c 螺旋,1 3 折叠,l o o p 区域) 预测的准确率都小于7 0 ,而对d 折叠预测的准确率仅为2 8 - - - 4 8 ,其主要原因是这些方法在进行二级结构预测时只利用 局部信息,最多只用局部的2 0 个残基的信息进行预测。二级结构预测的实验结果和晶 体结构统计分析都表明,二级结构的形成并非完全由局部的序列片段决定,长程相互作 用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是b 折叠。从理 大连理工大学博士学位论文 论上来说,局部信息仅包含二级结构信息的6 5 左右,因此,可以想象只用局部信息的 二级结构预测方法,其准确率不会有太大的提高。 表1 2 主要的二级结构预测服务器 t a b 1 2 p r i m a r ys e c o n d a r ys t r u c t u r ep r e d i c t i o ns e r v e r s s e r v e rn a m ew e ba d d r e s s p s i p r e d 8 1 j p r e d 9 1 p r e d a t o r t l o 】 n n p r e d i c t 1 i 】 b m e r ep s as e r v e i l l 2 1 p h d s e c 1 3 a p s s p a p s s p 2 1 4 p r o f s c r a t h s a m t 9 9 二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息, 使二级结构预测的准确程度有了比较大的提高,特别是对d 折叠的预测准确率有较大的 提高,预测结果与实验观察趋于一致。一般7 5 的氨基酸残基可以被置换而不改变蛋白 质的结构,然而有时改变几个关键的残基则可能导致蛋白质整体结构的破坏。这好像是 两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨 基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改 变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而 也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一 个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可 以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序 列的比对也可以得到长程信息。 目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目 标序列( 待预测其二级结构的序列) 中每个氨基酸的保守程度。对于二级结构三态预测 准确率率先达到7 0 的方法是基于统计的神经网络方法p h d s e c 1 3 】。p h d s e c 利用通过多 序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有 耐一 蛋白质结构预测中几个关键问题的研究 的氨基酸组成( 2 0 种氨基酸中每个所占的比例) 作为蛋白质序列的全局信息。这类算法 预测的准确率能达到7 0 至7 5 。各种方法预测的准确率随蛋白质类型的不同而变化。 例如,一种预测方法在某些情况下预测的准确率能够达到9 0 ,而在最差的情况下仅达 到5 0 ,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。虽然二级 结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白 质的真实结构尚未解析出时更是如此。通过对多种方法预测结果的综合分析,再结合实 验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第 一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结 构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位 点等。 1 3 蛋白质三级结构预测 在1 9 9 4 年的第一届c a s p ( c r i t i c a la s s e s s m e n to ft e c h n i q u e sf o rp r o t e i ns t r u c t u r e p r e d i c t i o n ) 会议中,根据可以获得的模板的信息,蛋白质的结构预测方法被大概分为三 大类:1 ) 蛋白质同源模建方法( c o m p a r a t i v em o d e l i n g ) ,2 ) 蛋白质折叠识别方法( p r o t e i n f o l dr e c o g n i t i o n ) ,3 ) 从头预测方法( a bi n i t i om o d e l i n g ) 。 1 3 1 同源模建 同源蛋白质结构预测也称为比较模建法,是目前最为成功和实用的蛋白质结构预测 方法【l5 1 。同源模建的理论基础是同源蛋白三级结构与功能的保守性超过蛋白质序列。当 蛋白质序列的一致性大于3 0 的情况下,它们的三级结构具有高度的相似性,这样一个 未知的蛋白结构便可以利用一个或者多个已知蛋白结构来建立。蛋白质序列的一致性越 高,模建出的三维结构的准确性也就越高。g r e e r 是这种预测方法的先驱,他建立了同 源模建的基本步骤【l 刚。 具有相似结构的蛋白通常具有高度的序列相似性。同源模建的质量依赖于在蛋白质 结构数据库里面是否存在与目标蛋白具有高度序列相似性的蛋白。 同源模建通常有四个步骤:1 ) 从蛋白质结构数据库当中寻找一个或者多个合适的 结构模板;2 ) 比对目标序列与模板结构;3 ) 从比对结果模建主链,包括环区以及任何 与模板结构有较大差别的区域;4 ) 组装侧链。前两个步骤是紧密相关的,利用序列比 对结果的相似性程度高低来选择合适的模板结构。第二步中得到的与模板结构的序列比 对结果被用来模建结构模型。所以,同源蛋白尤其是针对远距离同源性蛋白的比对精度, 很大程度上不仅决定了是否能够获得一个合适的结构模板,还决定了构建模型的精度。 大连理工大学博士学位论文 目标蛋白与模板蛋白的序列相似性对于同源模建的比对精度有很大的影响。如果两 个蛋白的序列相似性有5 0 以及以上的相似性,那么两个结构之间的r m s d ( r o o tm e a n s t a n d a r dd e v i a t i o n ) 不会超过l a 。而在所谓的“艨胧区”,蛋白的序列相似性处于2 0 3 0 之间,那么结构的r m s d 将不会好于2 a 。部分结构相似蛋白的序列相似性仅 有8 1 0 ,但是通过同源模建预测出结构的r m s d 将达到3 6 a 。这些错误很大部分 是源自于不正确的序列比对结果。 表1 3 主要的同源模建服务器 t a b 1 3 p r i m a r yc o m p a r a t i v em o d e l i n gs e r v e r s w e ba d d r e s s s w i s s m o d e l 1 7 】 e s y p r e d3 d t l s 】 p r e d i c tp r o t e i n 1 9 】 3 d j i g s a w 2 0 1 c p h m o d e l s l 2 l 】 m o d e i i ,e r 对于进化上远距离的蛋白,即使序列具有很低的相似性,它们依然可能具有相似的 结构。结构比对结果显示,在序列相似性低于1 0 的情况下,依然能够成功识别出同源 蛋白。当序列比对的结果不足以识别出目标蛋白质的正确折叠时,折叠识别方法依然能 够用来发现目标蛋白的正确折叠类型。 1 3 2 折叠识别 迄今为止,已经有超过6 , 0 0 0 ,0 0 0 条蛋白质序列被储存蛋白质序列数据库当中,然 而蛋白质的折叠类型据预测不超过1 0 , 0 0 0 种。现在,蛋白质结构数据库中的蛋白拓扑数 量大约为1 ,0 0 0 ,许多最近被贮存的蛋白质结构与已知的结构显示出了惊人的相似性, 而且近些年来发现的新折叠类型呈逐年下降的趋势,如图1 4 所示。一些属于同一结构 家族的蛋白的序列相似性仅为3 。在球蛋白家族里,有些主链的拓扑高度相似的蛋白, 它们的序列相似性仅为1 2 。所以,蛋白质的序列有着很高的变化空间,甚至它们的功 能都发生了变化,却仍然保持着相似的结构拓扑。 蛋白质结构预测中几个关键问题的研究 2 8 2 0 0 7 2 0 0 6 2 0 0 5 2 0 0 4 ;邑2 0 0 3 - 2 0 0 2 2 0 0 1 2 0 1 9 1 9 9 8 0 2 0 0 4 0 06 0 08 0 0i ( x x )1 2 0 0 n u m b e r 图1 4 折叠类型的年度增长图 f i g1 4y e a r l yg r o w t ho ff o l dt y p e si nt h ep r o e t i nd a t ab a n k ( p d b ) 折叠识别也称为逆向折叠问题( i n v e r s ef o l d i n gp r o b l e m ) ,就是通过搜索一个代表 性的结构数据库来获得目标蛋白的结构相似体,即在缺乏显著同源性的情况下用以连系 氨基酸序列与三维结构。折叠识别方法的发展对结构生物学有着重大的影响,它提供给 我们利用与目标蛋白具有较远进化距离的模板来精确模建蛋白质结构的能力。这种方法 是基于蛋白只采取有限数目的折叠类型的理论。在上世纪9 0 年代中期,o r e g o n 等发现 当时已知结构中的3 0 的蛋白质只采用了9 个不同的折叠类型1 2 2 1 。c h o t h i a 假定独特的 蛋白折叠类型的数目仅为大约1 5 0 0 1 2 3 l 。j o n e s 等经过统计分析认为折叠模式应该在 4 0 0 7 0 0 之间【2 4 1 。尽管蛋白数据库中每年新增的蛋白质数目逐年上升,新的折叠类型的 却呈下降的趋势,如图1 4 所示。可以预见,在不远的将来,对于任何新出现的蛋白质 序列,都能够在蛋白质折叠数据库当中找到相应的折叠类型。最近,z h a n g 与s k o l n i c k 的一项研究认为大部分的序列都能依据已知的折叠类型( 或者已知折叠类型的片段) 作 为模板【25 1 。然而,在很多情况下,由于具有非常低的序列相似性,许多未知结构的目标 序列的不能用简单的序列搜索方法来获得模板。 j o n e s 等开发了第一个真正的折叠识别方法删r e a d e r ,其使用双层动态规划 方法以最优的把一个序列匹配到已知蛋白质结构的主链坐标上,最佳匹配用从统计分析 获得的能量势来确定【2 4 1 。虽然折叠识别在传统意义上是指基于结构的蛋白质模板识别方 法,但经过多年的发展,现在主要是指对所有超越序列一致性“朦胧区”的基于模板的 大连理工大学博士学位论文 模建方法。目前因特网上的主要蛋白质折叠识别资源如表1 4 所示。折叠识别大致上可 分为两类:基于序列的折叠识别方法以及基于结构的折叠识别方法。 1 ) 基于序列的折叠识别方法 19 7 0 年,n e e d l e m a n 与w u n s c h 使用动态规划方法开发了最早的双序列全局最优比 对方法【2 6 1 。s m i t h 与w a t e r m a n 通过修改动态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建厦门外图集团有限公司17个岗位招聘若干人笔试历年参考题库附带答案详解
- 2025浙江绍兴兰亭国有控股集团有限公司招聘(派遣制岗位)笔试以及人员笔试历年参考题库附带答案详解
- 2025年济宁市任城区事业单位公开招聘工作人员(教育类)(125人)模拟试卷及一套完整答案详解
- 2025广东广州花都产融建设发展投资有限公司第二次招聘项目用工人员及安排笔试历年参考题库附带答案详解
- 2025广西玉林北流市山围镇卫生院公开招聘5人考前自测高频考点模拟试题及1套参考答案详解
- 2025江苏南京交通职业技术学院招聘高层次人才14人考前自测高频考点模拟试题及1套完整答案详解
- 2025湖南长沙市生态环境局芙蓉分局招聘编外合同制工作人员考前自测高频考点模拟试题有答案详解
- 2025黑龙江哈尔滨市五常市万宝学校9大岗位招聘28人模拟试卷及答案详解(网校专用)
- 2025广东深圳市宝安区陶园中英文实验学校招聘精英教师16人考前自测高频考点模拟试题及一套答案详解
- 2025年度哈尔滨“丁香人才周”(春季)事业单位引才招聘1347人考前自测高频考点模拟试题有完整答案详解
- 人教版四年级数学上学期第1单元大数的认识综合素养评价卷(含答案)
- 2025外贸采购合同模板
- 体操保护与帮助课件
- “互联网+”大学生创新创业大赛计划书一等奖
- 工程后期服务的方案(3篇)
- 行政管理毕业论文8000
- 2025年湖南省高考历史真题(原卷版)
- 老年人脑卒中课件
- 2025年传媒行业编辑记者招聘笔试模拟题及答案全解
- 2025年宪法知识竞赛试题库(含答案)
- 事业法人登记管理办法
评论
0/150
提交评论