(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf_第1页
(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf_第2页
(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf_第3页
(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf_第4页
(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(运筹学与控制论专业论文)蛋白质二级结构预测方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着人类基因组计划的完成,人们已经获得了大量生物的遗传信息,数以万 计的蛋白质序列也已经被测出,到2 0 0 4 年4 月1 3 日为止s w i s s p r o t 数据库 中总共收集了1 4 8 5 1 6 条已被测序的蛋白质序列。然而一条蛋白质序列必须折叠 成一定的空间结构时才能发挥它特定的生物功能,人们在对蛋白质序列测序完成 之后更希望的是得到这些蛋白质的空间结构,以便发现结构与功能之间的联系。 因此,蛋白质结构和功能的研究就成为了后基因组时代生命科学领域人们研究的 主要任务和目的。 目前,通过实验的方法获得的蛋白质结构序列只有两万多条( 2 0 0 4 年4 月 2 0 日,p d b 数据库中共收集了2 5 1 7 6 条) ,远远落后于蛋白质序列的测序速度, 因此理论预测蛋白质结构势在必行。然而,直接从蛋自质一级序列预测其三维空 间结构时人们又遇到了诸多困难。在对蛋白质分子的仔细研究和分析后发现由二 级结构组装面成的空间结构是有限的。因此,如果能从蛋白质一级序列先预测出 二级结构,再由二级结构预测三级结构便成为一条有效的途径。这里,蛋白质二 级结构预测不仅成为联系蛋白质一级序列和三级结构的纽带,而且也是从一级序 列预测其三维空间结构的关键步骤。 本文的主要工作是蛋白质二级结构预测方法的研究,具体工作概括如下: 1 从上世纪6 0 年代中期至今,蛋白质二级结构预测已经发展了4 0 年的时间, 期间涌现出了许多好的预测方法。然而,由于每种方法选用的数据集不同、 对二级结构的定义不同、选用的评价指标不同,因此方法间无法进行客观、 全面的比较。而且研究证明,上述几个方面的因素对方法的预测结果影响较 大,因此就迫切需要在一个统一的标准下将多种方法进行评价,从而找出目 前最好的方法,也能从中发现需要继承和改进的方向。本文针对上述几个因 素选择了统一的标准,对目前主要的十种方法进行了评价,这十种方法分别 是:c o o ri 、p r o f 、c _ j o r 、n n p r e d i c t 、p i - i d s e e 、s s p r o v2 0 、p s i p r e d 、 p r e d a t o r 、s o p m a 和a p s s p 2 。这一工作的过程是繁杂而费时的,工作 量较大,至今没有其他人做出。 2 f d o d 方法是一种比较多序列间差异程度的有效方法,作者将这一方法首次 用于蛋白质二级结构预测中,得到了令人鼓舞的结果,准确率达到了7 8 8 , 是目前二级结构预测中最好的结果之一。鉴于这令作者也颇感意外的结 果,文中对f d o d 方法做了详细地分析,它的优势在于:一,它使用子序列 分布作为序列特征的描述,无需引入其它物化参数且又挖掘出了序列本身尽 可能多的特征信息,从而很好地给出了序列与结构之间的关系。二,f d o d 函数的使用。f d o d 函数是基于信息论中熵的概念,输入向量是一个概率分 布,计算中只涉及到简单运算,因此对输入向量的规模没有大的限制a 与其 它方法相比,f d o d 方法具有明显的运算速度优势而且预测准确率高。 3 神经网络方法是蛋白质二级结构预测发展过程中的一类重要方法。从1 9 8 8 年q i a n 和s e j n o w s k i 首次将其应用n - 级结构预测至今又有了很大的改进和 提高。作者对这一方法进行了认真的学习,用一种改进的b p 网络进行了实 际预测。由于受到时间和经验等多方面的影响,目前这一尝试只得到了一个 初步的结果,还需要在今后的工作中继续进行研究。 4 支持向量机方法是一类较好的机器学习算法,我国学者孙之荣等人将这种方 法首先用于了蛋白质二级结构的预测。然而由于支持向量机方法在处理大规 模数据时需要的时间和空间的代价很高,为了解决这一问题我们将支持向量 机与增量学习技术结合起来,提出了一种改进的支持向量机增量学习方法, 并将其应用于蛋白质二级结构预测中。预测结果显示,此算法可在牺牲很小 的测试精度( 不足1 ) 的前提下节省一半左右的训练时间,从而提高了二 级结构预测的效率。 关键词:蛋白质= 级结构预测;后基因组时代;生物信息学;人工神经网络 支持向量机;f d o d 函数 a b s t r a c t a s l o n ga st h eh u m a ng e n o m ep r o j e c th a sb e e nf i n i s h e d ,p e o p l ec o l l e c t e dl o t so f g e n e t i ci n f o r m a t i o n ,a n dag r e a tn u m b e ro f p r o t e i ns e q u e n c e sh a v eb e e nm e a s u r e d b y t h et i m ea p r 1 3 ,2 0 0 4 ,t h e r eh a v eb e e n1 4 8 5 1 6p r o t e i ns t r u c t u r e si ns w i s s p r o t d a t ab a n k ap r o t e i nc a nb r i n gi n t op l a y i n gs o m ef u n c t i o nj u s tw h e ni tf o r m st h e s p e c i a ls h a p e ,a n dp e o p l eh o p et os t u d yt h es t r u c t u r e st of u n do u tt h er e l a t i o n s h i p b e t w e e ns t r u c t u r e sa n df u n c t i o n s s oi ti st h ek e yt a s ka n da i mt o s t u d yp r o t e i n s t r u c t u r e si np o s t - g e n o m ep r o j e c t b yn o w , t h e r ea r e2 5 1 7 6s t a - u c t u r e s o fp r o t e i ns e q u e n c e si np d bd a t ab a n k p e o p l en e e dt os t u d yt h es t r u c t u r e s i n t h e o r y u n f o r t u n a t e l y , i ti sv e r yd i f f i c u l tt o p r e d i c tt h et e r t i a r ys t r u c t u r e sj u s tf r o mt h e i rp r i m a r ys e q u e n c e s h o w e v c rp e o p l e f o u n dt h a tt h ef a s h i o n sc o m p o s e db ys e c o n d a r ys t r u c t u r e sa r el i m i t e d s oi ti sa n e f f e c t i v ea p p r o a c ht h a tt op r e d i c ts e c o n d a r ys t r u c t u r e s f i r s t l ya n dt h e n t o p r e d i c t t e r t i a r ys t r u c t u r e sa sf o l l o w e d h e r e ,p r o t e i ns e c o n d a r y s t r u c t i l r ep r e d i c t i o ni sn o t o n l y a b r i d g eb u t a l s oa k e ys t e pt ot h ep r o t e i n s 虹u c t i l r ep r e d i c t i o n i nt h i sp a p e r , t h em a i nw o r ki ss u m m a r i z e d 觞f o l l o w s : 1 f r o m2 0c e n t u r y6 0a g e st on o w , i th a sd e v e l o p e da b o u t4 0y e a r si np r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o nf i e l d m a n ym e t h o d sh a v eb e e nc o m ef o n h b a s e d o nd i f f e r e n td a t a s e t s ,d i f f e r e n td e f i n i t i o n so fs e c o n d a r ys t r u c t u r ea n dd i f f e r e n t e v a l u a t ei n d e x e s ,s ot h e yc a n n o tb ec o m p a r e df a i r l y m o r e o v e r , t h e s eu p p e r f a c t o r sc a r l _ a f f e c tt h er e s u l t sd e e p l y i tu r g e n t l yn e e d st oe v a l u a t et h ed i f f e r e n t m e t h o d su n d e rau n i f o r ms t a n d a r dt of i n do u tt h eb e s to n e sa n dt ob o o s tt h e r e s e a r c ha l lt h em o r e i nt h i sw o r k ,au n i f o r ms t a n d a r dw a sc h o s e ,a n dm a i n l y1 0 m e t h o d sw e r ee v a l u a t e d 、t h e s ea r eg o rijp r o f ,g o r & w p r e d i c z p h d s e c , s s p r ov2 ,0 ,p s i p r e d , p r e d a t o r , s o p m aa n d a p s s p 2 t h i sw o r k i sc o m p l e x i t ya n dt i m e c o n s u m i n g n oo t h e rp e o p l ed ot h i s 2 f d o di san e wm e a s u r eo fi n f o r m a t i o nd i s c r e p a n c y i nt h i sp a p e r , i ti sf i r s t l y u s e di np r o t e i ns e c o n d a r ys t m c t l l r ep r e d i c t i o n , a n dt h er e s u l ti se x c i t i n g f d o d m e t h o dh a st w oa d v a n t a g e s f i r s t ,t h ec o m p l e t ei n f o r m a t i o ns e tc a ! ld e s c r i b et h e s e q u e n c em o r ec o r r e c t l yt h a nm e t h o d s s e c o n d ,f d o df u n c t i o ni sb a s e do nt h e c o n c e p ta b o u te n t r o p yi nt h ei n f o r m a t i o nt h e o r y t h ei n p u t v e c t o ri sa p r o b a b i l i t y d i s t r i b u t i n g i to n l yr e l a t e st os u mo p e r a t i o n ,s oi th a sn o tl i m i tt od i m e n s i o n so f i n p u tv e c t o r s f d o d i sg o o df o rp r e d i c t i n g p r o t e i ns e c o n d a r y s t n l c n l r e s 3 a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) i sa i li m p o r t a n tm e t h o d i n1 9 8 8 ,q i a na n d s e j n o w s k ih a v ef i r s t l yu s e dt h i s m e t h o dt op r e d i c tp r o t e i ns e c o n d a r ys t r u c t u r e f r o mt h e no n ,t h i sm e t h o dh a sb e e ni m p r o v e d q u i c k l y i nt h i sp a p e r , i ti su s e dt o p r e d i c tp r o t e i ns e c o n d a r ys t r u c t u r eb yan o v e lb pn e t w o r k h o w e v e r , b e c a u s eo f t h er e s t r i c t i o no ft i m ea n d e x p e r i e n c e ,t h ea u t h o rj u s tg o ta l le l e m e n t a r yr e s u l t i t s h o u l db es t u d i e di nw e r kf o rm ef u t u r e 4 s u p p o r tv e c t o rm a c h i n e ( s v m ) i san e wm a c h i n el e a m i n gm e t h o d i ti sf i r s t l y s u c c e s s f u la p p l i e di np r o t e i ns e c o n d a r ys t r u c t u r e p r e d i c t i o nb y c h i n e s er e s e a r c h e r p r o f s u nz h i - r o n ga n do t h e rp e o p l e h o w e v e r , i ti s v e r yc o s t l yt op r o c e s st h e l a r g e a m o u n t so fh i g hd i m e n s i o n a ld a t aa n dm e m o r yc o n s u m p t i o n ,w h e r e a s i n c r e m e n t a ll e a r n i n g ( 尼) m a ys o l v et h i sp r o b l e m an o v e la l g o r i t h mh a sb e e n a d v a n c e dw i t hc o m b i n i n gt h ec h a r a c t e r i s t i c so fs v ma n dt h ep r o c e s s i n go f 皿 t h er e s u l t ss h o wt h a ta b o u th a l ft i m ei sr e d u c e dw i t ht h ea c c u r a c ys l i g h t l yf a l l ( u n d e r 1 、s ot h i sn e ws v mm e t h o di se f f i c i e n tt ot h ep r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o n k e yw o r d s :p r o t e ins e c o n d a r ys t r u c t u r ep r e d ic tio n ;p o s t g e n o r n e e r a ; b i o i n f o r m a t i c s :a r t i f i o i a in e u r a in e t w o r k ( a n 吣:s u p p o r t v e c t o rm a o h i n o ( s w ) :f d f u n c t i o n u 月| j 茜 二十世纪生物学领域最重要的成就之,是继d n a 双螺旋结构的发现之后 总结出分子生物学的中心法则,揭示了生命遗传信息传递的方向和途径( 图o 1 ) 。 d n a 兰,d h a 墨脚a 氨基酸序列兰兰蛋白黄争生命活动 匠转录i 筻 岳i i f 矾 图o - l 遗传信息的传递 f i g 0 1t r a n s f e ro f h c r e d i t yi n f o r m a t i o n 分子生物学的中心法则中,d n a 和r n a 的复制、d n a 转录成r n a 、r n a 逆转录成d n a 以及以信使r n a 为模板翻译成多肽链的过程和机制基本上已经 阐明。但从多肽链折叠成蛋白质的过程是从“遗传信息”到“生物功能”的关键环 节,这一问题则留待我们在2 l 世纪去解决。 2 1 世纪是生命科学的世纪。就现代科学的发展史而言,一门学科的发达程 度可以用数学对其介入的程度来衡量,然而无论是传统生物学还是现代生物学都 仅仅是一门实验科学,生物学的发展过程中缺乏一个重要体系的加入,即数学模 型体系。尤其以人类基因组计划为标志的大规模测序计划的实施和完成,人类已 经掌握了极大量的遗传数据,各种生物数据库所含信息正迅猛增长,仅用实验的 方法是无法跟上现代生物学研究的需要的。在这种追切需求之下。一门新兴的交 叉学科生物信息学( b i o i n f o r m a t i c s ) 1 诞生了,它融合了,生物、数学、 物理、化学等学科的知识和方法,以计算机科学和信息科学技术为强有力的工具, 对入类积累的海量的生物信息进行挖掘和利用,从串发现统一的、本质的、有用 的规律。 生物信息学的研究对象是各类生物学数据库,它包括核酸序列数据库及蛋白 质序列、结构数据库等。署前入们关注的一个熟点是蛋白质纽学( p r o t e o m c s ) 中对蛋白质三维结构的预测。蛋白质分子是生物功能的实现者,然而一条蛋白质 序列必须折叠成一定的空间结构时才能发挥它特定的生物学功能,如果构象发生 变化,其功能活性也随之改变。因此研究蛋自质的空间结构成为了研究其生物功 能的关键环节。目前,通过实验的方法获得蛋白质结构的手段主要是x 光晶体 衍射和多维核磁共振技术,但是由于这两种方法受到实验精度和技巧的影响,其 测定速度远远落后于蛋白质序列的测定速度,这就要求人们觚理论方法上寻求更 大的突破。理论预测蛋白质结构也就成为了生命科学领域进入后基因组时代的一 项重要任务。 本文基于生物信息学的特点,运用数据库中已有的蛋白质序列及结构数据, 利用计算机技术和比较有效的数学方法,在蛋白质二级结构预测方面做了一点儿 研究工作。 2 蛋白质二级结构预测方法研究 1 绪论 从最简单的单细胞生物到最高等的人类,它们最基本最重要的组成物质 都是蛋白质和核酸。核酸是生物体遗传信息的携带者,所有生物体能世代相 传,就是依靠核酸分子可以精确复制的性质 3 1 。蛋白质则是生命活动的主要承 担者。所有的生命活动,呼吸、运动、消化甚至感知、思维和学习,无 一例外是依靠蛋白质来完成的。蛋白质是生物体的基本组成成份,在人体内 蛋白质的含量很多,约占人体固体成分的4 5 ,它的分布很广,几乎所有的 器官组织都含蛋白质,并且它又与所有的生命活动密切联系。 1 1 蛋白质分子的组成和结构分类 1 1 1 蛋白质分子的组成 组成蛋白质分子的基本单位是氨基酸,构成天然蛋白质的氨基酸共2 0 种 每一种都可以用三字母或单字母符号来标记,标准符号见下表1 - 1 。 表1 - 1 氨基酸标准符号表 符号意义符号意义 a ( a i a )丙氨酸m ( m e 0甲硫氨酸 c ( c y s l 半胱氨酸n ( a s n )天冬酰胺 d ( h s p ) 天冬氨酸 p ( p r o ) 脯氨酸 e g l u ) 谷氪酸 q ( a t n ) 谷氪酰胺 f ( p h e ) 苯丙氨酸 r ( a r g ) 精氮酸 g ( g l y ) 甘氨酸 s ( s e r ) 丝氨酸 h ( h i s ) 组氨酸t ( t h r )苏氨酸 t ( e t 曲 异亮氨酸 v ( v a 0 缬氨酸 k ( l y s ) 赖氮酸 w ( t r p ) 色氨酸 l ( l e u ) 亮氨酸y ( r y r )酪氨酸 根据侧链的化学性质,这2 0 种氢基酸可分为【4 】: 疏水氨基酸:a i a ,v a l ,l e u ,i i e ,p h e ,p r o 和m e t 带电氨基酸:a s p ,g i n ,l y s 和a r g 蛋白质二级结构预测方法研究 极性氨基酸:s e r ,t h r ,c y s ,a s n ,g i n ,h i s ,t y r 和t r p 甘氨酸:g l y 每一种氨基酸都是由一个氨基n h 2 、一个羧基一c o o h 、一个d 碳原子c 。 和一个r 基团组成的。除脯氨酸以外,其它的氨基酸都具有图1 1 a 所示的化 学结构式,侧链r 基团决定了氨基酸的种类。脯氨酸结构式的不同之处在于 它的侧链与主链n 原子共价结合,形成个亚氨基酸( 如图1 - l b ) 。 h r 。o o h f n h 图1 1 a 一般氢基酸结构式 f i g 1 - 1 at h ec h e m i s t r ys t r u c t u r eo f g e n e r a la m i n oa c i d r c o o l i i n h 图1 - l b 脯氨酸结构式 f i g 1 1 bt h ec h e m i s t r ys t r u c t u r eo f p r o l i x n e 1 1 2 蛋白质分子的结构分类 1 蛋白质的一级结构 一个氨基酸的羧基与另一个氨基酸的氨基缩合脱水形成肽键( 图1 2 ) 一定数目的氨基酸以肽键的形式连接而成一条多肽链。在一条肽链中,氨基 酸分子由于缩合脱水已经失去了原来完整的结构,因此给它重新命名为“残 基”。 一 m 苫臼i - 9 0 胁r 酞h! i 准当,h 。凹,0 h 图i - 2 肽键的形成 蛋白质的一级结构( p r i m a r ys t r u c t u r e ) 就是蛋白质多肽链中氨基酸残基的 排列顺序( s e q u e n c e ) ,这也是蛋自质最基本的结构。需要注意的是,一级结构 是没有涉及到空间概念的结构。 2 蛋白质的二级结构 蛋白质的二级结构( s e c o n d a r ys t r u c t u r e ) 是指多肽链中主链原子的局部空 闯排布,是不涉及侧链部分的构象。它们是完整肽链构象( 三级结构) 的结 2 蛋白质二级结构预测方法研究 构单元,是蛋白质复杂的空间构象的基础。最早的二级结构定义是1 9 5 1 年由 p a u l i n g 等人提出的d 螺旋和b 折叠,以及转角。1 9 8 3 年,k a b s c h 和s a n d e r 给出了更精确的描述口 。 1 ) a 一螺旋 p a u l i n g 等人对a 一角蛋白f a - - k e r a t i n ) 进行了x 线衍射分析,从衍射图中 看到有o 5 05 5 n m 的重复单位,故推测蛋白质分子中有重复性结构,并认为 这种重复性结构为“一螺旋( c z - - h e l i x ) ,见图1 3 。 图1 3 蛋白质分子的a 一螺旋 f i g 1 3a - h e l i xs t r u c t u r e d 一螺旋的结构特点: ( 1 ) 多个肽键平面通过a 一碳原子旋转,相互之间紧密盘曲成稳固的右手 螺旋。 ( 2 1 主链呈螺旋上升,每3 6 个氨基酸残基上升一圈,相当于0 5 4 n m ,这 与x 线衍射图符合。 f 3 1 相邻两圈螺旋之间借肽键中c = o 和h 形成许多链内氢键,即每一个 氨基酸残基中的n h 和前面相隔三个残基的c = o 之间形成氢键,这是稳定d 螺旋的主要键。 ( 4 ) 肽链中氨基酸侧链r ,分布在螺旋外侧,其形状、大小及电荷影响a 一螺旋的形成。例如,酸性或碱性氨基酸集中的区域,由于同电荷相斥,不 利于d 一螺旋形成;较大的r ( 如苯丙氨酸、色氨酸、异亮氨酸) 集中的区域, 蛋白质二级结构预测方法研究 也妨碍d 一螺旋形成;脯氨酸因其a 一碳原子位于五元环上,不易扭转,加之 它是亚氨基酸,不易形成氢键,故不易形成上述d 一螺旋;甘氨酸的r 基为h , 空间占位很小,也会影响该处螺旋的稳定。 2 ) 口一折叠 a s t b u r y 等人曾对序一角蛋白进行x 线衍射分析,发现它具有o 7 r i m 的重 复单位。如将毛发a 一角蛋白在湿热条件下拉伸,可拉长到原长二倍,这种口 一螺旋的x 线衍射图可改变为与1 3 一角蛋白类似的衍射图。说明口角蛋白中 的结构和a 一螺旋拉长伸展后结构相同。两段以上的这种折叠成锯齿状的肽 链,通过氢键相连而平行成片层状的结构称为序一片层( b - - p l e a t e ds h e e t ) 结构 或称序一折叠。 c 一束墙 l - l r t l1 7 - 卑境 c 零墙誊曩 图1 - 4 蛋白质分子中的口一片层结构( 左:平行结构:右:反平行结构) f i g i - 48 - s h e e ts t r u c t u r e 序一片层结构特点: ( 1 ) 是肽链相当伸展的结构,肽链平面之间折叠成锯齿状,相邻肽键平面 间呈1 1 0 。角。氨基酸残基的r 侧链伸出在锯齿的上方或下方。 ( 2 ) 依靠两条肽链或一条肽链内的两段肽链1 9 的c = o 与h 形成氢键,使 构象稳定。 ( 3 ) 两段肽链可以是同向平行的,也可以是反向平行的。即前者两条链从“n 端,到“c 端”是同方向的,后者是反方向的。廖一片层结构的形式十分多样,正、 反平行能相互交替。 4 蛋白质二级结构预测方法研究 ( 4 ) 同向平行的p 一片层结构中,两个残基的间距为0 6 5 r i m ;反向平行的 口一片层结构,则间距为o 7 r i m 。 3 ) 无规卷曲 某些肽链构象没有确定的规律性,肽链中肽键平面呈现不规则排列,这样 的松散结构称为无规卷( c o i l ) 。图1 5 给出了这三种二级结构的拓扑示意图。 一螺 折叠 无媲卷曲 图1 - 5 蛋白质二级结构拓扑示意图( p d b 代码:l p d b ) f i g 1 - 5p r o t e i ns e c o n d a r ys t r u c t u r e ( p d bc o d e :l p d b ) 3 超二级结构 超二级结构( s u p e r s e c o n d a r ys t r u c t u r e ) 是指在多肽链内顺序上相互邻近的 二级结构常常在空间折叠中靠近,彼此相互作用,形成规则的二级结构聚集 体。目前发现的超二级结构有三种基本形式:a 螺旋组合( 0 ;口折叠组合( 口筇) 和d 螺旋p 折叠组合( p 晌,其中以口0 牡组合最为常见。它们可直接作为三级 结构的“建筑块”或结构域的组成单位,是蛋白质构象中二级结构与三级结构之 间的一个层次,故称为超二级结构。 豳胁内 a bo 图1 6 蛋白质的超二级结构示意( a :洲组合;b :口阳组合:c :脚组合) f i g 1 6p r o t e i ns u p e r s e c o n d a r y s 批t l l r b 蛋白质二级结构预测方法研究 4 结构域 结构域是由不同的二级结构和超二级结构组合形成的,是蛋白质三级结 构的基本单位。一个蛋白质可以只包含一个结构域也可以由几个结构域组成, 也就是说结构域是能够独立折叠为稳定的三级结构的多肽链的一部分或全 部。结构域也是功能单位,通常多结构域蛋白质中不同的结构域是与不同的 功能相关联的。m l e v i t t 和c c h o t h i a 把蛋白质的结构域结构分为四类:“ 类、口类、叫届类以及叶口类撕 。 5 蛋白质三级结构及四级结构 不同数目、不同尺寸的二级结构及其它无规则段以不同的方式排布连接成 完整的蛋白质空间结构,即蛋白质的三级结构( t e r t i a r ys t r u c t u r e ) 。蛋白质的三 级结构包括组成蛋白质的所有原子在空间的位置,也称蛋白质的三维结构、 空间结构或构象( c o n f o r m a t i o n ) 。如果一个蛋白质仅包含一条多肽链,这个蛋 白质就只有三级结构。某些更复杂的蛋白质包含两条或者多条多肽链,每一 条单链形成特定的三级结构,称为亚基,亚基通过非共价键形成蛋白质的四 级结构( q u a t e r n a r y s t r u c t u r e ) 。 :至雉 o- 簖 c 赫k 幢ft 艮5 罅蕾黛¥一 l口o、 霉壹露棚l o k r 融理o 曲g 一骚培拘_ 二暖培拘一羔投时捣 呻 匹袋结构 图1 7 蛋白质结构分类示意图 f i g 1 7c l a s s i f i c a t i o no f p r o t e i n s t r u c t u r e 1 2 蛋白质结构预测的理论基础、方法及模型 1 2 1 蛋白质结构预测的理论基础 2 0 世纪6 0 年代初,c b a n f i n s e n 以一条肽链的蛋白质核糖核酸酶为对 象研究二硫键的氧化还原问题时发现,该酶的1 2 4 个氨基酸残基构成的多肽 链中存在四对二硫键,在大量口一巯基乙醇和适量尿素作用下,四对二硫键全 都被还原为h ,酶活力也全部丧失,但是如将尿素和口一巯基乙醇除去,并在 6 蛋白质二级结构预测方法研究 有氧条件下使巯基缓慢氧化成二硫键,此时酶的活力水平可接近于天然的酶 “j 。通过这个实验,a n f i n s e n 认为蛋白质特定的空间结构是由其氨基酸排列顺 序决定的。换言之,蛋白质的一级结构决定其空间结构。这个假说为理论预 测蛋白质各级结构( 结构类、二级结构、三级结构等) 奠定了基础,a n f i n s e n 本人也因此获得了1 9 7 2 年的诺贝尔化学奖。 1 2 2 蛋白质结构预测的方法 由于蛋白质分子结构是极端复杂的,而且如果一条氨基酸序列是由1 0 0 个残基组成的话,那么它可能采取的结构至少有1 0 3 0 种,因此预测工作十分 艰巨。 目前,蛋白质结构预测的方法大致可分为两类:第一类是“基于知识的 预测方法”。一般地,将序列相似性大于3 0 的蛋白质分子归于同一家族,称 为同源蛋白质。通过分析发现,蛋白质的三维结构比一级结构更加保守, 级结构相似的蛋白质往往具有相似的三维空间结构。而同源蛋白质被认为是 从同一个祖先进化来的,因此更容易具有相似的结构和功能。同源模建法 8 , 9 1 正是基于这一理论发展出来的较为成功的预测方法。另外对于某些非同源的 蛋白质,尽管它与那些已知结构的序列相似性很低,但却存在一些相同的骨 架结构折叠子( f o l d s ) ,人们也可以通过这些折叠子为模板进行预测【l 0 1 , 此方法为折叠识别。同源模建和折叠识别这两种方法都对已知结构的蛋白质 序列依赖性很强,由于现有的蛋白质己知结构是有限的,这势必对未知结构 的预测会造成很大障碍。而第二类方法则不需要结构已经测定的蛋白质作为 模板,它是建立在热物理理论基础之上的,被称为从头预测方法。这种方法 假设蛋白质分子天然构象处于热力学最稳定、能量最低的状态,考虑蛋白质 分子中所有原子间的相互作用以及蛋白质分子与溶剂之间的相互作用,然后 采用分子力学的能量极小化方法,计算出蛋白质分子的天然空间结构。 1 2 3 蛋白质结构预测的模型 蛋白质多肽链之所以能形成二级结构和三级结构是因为多肽链上残基侧 链之间的相互作用以及侧链与溶剂环境的相互作用的结果。侧链相互作用 般包括疏水作用、静电相互作用( 离子键) 、氢键和范德华力,有时还有二硫 键和配位键起到稳定蛋白质结构的作用【1 1 , 1 2 , 1 3 。正是因为在这些力的作用下蛋 白质的空间结构会处于整个热力学系统的最稳定状态,而且这个结构是唯 7 蛋白质二级结构预测方法研究 的。根据这理论可以建立如下的优化模型: f m i nu ( x ) 1 5 t x d 其中u ( x ) 为目标函数,通常采用经验势能函数或平均势能函数,d 为构象空 间。 经典的经验势能函数一般至少包括四个能量项:键能伸缩、键角变形能、 键的转动( 二面角) 能和非键相互作用( 包括静电相互作用和范德华力) ,用 下式表示: g ( r ”) = 粤( z 。一,) 2+ 等( q - o j ,。) 2+ 孚( 1 + c o s ( r i c o - r ) ) + 萋黔秽一坍鼍 n - , 式中e ( r ”) 表示能量是个原子位置r 的函数;第一项表示键伸缩能,即键长 ,偏离平衡值。时的能量增量;第二项为键角变形能,即键角q 偏离平衡值只。 时的能量增量;第三项为二面角项;第四项表示非键相互作用。 另外,c o r n e l l 大学s c h e r a g a 小组在简化的蛋白质几何结构的基础上开发 了一种联合残基力场( u n r e s ) 模型,并验证了这一模型的合理性 1 5 , 1 6 , 1 7 , 1 8 , 1 9 , 2 0 】。 在此模型中,氨基酸的侧链用一个椭球体来表示,氨基酸序列的主链被简化 为一系列用虚键c4 一c 。连接的n 碳原子( c 。) ,每个。碳原子接一个联合侧 链( s c ) ,肽单位用两个a 碳原子之间的一个联合肽基( p ) 表示。其中只有s c 和p 为作用点,c 。仅辅助确定作用点的几何位置:虚键c 。一c 。键长固定不变 ( 3 8 埃) ,侧链键c 。一s c 键长仅跟残基类型有关,自由变量为:虚键二面角 y 、虚键键角口和侧链键角a ,。和风。联合残基力场的势能函数包括七个能量 项: u 2 吾u * 一+ 若u “,+ “,莓i u e + 一”;u ”p r ) ( 1 2 ) f 蛋白质功能 l小 l 专蛋白质二级结构一 这里蛋白质的二级结构预测不仅成为了联系蛋白质一级序列和三级结构 的纽带,而且也是从一级序列预测其三维空间结构的极为关键的步骤。 1 4 本文的主要工作 本文作者主要是在蛋白质二级结构预测方面做了一点儿研究: 9 蛋白质二级结构预测方法研究 1 从上世纪6 0 年代中期至今,蛋白质二级结构预测已经发展了4 0 年的时间, 期间涌现出了许多好的预测方法。然而,由于每种方法选用的数据集不同、 对二级结构的定义不同、选用的评价指标不同,因此方法间无法进行客观、 全面的比较。而且研究证明,上述几个方面的因素对方法的预测结果影响 较大,因此就迫切需要在一个统一的标准下将多种方法进行评价,从而找 出目前最好的方法,也能从中发现需要继承和改进的方向。本文针对上述 几个因素选择了统一的标准,对目前主要的十种方法进行了评价,这十种 方法分别是:g o ri 、p r o f 、g o r 、n n p r e d i c t 、p h d s e c 、s s p r ov2 0 、 p s i p r e d 、p r e d a t o r 、s o p m a 和a p s s p 2 。这一工作的过程是繁杂而 费时的,工作量较大,至今没有其他人做出。 2 f d o d 方法是一种比较多序列间差异程度的有效方法,作者将这一方法首 次用于蛋白质二级结构预测中,得到了令人鼓舞的结果,准确率达到了 7 8 8 ,是目前二级结构预测中最好的结果之一。鉴于这一令作者也颇感 意外的结果,文中对f d o d 方法做了详细地分析,它的优势在于:一,它 使用子序列分布作为序列特征的描述,无需引入其它物化参数且又挖掘出 了序列本身尽可能多的特征信息,从而很好地给出了序列与结构之间的关 系。二,f d o d 函数的使用。f d o d 函数是基于信息论中熵的概念,输入 向量是一个概率分布,计算中只涉及到简单运算,因此对输入向量的规模 没有大的限制。与其它方法相比,f d o d 方法具有明显的运算速度优势而 且预测准确率高。 3 ,神经网络方法是蛋白质二级结构预测发展过程中的一类重要方法。从1 9 8 8 年q i a n 和s e j n o w s k i 首次将其应用到二级结构预测至今又有了很大的改进 和提高。作者对这一方法进行了认真的学习,用一种改进的b p 网络进行 了实际预测。由于受到时间和经验等多方面的影响,目前这一尝试只得到 了一个初步的结果,还需要在今后的工作中继续进行研究。 4 支持向量机方法是一类较好的机器学习算法,我国学者孙之荣等人将这种 方法首先用于了蛋白质二级结构的预测。然而由于支持向量机方法在处理 大规模数据时需要的时间和空问的代价很高,为了解决这一问题我们将支 持向量机与增量学习技术结合起来,提出了一种改进的支持向量机增量学 习算法,并将其应用于蛋白质二级结构预测中。预测结果显示,此算法可 在牺牲很小的测试精度( 不足1 ) 的前提下节省一半左右的训练时间, 从而提高了二级结构预测的效率。 1 0 蛋白质二级结构预测方法研究 2 蛋白质二级结构预测方法的研究进展 2 1 蛋白质二级结构预测的发展过程 从2 0 世纪6 0 年代中期开始至今,在大批实验和理论工作者的共同努力 下,蛋白质二级结构预测的方法不断涌现出来,其发展过程大致可分为三个 阶段:第一阶段是以单残基、单一序列的分析为重点,以c h o u f a s m a n 方法 2 1 , 2 2 】 和g o r ( g a r n i e r o s g u t h o r b e r o b s o n ) 口3 】等方法为代表。但是预测准确率普遍较 低,大致在5 0 5 9 之间。第二个阶段则考虑了局部残基的相互影响,主要 的方法有1 9 8 6 年的l e v i n e ta l 方法口钔,1 9 8 7 年的g o r m 方法f 2 m ,1 9 8 8 年的 q i a n s e j n o w s k i 方法 2 6 】,1 9 8 9 年的h o l l e y k a r p l u s 方法 2 7 】以及1 9 9 3 年的 y i l a n d e r 方法 z 8 。这一阶段方法的预测准确率有所提高,尤其是使用了神经 网络方法以后预测准确率首次提高到了7 0 以上。第三阶段在已有方法如 g o r 方法或者神经网络方法的基础上,进一步提出了结合多重序列比对的思 想,使预测准确率又有所提高。使用的传统序列分析软件有f a s t a 、b l a s t , 近些年又出现了另外一些优秀软件,如p s i b l a s t 、h m m s 等。这一阶段的 主要方法有p h i ) 方法 2 9 , 3 0 】,p s i p r e d 方法 3 l 】以及j n e t 方法 3 2 】等。它们的预 测精度较以往方法有明显提高,准确率在7 2 7 9 之间。 2 2 若干常用的二级结构预测方法介绍 目前,蛋白质二级结构预测方法大体上可以分为三大类:基于统计的预 测方法、基于知识的预测方法和混合预测方法。 2 2 1 基于统计的预测方法 ( 1 ) c h o u f a s m a n 方法 这种方法提出的最早,也曾得到较广泛的应用。它是一种基于单残基的 统计预测方法。1 9 7 4 年,c h o u 和f a s m a n 用x 光衍射对2 9 个蛋白质序列的 4 7 4 1 个残基进行了研究,首先统计出2 0 种氨基酸出现在q 螺旋、b 折叠以及 无规卷曲三种构象中分布的频率,犀时考虑氨基酸在蛋白质之中的相对出现 频率以及残基出现在结构中的频率。定义残基a 的构象参数为: 只= f ( x )( x 分别代表口螺旋、卢折叠和无规卷曲) 其中厂h ) 为整个数据库中构象出现的频率。构象参数值的大小反映了该种残 蛋白质二级结构预测方法研究 基呈现某一构象的倾向性大小( 见表2 1 ) 。后来,他们又把2 9 个蛋白质扩充 到6 5 个己知结构的蛋白质,但研究结果表明统计数据的增加并未明显的改变 统计结果。许多其他生物学家也在此基础上提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论