




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硬士学位论文 摘要 蛋白质二级结构预测是生物信息学研究的重要组成部分。蛋白质二级结构的 预测既有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构 更具有非常重要的意义。基于数据库的计算机模拟预测方法成为了蛋白质二级结 构预测领域的快速有效的实验手段。人工神经网络模型是用于计算机预测的一种 很有效人工智能算法,p h d 方法就是在此基础上建立起来的一套非常先进的预 测系统。 本文通过对p h d 方法的优劣性进行分析,从序列联配和全局优化两个方面 入手,提出了自己的改进思路,并且分别基于p h d 方法建立了两个改进的预测 方法:s a p h d 和g o p h d ,同时对这两个方法分别进行了比较充分的计算实验。 实验结果表明,自适应剖面隐马氏模型s a h m m 可以在不降低预测精度的前提 下增加p h d 方法的抗干扰能力;全局优化可以提高p h d 方法的预测能力,使得 预测精度提高大约2 左右。 关键词:蛋白质二级结构预测;人工神经网络;生物信息学 上海大学硕士学位论文 a b s t r a c t p r e d i c t i o no fp r o t e i ns e c o n d a r ys t r u c t u r ei so n eo ft h em o s ti m p o r t a n t f i e l d si nb i o i n f o r m a t i c s i ti s h e l p f u ln o to n l yt o u n d e r s t a n df u n c t i o n sa n d e f f e c t so fp r o t e i n sb u ta l s ot op r e d i c t3 ds t r u c t u r eo f p r o t e i n c o m p u t a t i o n a n a l y s i si sav a l i da n df a s tw a y t op r e d i c t p r o t e i ns e c o n d a r ys t r u c t u r e p h di s ac o m p u t a t i o n a lp r e d i c t i o ns y s t e mb a s e do na r t i f i c i a ln e u r a ln e t w o r k ,w h i c h i sa ne f f e c t i v ei n t e l l i g e n ta l g o r i t h m t h i sp a p e rf i r s t l y a n a l y z e dt h es t r o n g p o i n ta n ds h o r t c o m i n go fp h d a t t w op o i n t s ,w h i c hw e r e s e q u e n c ea l i g n m e n t a n dg l o b a lo p t i m i z a t i o n b a s e do n t h et w op o i n t s ,w ef o u n dw a y st o i m p r o v e o np h d t h e nw eb u i l dt w o m e t h o d st h a ta r ef o u n do np h d s y s t e ma n dp r o g r a m m e dt h e mb ycl a n g a g e t h et w om e t h o d sw e r en a m e ds a p h i ) a n dg o - p h d f r o mo u re x p e r i m e n t a l r e s u l t s ,w ep r o v e dt h a tp r e d i c t i o na c c u r a c yw o u l d n o tb er e d u c e da n dw o u l db e m o r es t a b l ei fm a x h o m ,w h i c hi sa n a l i g n m e n ta l g o r i t h m i n p h d ,i s s u b s t i t u t e db ys a h m m a tt h es a m et i m e ,w ea l s og o tap r e d i c t i o na c c u r a c y i n c r e a s eo f 2 b y g l o b a lo p t i m i z a t i o n k e y w o r d :p r e d i c t i o no f p r o t e i ns e c o n d a r ys t r u c t u r e ,a r t i f i c i a ln e u r a ln e t w o r k , b i o i n f o r m a t i c s i i 原创性声明 本人声明:所呈交的论文是本人在导师的指导下进行的研究 工作。除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已发表或撰写过的研究成果。参与同一工作的其他同志对本 研究所作的任何贡献均已在论文中作了明确的说明并表示了谢 意。 签名:法彬日期:2 4 6 、- v l 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许被查阅和借阅;学校 可以公布论文的全部或部分内容。 ( 保密的论文在解密之后应遵守此规定) 签名:奢、移导师签名:日期:2 。d q b ,彤 本文的研究工作受上海市重点学科 建设项目及国家8 6 3 高技术研究发展计划项 目( 2 0 0 2 a a 2 3 4 0 2 1 ) 资助。 上海大学硕士学位论文 第一章蛋白质二级结构预测研究 1 1 前言 2 0 0 1 年2 月,包括中国在内的美、英等六国宣布完成了人类基因组铡序和分 析的初稿【1 ,这项划时代的创举将人类基因科技带入新的境界,也连带开启了分 子生物学、蛋白质组学、药物基因组学等新研究领域。随着后基因组时代的来临, 人类对于基因的研究重点,已由译码测序转移到由基因表现的最终产物蛋白 质的身上,换言之,尽管科学家已知一个基因的序列内容,但还必须进步了解 此基因的生理功能,而基因的功能又是以蛋白质的形式表现,而且蛋白质的功能 又与其结构有很大的关联性,因此,蛋白质结构预测方面的研究非常重要。 1 2 蛋白质二级结构 蛋白质分子是由2 0 种不同的氨基酸通过共价键连接而成的线性多肽链,每一 种蛋白质在天然条件下都有其特定的空间结构。蛋白质所具有的功能在很大程度 上是由其空间结构所直接赋予的。因此,为了完全理解蛋白质的功能,必须知道 蛋白质分子的结构一般情况下,蛋白质的结构分为四个层次:一级结构( 氨基酸 序列) ;二级结构( a 一螺旋,一折叠等模式) ;三级结构( 氨基酸在空间的布局) ; 四级结构( 蛋白质亚基间的立体排布) 其中蛋白质的二、三、四级结构般统称 为蛋白质的高级结构,而蛋白质的高级结构信息都蕴藏在其氨基酸序列中。表1 是构成蛋白质的2 0 种氨基酸的三字母符号和单字母符号表示。 表1 1 构成蛋白质的2 0 种氨基酸的三字母符号和单字母符号表示 三字母符单字母三字母符单字母 氨基酸氨基酸 号 符号号符号 丙氨酸( a l a n i n e ) a l aa 亮氨酸( l e u ci n e )l e ul 精氨酸 ( a r g i n i n e ) a r g r 赖氨酸( l y s i n e ) l y s k 天冬酰胺甲琉氨酸 a s nnm e tm ( a s p a r a g i n e ) ( m e t h i o n i n e ) 天冬氨酸苯丙氨酸 ( a s p a r t i ca c i d ) a s p dp h ef ( p h e n y l a l a ni n e ) 半胱氨酸 ( c y s t e i n e ) c y s c脯氨酸( p r o i n e )p r op 上海大学硕士学位论文 谷酰胺 g 1 n 0丝氨酸( s e r i n e ) s e rs ( g l u t a m i n e ) 谷氨酸 g l ue 苏氨酸 t h r t ( g l u t a m i ca c i d )( t h r e o n i n e ) 色氨酸 甘氮酸( g l y c i n e )g l y g t r p w 8 r y p t o p h a n ) 组氨酸 h i sh 酪氨酸( t y r o s i n e )t y r y ( h i s t i d i n e ) 异亮氨酸 i l ei 缬氨酸( v a l i n e ) v a lv ( i s o l e u c i n e ) 蛋白质的二级结构是指组成蛋白质的多肽链骨架的有规则的排列,而不涉及 侧链的类型和构像。 蛋白质二级结构主要有:a 一螺旋( h e l i x ) 、b 一折叠( s h e e t ) 和无规卷曲 ( c o i l e d - c o l l ) 等。其中n 一螺旋和b 一折叠被称为规则二级结构。 a 一螺旋是蛋白质结构中最普遍出现的螺旋,p a u l i n g 和c o r e y 在1 9 5 1 年提 出了n 一螺旋状结构为二级构造中的一种型式的假设 2 ,这种结构因为具有天生 的稳定性,而在自然界中可以存在。a 一螺旋状体是一种聚肽类的旋转排列,直链 绕着中心的轴旋转,每一胺基酸从螺旋中以一定形态伸出。此螺旋体每旋转一次 有3 6 个胺基酸,并且螺旋上下两层间与轴平行的距离是5 4 a 。由此可知每一个 胺基酸会有1 5 a ( 5 4 3 5 ) 的上升距离。此种空间结构排列极为严密,使得螺旋 状结构中的氢键位能达到最大。n 一螺旋在序列上具有连续性。即n 一螺旋中残基 的亲疏水性每隔3 4 个残基就有一个周期性的变化。图1 1 是四种n 螺旋的平面 图像表示。 图1 1 四种a 一螺旋的平面图像表示 上海大学硕士学位论文 p a u l i n g 及c o r e y 在1 9 5 1 年同时提出二级构造的另一种型式,称为1 3 折叠结 构或折叠状( p l e a t e ds h e e t ) 的聚肽链排列 3 】。在这种形态中,许多的聚肽链边靠边 紧密接触。这些链借助分子内的氢键而稳定结构。为了要增加链和链之间的最大 氢键数目,聚肽大小必须比完全延展开来的长度略短,使得聚肽类的基干看似皱 起,其形态和折片相似。在b 结构中的支链位置,是在片状的上方或下方,相邻 胺基酸的支链方向互不相同。在折片状构造中的肽链排列,可能是彼此同向平行, 或者是反向平行。在同向平行的结构中,所有的肽链均是由胺基一端排列到羧基 一端的相同方向,而在反向平行的结构中,相邻各链的方向彼此互不相同。b 一 折叠由多肽链上不连续的几个区域( 称为1 3 一折叠片) 构成,其基本单元是b 一折 叠片对,对于反平行的1 3 一折叠片对,氨基酸的类型是亲水性与疏水性交替出现, 对于平行的1 3 一折叠片,中间的残基往往是高度疏水的,亲水的残基集中在两端。 图1 2 是b 一折叠的一种反平行b 一折叠的平面图像。 盈t 2 反平行口一折叠的平面图像 除了a 一螺旋和1 3 一折叠以外的所有结构类型都被称为无规卷曲( l ) ,无规卷曲 主要包括转角、连结和紧密环,他们与规则的二级结构一样稳定。这些结构特征 为二级结构预测提供了基础。 1 3 蛋白质二级结构预测研究方法现状 1 3 1 蛋白质结构的测定 蛋白质结构的测定方法现在一般分为两大类:1 实验方法,2 模拟计算方法, 上海大学硕士学位论文 也就是基于数学理论的计算机模拟预测方法。 实验方法中主要有x 射线衍射法( x r a yc r y s t a l l o g r a p h y ) 和核磁共振法 m m r ) 。x 射线衍射法是利用x - r a y 射向蛋白质晶体,使x r a y 产生绕射,经由 绕射使照相底片曝光而产生一投影图形,再将此绕射图案作分析,画出电子密度 图,经过一连串的计算之后,即可判定出蛋白质的立体结构( 见图1 3 ) 。核磁共 振法将蛋白质在置于外加的极强磁场之下,此蛋白质中组成原子可吸收特定频率 的电磁波,且蛋白质中那些自旋角不为0 的原子核在其所处的不同电场环境之下, 会产生不同的偏移讯号,从此可获得蛋白质的核磁共振光谱,再将此结果加以分 析就可以得到蛋白质结构( 具体工作流程见图1 4 ) 。 图1 3x 射线衍射法 图1 4n m r 测定蛋白质三维结构的基本过程 计算机模拟预测方法比较多,例如同源建模法( h o m o l o g ym o d e l i n g ) 、折叠辨 识法( f o l dr e c o g n i t i o n ) 和重头起算法( a bi n i t i o ) 等。两者相比,前者的准确度更高, 但是按照现在的实验方法,所消耗的人力和物力都相当大,所以要测定自然界这 许许多多的生物体的蛋白质结构显然是不可能的。而如果以后者作为实验参考依 据,那么相对于单纯使用传统实验方法所消耗的人力和物力都相对较少,所以现 在大规模的蛋白质结构测定都会以模拟计算方法产生的结果作为实验的指导。图 1 5 是蛋白质结构研究方法的简单归类。 图15 蛋白质结构研究方法的简单归类 4 上海大学硕士学位论文 蛋白质分子折叠成天然三维结构的全部信息通常被认为蕴藏在蛋白质的一级 结构中【4 】,低级结构对于高级结构起着决定性的作用。但是,除基于知识的蛋白 质三维结构预测外,从一级结构直接预测三级结构至今还没有高精度的方法。蛋 白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构像方面扮演着极其 重要的角色。因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作 用机制,对于正确预测蛋白质的空间结构更具有菲常重要的意义。蛋白质二级结 构预测一直受到重视,是生物信息学研究的重要组成部分。 1 3 2 蛋白质二级结构预测方法现状 近年来,由于人类基因组计划的实施,我们已经获得了完整的人类基因组, 大量的蛋白质和基因数据库也不断的充实起来,摆在研究人员面前的数据量也越 来越大。这一切表明,人们对基因和蛋白质的结构的测定需求越来越大。虽然, 类似于同源建模这样的方法已经非常有效,但是现在仍然没有一种从序列到结构 的预测方法能够完全奏效。所以,研究出一种更完善的二级结构预测方法依然是 摆在我们面前的一道难题。下面我们将详细回顾一下蛋白质二级结构预测的一些 主要方法。 从发展历史看,二级结构预测的方法可以分为三代( t h r e eg e n e r a t i o n s ) 5 ,第 一代的信息来源仅限于序列中的单个残基;第二代的预测算法加入了局部残基间 相互作用的信息;第三代则在第二代的基础上加入了同源序列的信息,所以预测 精度更高。现在人们研究的方法大都属于第三代,它的主要标志是引入了序列联 配过程。本文也将以第三代方法作为研究对象。 预测方法精确度衡量标准: 目前,国际上流行的预测精度计算方法主要是q j 法,其计算公式为 q 3 = 半1 0 。 ( 1 1 ) 其中,足,匕。,分别为正确预测了三种二级结构的残基数,为测试氨基酸序列中 所有残基的数量。本文下面所提到的预测精度就是指9 精度。 c h o u & f a s m a n 方法( 1 9 7 4 ) 6 c h o u 和f a s m a n 根据当时已知二级结构的1 5 个蛋白质序列,测定了每一个 氨基酸在n 一螺旋和b 一折叠中的出现频率,每一个氨基酸根据他们在不同蛋白质 中形成某种结构的能力,被划分成:强形成h 、形成h 、弱形成i 、无关i 、破坏 b ,强破坏b 六种角色。具体分配如表1 2 ,其中p 表示该氨基酸的倾向因子,定 量表示形成能力的大小。 c h o u & f a s m a n 方法具体的执行过程为: 上海大学硕士学位论文 假设序列中的每个残基若不是n 一螺旋则就是1 3 一折叠; n 一螺旋规则:相邻6 个残基中若有至少4 个残基强倾向形成或倾向形成n 一 螺旋,则认为形成a 一螺旋核心;然后向两端延伸,直至四肽片段的n 一螺旋 倾向性因子平均值小于1 0 为止。b 一折叠规则:相邻5 个残基中若有3 个倾 向于形成一折叠,则认为形成b 一折叠核心;然后向两端延伸至4 个残基的平 均b 一折叠倾向性小于1 0 。若延伸后的片段平均b 折叠倾向大于1 0 5 则预 测为b 折叠。c h o u & f a s m a n 方法的预测精度只能达到5 0 。 表1 2 二十种氨基酸的c h o u f a s m a n 参数 a 螺旋参数b 折叠参数 氨基酸残基 p a 能力强弱氨基酸残基 p 8 能力强弱 g l u ( ) 1 5 1hv 甜1 7 0h m e t1 4 5hi l e1 6 0h a 1 a1 4 2h t y r 1 4 7h l e l l1 2 1hp h c1 3 8h l y s ( + ) 1 1 6h t r p 1 3 7h p h e1 1 3hl e ul f 3 0h g l n1 1 lh c y s 1 1 9h t r p 1 0 8ht l l r1 1 9h i l e1 0 8hg l n1 1 0h v a l1 0 6hm e t1 0 5h a s p ( 一) 1 0 1i a r g ( + ) 0 9 31 h i s ( + ) 1 0 0ia s n0 8 91 a r g ( + ) 0 9 81 h i s ( + ) 0 8 7l 1 1 1 r0 8 3la l a0 8 31 s e r0 7 71s e r0 7 5b c y s 0 7 0bg l y0 7 5b t y r 0 6 9b l y s ( + ) 0 7 4b a s no 6 7bp r o0 5 5b p r o0 5 7b a s p ( 一) 0 5 4b g l y 0 5 7b g l u ( - ) 0 3 7b g a r n i e r ,o s g u t h o r p e r o b s o n ( 1 9 7 8 ) ( g o r 方法) 7 g o r 方法是为了提高c h o u & f a s m a n 方法的预测精度而发展出来的。g o r 方法利用了信息论的原理,增加了已知结构的蛋白质的范围,它不仅考虑了一个 残基在个特定片断中的相对发生频率,也非常重视每一个数据的精度。对已知 结构的蛋白质分析方法如下: 上海大学硕士学位论文 如果一个残基片断中存在某种特定的氨基酸,那么g o r 就会对形成某种二 级结构的几率进行测算。例如,计算一个长为3 个氨基酸的残基片断,并且含有 天冬氨酸( a s p ) 的形成a 一螺旋的几率。 初始的g o r 方法只能达到5 5 的预测精度,但是如果采用现今的数据库作为 分析集,那么预测精度可以达到6 4 7 。 l i m 方法( 1 9 7 4 1 8 这套理论是建立在包裹多肽链的基础上,例如:a 一螺旋会和蛋白质多肽链主 干接触,主肽链需要有疏水性边,疏水的残基就会朝向内部,包裹得很紧。这个 方法,给每个氨基酸定义了亲水性、疏水性和过道。方法的优点在于它是基于蛋 自质的物理化学性质的。缺点在于非常复杂很难让入们接受,而且l i m 方法也非 常难以用计算机实现。 q i a n s e j n o w s k i ( 1 9 8 8 ) 9 q i a n 和s e j n o w s h 在1 9 8 8 年第一次成功地利用人工神经网络对蛋白质二级结 构进行了预测。他们的网络结构为一个完全连通的单隐层网络( 见图1 6 ) 。输入 层使用一个长度为2 m + 1 个氨基酸的局部输入窗口( 编码序列是围绕中心残基周围 各m 个共2 m + i 个残基) 。输出层由三个单元组成,通过s i g m o i d 型函数进行放大 输出,三个输出分别表示中心残基的h ( a 一螺旋) 、e ( b 一折叠) 和c ( 无规卷曲) 状态。其编码方式称为正交编码( o r t h o g o n a le n c o d i n g ) ,即每个残基由2 1 个神经 元编码( 2 0 种氨基酸残基及代表n 、c 端的空输入) 。输入层中编码个残基的2 1 个神经元只有一个处于激发状态,即编码该残基的神经元输出为l ,其它输出为0 。 类似地,代表中心残基二级结构状态的输出单元的期望值为1 ,其它的为0 。q i a n 等用一个包含1 0 6 个蛋白质结构的学习集训练神经网络,并预测与学习集里蛋白 质无明显同源性的序列的二级结构。使用这种方法,可以达到的准确度为6 4 3 , 明显高于传统的统计方法。由于使用了局部输入窗口,没有加入联配信息,所以, 这个方法只弓l 入了局部的序列信息。 田 0 do 叶口u + t ,t 、 a ,z 。a 日譬。a 目。口x o 嗣。口z i 喇t 臣丑至江至【三口田玉殂 s 柏u - f k 时酬f 竹a c i c 址 图1 6 q i a n 和s e j n o w s k i 的神经网络结构图 上海大学硕士学位论文 d s c 方法( 1 9 9 6 ) 1 0 这个算法运行于g o r 算法之上,但是又另外加入了一些外带参数,以求能 够得到富有实际意义的预测结果,例如:在某个位置插入和删除的参数,某个位 置离序列结尾的距离参数,保守位置参数和疏水性位置参数,将这些参数做线性 组合,所得的结果就是经过函数过滤的结果。该算法的9 精度为7 0 1 。 p r e d a t o r ( 1 9 9 6 ) 1 1 f r i s h m a n 与a r g o s 在1 9 9 6 年发表的文章中提出了p r e d a t o r 算法,对若干4 0 0 个b p 长度的氨基酸序列形成a 一螺旋和b 一折叠的倾向性进行了研究,它也包含了 对序列非局部的相互作用的统计。同时,他们利用最近相邻法分别得到了三种二 级结构的概率,为了使用同源蛋白质的信息,p r e d a t o r 算法使用了局部的成对联 配信息。值得注意的是,p r e d a t o r 算法可以使用c l u s t a l 联配的结果作为输入集。 p r e d a t o r 算法的精度为6 8 一7 5 ,这在当时甚至是现在都是一个非常令人满意的结 果,所以至今p r e d a t o r 算法还在被广泛使用,是现今比较流行的预测方法之一。 n n s s p ( 1 9 9 5 ) 1 2 s a l a m o v 和s o l o v y e v 在1 9 9 5 年发表了n n s s p ( n e a r e s t n e i g h b o r s w i t hn e u r a l n e t w o r kp r e d i c t i o n ) ,这种方法是基于最近相邻法的,最近相邻法的基本思想是: 从已知二级结构的蛋白质中取出相似部分,用来预测一段测试序列的中央残基的 二级结构,所利用的信息是对每一个相似片断,根据它们与待预测片断的相似程 度的不同来打分。相似程度一是用序列相似来衡量,二是根据形成各种类型的倾 向性大小来衡量。n n s s p 由于采用了环境分数的方法,并且结合了人工神经网络 方法产生了许多对于预测结果极具影响力的参数,例如:环境分数、最近相邻距 等等,这些在当时都是非常具有创意的,也对以后的工作产生了很大的影响,在 后来的改进算法中,他们在预测方法中还引入了多重序列联配的结果。 p h d ( p r o f i l e n e t w o r k f r o mh e i d e l b e r g ) 1 3 1 4 这是由德国的r o s t 和s a n d e r 在1 9 9 3 年提出来的。该方法在q i a n 和s e j n o w s k i 方法的基础上引入了其它机器学习技术,包括学习过程中的早停( e a r l ys t o p p i n g ) 、 不同网络的整体平均以及为补偿低相似性数据偏差而使用的权重法。他们用一个 三层前馈神经网络作为模型的主要框架,训练集采用r s l 2 6 蛋白质集合,这其中 包括1 2 6 条长度大于8 0 b p ,并且成对联配的相似性低于2 5 的球蛋白以及4 条膜 蛋白。低相似性使得预测网络能够适合更多的蛋白质家族,而膜蛋白的加入,使 网络的鲁棒性得到提高。在预测前,他们用多重序列联配获得了更多的进化信息 和蛋白质家族信息,这使得整个系统的预测精度提高了6 - 8 。这是p h d 预测 系统中最为关键的地方。运用这套系统对蛋白质三种类型的二级结构( o 一螺旋、 上海大学硕士学位论文 6 一折叠和无规卷曲) 的预测精度达到了7 2 ,而且近年来随着p h d 方法的不断 改进,预测精度还在不断的提高。由于p h d 方法也使用到了多重联配的信息,所 以p h d 方法是典型的第三代方法。 j p r e d ( 1 9 9 8 ) 1 5 其实,严格地说j p r e d 是一个服务器,由六个预测方法所组成,而且以主要 的结果为根据去一致性的回复预测。当要处理巨大的数据时,这个服务器的六个 预测方法自动地产生输入以及输出,这是一个很重要的特征。j p r e d 的输入序列可 以是在f a s t a 或p i r 格式下的单一的序列、一套无排列的p 取格式序列以及m s f 或b l c 格式的多序列排列。在单一序列的例子中,服务器首先藉由运行b l a s t p 的o w l 数据库搜寻,产生出一套相似序列,这个序列经s c a n p s 过滤,然后经 a m p s 做联配,最后成团的序列集用7 5 的c u t o f f 值去移除此序列集的偏差,而 且用c l u s t a lw 将剩余序列去做排列 1 6 。j p r e d 服务器上运行p h d 、d s c 、 n n s s p 、p r e d a t o r 、z p r e d 和m u l p r e d 方法,从j p r e d 服务器而来的结果 可以用文本文件在电子邮件中得到回复;连结在h t m l 或是p o s t s c r i p t 文件格式 中,也提供一个可以看见颜色的文字图解描述,j p r e d 服务器的预测在三个结构状 态中有7 2 9 9 6 的正确性。它的服务器地址是: 鱼丛b ;! 凸婴q 堡2 b i q :g 趔:l 丝:丛型= y d 3 6 1 i 卫建亟。 p s i p r e d ( 1 9 9 9 ) 1 7 p s i p r e d 的方法发展于u n i v e r s i t yo fw a f t c k ,u k ,利用从输入序列的 p s i b l a s t 搜寻推论的信息去执行预测,p s i b l a s t 被称为位点特异性反复 b l a s t 的算法。p s i b l a s t 的特色是每次用p r o f i l e 搜索数据库后再利用搜索的 结果重新构建p r o f i l e ,然后用新的p r o f i l e 再次搜索数据库,如此反复直至没有新 的结果产生为止。p s i p r e d 利用两个f e e d f o r w a r dn e u r a ln e t w o r k 去执行从 p s i b l a s t 而来的p r o f i l e 分析,从p s i p r e d 预测的结果在电子邮件的留言中可 以当作原文档案来答复给请求者。除此之外,在电子邮件的留言中也可以提供二 级结构预测的文字图解描述。在这个描述中,h e l i c e s 和s t r a n d s 的位置可以在目标 序列上用图表的方式去呈现,p s i p r e d 在结构上平均的预测正确率为7 6 5 ,高 过于其它被描述的方法。在2 0 0 3 年的s a r s 病毒分析热潮中,p s i p r e d 的表现 异常出色,病毒研究人员多采用这种方法把预测出的结果作为实验指导。 除了以上介绍的这些预测方法之外,还有许多方法。例如:s s p r e d 1 8 、 n n p r e d i c t 1 9 、s o m p a 2 0 等,原理与上述的方法都有相似之处,所以这里不 再敖述。 表1 3 清楚地列出了以上所述方法的详细分类情况。 上海大学硕士学位论文 表1 3 二级结构预测方法分类情况 物理化学性质 基于神经 单残基统计方法最近相邻法网络的预测 方法 方法 第一代预 测方法( 预 c h o u & 测信息来 自于单序 f a s m a nl i m 列中的单 g o r l 残基) 第二代预 测方法( 加 g o r 3 q i a n & 入了局部 s e j n o w s k i 信息) 第三代预 p r e d a t o rn n s s p 测方法( 加 入了来自 p h d 、 同源序列 d s c j p r e d 、 的信息) p s i p r e d 1 4 本文主要研究的内容 本文主要致力于对神经网络运用于蛋白质二级结构预测的方法研究,主要的 研究对象是p h d 方法,通过对p h d 方法的分析、理解,采用改变序列p r o f i l e 的 产生方式,从新的角度上探索使用更好的联配算法对提高二级结构预测精度的有 效性,并且利用一种己知的全局优化方法,改善了p h d 方法中梯度下降算法可能 陷入局部极小点的局限性。这些内容在本文第三章中会详细的阐述。 上海大学硕士学位论文 2 。1 人工神经网络概述 第二章人工神经网络 2 1 1 神经元模型的提出 “人工神经网络”( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 是在 对人脑组织结构和运行机智的认识理解基础之上模拟其结构和智能行为的一种 工程系统。早在本世纪4 0 年代初期,心理学家m c c u l l o c h 、数学家p i t t s 就提出 了人工神经网络的第一个数学模型,即m p 模型 2 1 ,从此开创了神经科学理论 的研究时代。其后,f r o s e n b l a t t 、w i d r o w 和j j h o p f i e l d 等学者又先后在m p 模 型的基础上提出了感知模型,并且给出了网络稳定性的判据,使得人工神经网络 技术得以蓬勃发展。 我们知道人工神经网络模型来自于神经系统的解剖学结论,神经系统的基本 构造是神经元( 神经细胞) ,它是处理人体内各部分之间相互信息传递的基本单 元。据神经生物学家研究的结果表明,人的大脑一般有1 0 ”l o ”个神经元。每 个神经元都由一个细胞体,一个连接其他神经元的轴突和一些向外伸出的其它较 短分支树突组成。轴突的功能是将本神经元的输出信号( 兴奋) 传递给别的神 经元。其末端的许多神经末梢使得兴奋可以同时传送给多个神经元。树突的功能 是接受来自其它神经元的兴奋。神经元细胞体将接受到的所有信号进行简单地处 理( 如:加权求和,即对所有的输入信号都加以考虑且对每个信号的重视程度一 一体现在权值上有所不同) 后由轴突输出。神经元的树突与另外的神经元的 神经末梢相连的部分称为突触,如图2 1 。 树突:获樗输 神经元细胞体:处理输入信息 轴突:将处理信号辅出 神经末捎:将输出信号幢递 绐萁他神经元 图2 1 神经元简单结构图 1 1 上海大学硕士学位论文 这样就很容易得到神经元的基本模型感知器( 如图2 2 ) 2 2 。设它的输入状 态向量为 x “= ( x l ,x 2 ,x h ) ,工,r 其中每个输入分量工。为第j 个神经元的输出状态,我们记 “= ( l ,2 ,盘k ) 为权向量,其中,为第i 个神经元与感知器的连接权系数a 设感知器的输出为z ,z 取0 或1 ,分别代表抑制与兴奋, 规则受其他神经元的制约, n z = s ( e 国。x 。一是) , i = 1 则z 的状态按下述 ( 2 1 ) 其中h 为该感知器的阈值,厂 ) 被称为激励函数,是介于一1 与+ 1 之间的单增函 数,通常取为阶跃函数,即 f ( u ) = 毙蒜(2 2 ) ) = ox 0 为学习步长 ( 2 6 ) 阈值: 玩o + 1 ) = h a t ) 一卵万( r )叩 0 ; 修正隐层权值: ;( f + 1 ) = 蟛0 ) + 叩劈o ) x f ( r ) 7 7 0( 2 7 ) 阈值:h j ( t + 1 ) = ,( ,) 一叩醪( f ) 叩 0 ; 转到进行新一步迭代训练。 由于b p 网络及误差逆传播算法具有中间隐含层并有相应的学习规则可寻, 使得它具有对非线性模式的识别能力。特别是其数学意义明确、步骤分明的学习 算法,更使其具有广泛的应用前景。目前,在手写字体的识别、语音识别、文本 语言转换、图像识别以及生物医学信号处理方面已有实际的应用。 但b p 网络并不是十分的完善,它存在以下一些主要缺陷: i )目标函数存在局部极小点; i i )过拟和问题: 1 8 上海大学硕士学位论文 i i i )学习收敛速度太慢; i v )网络的学习记忆具有不稳定性,即:当给一个训练好的网提供新 的学习记忆模式时,将使已有的连接权值被打乱,导致已记忆的 学习模式的信息的消失。 对于这些缺陷的一些解决方法: i )对目标函数选用全局收最优化方法,例如模拟退火、遗传算法等。 i i )采用训练集的交叉验证的方法,避免过拟和问题。 i i i )采取某些加速收敛的措施,例如加入动量项,而实际中更常用的 是对每个样本修改,即自适应算法,当每次样本是随机选取时, 可通过随机逼近理论证明该算法也是收敛的。特点是收敛速度 快。为了使得算法稳定,可以使用批处理与自适应相补充的算法, 即选取一组样本( 远小于全部样本) 进行计算梯度并进行修正, 其它不变。 2 3 小结 从第一章我们知道,由于现在实验数据的不断增加和累积,人们已经不满足 于花费巨大的人力和物力去获得重要的生物规律,对于后基因组时代的数据智能 化处理的要求越来越高。在蛋白质二级结构预测的问题中,大量已经存在二级结 构数据使得我们预测未知的蛋白质结构成为可能。从本章中我们得知人工神经网 络的预测、归类和辨别的能力使得它能够适应许多行业的应用计算需要。它具有 很强的不确定性信息处理能力,具有很好的抗干扰能力。神经网络的数据并行处 理能力对于大数据量处理也能很好的胜任。因此,人工神经网络非常适合应用到 蛋白质二级结构的预测工作中去。 1 9 上海大学硕士学位论文 第三章优化p h d 方法 3 1p h d 方法概述 2 0 世纪六十年代至七十年代发展起来的第一代预测方法基本上是基于单个 氨基酸信息的,而到九十年代初之前第二代预测方法主导着蛋白质二级结构预测 领域的方向,第二代方法主要是基于3 5 1 个比邻残基的信息,只要是能够想象 得到的理论算法都开始应用于蛋白质二级结构预测问题。但是这时的预测精度始 终只能达到稍高于6 0 的程度,造成这种极限的原因在于局部序列信息的局限性 3 2 。 为了避免这种局限,从而能够提高预测精度,九十年代初的第三代预测方法 引入了更多的序列信息,其中最具代表性的是1 9 9 3 年r o s t 和s a n d e r 建立的一 套将人工神经网络算法和多序列联配信息相结合的p h d 方法体系,使得对于二 级结构预测的精度超过了7 0 1 3 ,这意味着神经网络方法应用在蛋白质二级结 构预测领域达到了一个新的阶段。下面我们简述一下p h d 方法的训练和预测原 弹。 3 1 1 训练原理: 1 训练集处理 p h d 方法的训练集采用r s l 2 6 蛋白质集合,这个集合中包括了p d b 数据库 中1 2 6 条长度大于8 0 b p ,并且成对联配的相似性低于2 5 的球蛋白以及4 条膜蛋 白,序列的低相似性使得预测网络能够适合更多的蛋白质家族,而膜蛋白的加入 使网络的鲁棒性得到提高。p h d 方法将训l 练集分成七个部分( 1 0 8 + 1 8 ) ,在每一 轮训练中有1 0 8 条序列作为训练用,1 8 条作为验证用,一共进行七轮训练,这 样每一条训练样本至少得到一次训练机会和一次验证机会,这种训练方法h 做七 重交叉验证 1 3 。训练集分组情况见表3 1 。 表3l 七重交叉验证分组情况表,表中所有蛋白质名称是p d b 数据库格式 s e ta2 5 6 b - a2 a a t 8 a b p 6 a c nl a c x8 a d h3 a i t1 a k 3a 2 a l p9 a p i a9 a p i b l a z u3 b 5 c 1 b b p a 1 b d s l b m v l 1 b m v _ 2 s e tb3 b l m 4 b p 2 2 c a b? c a tai c b hl c c 5 2 c c ya 1 c d 4 l c d t _ a3 c l a 3 c l n4 c m s 4 c p a _ i6 c p a6 c p p4 c p v 1 c r n1 c s e6 c t s 2 c y p5 c y t l e c a 上海大学硕士学位论文 s e tc6 d f r3 e b x5 e r 2el e t u i f c 2 一c i f d l h 1 f d x i f k f 2 f n r2 f x b i f x i a 4 f x n 3 9 a p _ a2 9 b p2 9 c ri g d l 0 2 9 l s _ a2 9 n 5i g p a s e td4 9 r l i m p 6 h i r3 h m “3 h m g b2 h m z a5 h v p _ a2 i i b 3 i e b 7 i c dl i l 8a9 i r l sb1 1 5 8 1 l a p 5 1 d h2 1 h 4 2 1 h b1 i r d3 s e te2 1 t n a2 1 t n b5 1 y z i m c p l 2 m e v 一4 2 0 r i l1 0 v o _ ai p a z 9 p a p2 p c y4 p f k3 p g m2 p h hi p y p1 r 0 9 22 p a b a s e tf2 m h ui m r t i p p ti r b p i r h d 4 r h v 一14 r h v 一34 r h v 一4 3 r n t7 r s a 2 r s p a is 0 11s d h a4 r x n 4 s g b i s e tg1 s h l2 s n s 2 s o d b 2 s t y 2 t g p i1 t g s i3 t i m a6 t m n e 2 t m v pl t n f - a4 t s i _ al u b q2 u t ga9 9 w a _ a2 w r p _ rl w s y a l w s y b4 x i a a2 t s c 册a 2 训练框架: p h d 方法用一个三层的前馈神经网络作为模型的主要框架,对于每一条蛋 白质,p h d 方法先用b l a s t 搜索s w i s s p r o t 数据库筛选出相似性序列,在 用m a x h o m 方法作多序列联配,得到每条序列的每个位点在数据库中的p r o f i l e 信息,这里的p r o f i l e 是指在根据每条序列搜索出的相似性序列中,在每一个相 同位点上每种氨基酸( 共2 0 种) 的出现频数。这样就相当于把训练集的序列信 息和联配信息结合在一起进行了编码。利用这些频数作为神经网络的输入部分, 开始训练网络。p h d 系统流程见图3 1 。 可以看出,p h d 引入多序列联配是非常重要的一环,因为预测方法可以从 多序列中比单序列中得到更多的信息。例如,可以预先知道哪些是保守的残基位 置,从而可以以更高的概率得到该位置的二级结构类型。又例如,假设我们联配 后,在某单条序列的某一位置出现a l a ,那么我们可以猜测该位置容易出现分子 量较小的氨基酸类型( 因为a l a 属于小氨基酸) ,我们还可以猜测该位置容易出 现疏水性的氨基酸类型( 因为a l a 属于疏水性的氨基酸) ,但是我们并不能肯定 猜测的正确性。但是如果我们经过多重序列联配得到以下结果, 一一一s 一一一 一一一a 一一一 一一一a 一一一 一一s 一一一 那么我们可以证实该位置应该出现小氨基酸,而出现疏水性氨基酸的概率是 5 0 ,因为s e r 是小氨基酸,但不是疏水性氨基酸。所以把这些通过联配得到的 信息编码到神经网络的输入信息里,可以提高网络对于这些信息内部关联的敏感 2 l 上海大学硕士学位论文 度,从而也提高了网络的预测精度。 图3 1p h d 系统流程图 p h d 的结构分为三层:序列信息一结构信息层,结构信息一结构信息层,陪 审团判别系统。每一层都是一个三层b p 网络,每一层间的输出就是下一层的输 入,都
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版高科技环保型泥土运输合作协议
- 诸城消防知识培训基地课件
- 2025的企业资产抵押合同
- 2025【合同范本】租房合同范本下载
- 语言文字知识培训会课件
- 语文业务知识培训心得
- 六年级观后感隐形的翅膀观后感71200字13篇
- 怎么写端午节作文150字(14篇)
- 诗经氓课件教学课件
- 互联网软件定制开发服务合同书
- 水土保持员培训课件
- 第三类商标租赁合同范本
- 海上平台油泵智能监控系统设计
- 《欧洲签证知识培训》课件
- 高一上学期数学人教A版(2019)必修第一册教材例题+练习+课后习题
- 《矿物学》全套教学课件
- 部编版四年级上册语文第一单元大单元教学设计
- 小孩办身份证的委托书范本
- 7-乡土中国-思维导图(各个章节)
- 从文学到电影智慧树知到期末考试答案章节答案2024年山东大学
- AQ/T 1119-2023 煤矿井下人员定位系统通 用技术条件(正式版)
评论
0/150
提交评论