(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf_第1页
(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf_第2页
(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf_第3页
(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf_第4页
(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机软件与理论专业论文)基于神经网络的蛋白质二级结构预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕:七学位论文 摘要 蛋白质二级结构预测问题是生物信息学的重要问题之一。本文对蛋白质二 级结构预测问题进行了研究,建立了蛋白质二级结构预测数据库。研究了蛋白 质的基本组成成分氨基酸的编码方式。基于c p n 神经网络建立了单神经网路和 多神经网络的预测模型。并利用它们对蛋白质二级结构进行了预测研究。其主 要研究内容和成果如下: ( 1 ) 人工神经网络的研究 论文对神经网路的建模方法进行了理论分析探讨,得出概率神经网络、 g m d h 网络、l v q 网络、c p n 网络适合用来进行蛋白质二级结构预测,但由 于不同网络的形成的机制不同,对于处理本文所使用的编码数据时,会产生不 同的问题。因此,在进行了不同方法的具体实验之后,总结出了效果最好的一 种网络结构p n 网络结构。 ( 2 ) 蛋白质二级结构评测数据库的建立 论文首先从同源蛋白质数据库( h o m o l o g yd e r i v e ds e c o n d a r ys t r u c t u r eo f p r o t e i n s ,简称h s s p ) d p 提取出3 6 个蛋白质文件:针对其包含复杂的数据形式, 设计了一个提取数据的方法,对蛋白质数据进行预处理,提取出氨基酸序列。 建立了由这些氨基酸序列构成的数据库。为蛋白质二级结构预测打下了良好的 基础。 ( 3 ) 5 种氨基酸编码方式的比较研究 论文针对正交编码、5 位编码、c o d o n ( 基本型) 编码、c o d o n ( 扩展型) 编码及p r o f i l e 编码等5 个常用的编码方法。利用c p n 神经网络,建立了蛋白 质二级结构预测的评测模型。运用该模型研究分析了这5 种编码方式对蛋白质 二级结构预测精度的影响。结果表明,用富含“生物进化信息 的p r o f i l e 编码 方式可以得到较高的预测结果。 ( 4 ) 基于多神经网络的蛋白质二级结构预测模型 论文提出了一个由7 个c p n 神经网络组合成的多神经网络的蛋白质二级结 构预测模型,该模型采用“p r o f i l e 编码方式和氨基酸间的“距离纾为激励输 v 上海大学硕士学位论文 入信息,对蛋白质二级结构进行了预测。论文对从3 6 个蛋白质提取的共4 0 0 0 个氨基酸的进行了预测研究和分析。结果表明,本文的多神经网络优于z h u 等 人提出的多神经预测模型【1 9 】,它把蛋白质二级结构预测的平均精度从6 6 1 5 0 2 【1 9 】提高到8 3 8 9 0 3 。 关键词:氨基酸序列编码,蛋白质二级结构,人工神经网络,c p n 神经网络,多神经网络 上海大学硕士学位论文 a b s t r a c t p r o t e i ns e c o n d a r ys 扛u c t u r ep r e d i c t i o nq u e s t i o ni so n eo fb i o l o g i c a li n f o r m a t i o ns t u d y i m p o r t a n tq u e s t i o n s t h i sp a p e rh a sr e s e a r c h e dp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o nq u e s t i o n a n de s t a b l i s h e dt h ed a t a b a s eo fp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n ,a n dh a ss t u d i e dt h e e n c o d i n gm e t h o do fb a s i cc o m p o n e n ta m m oa c i do fp r o t e i n a tl a s tt h i sp a p e re s t a b l i s h e dt h e s i n g l en e u r a ln e t w o r ka n dt h em u l t i n e r v en e t w o r kp r e d i c t a b l em o d e lb a s e do nt h ec p nn e u r a l n e t w o r k u s i n gt h e m , w ec o n d u c t e dt h er e s e a r c h a b o u tp r e d i c t0 1 1t h ep r o t e i ns e c o n d a r y s t r u c t u r e t h i sp a p e r sm a i nr e s e a r c hc o n t e n ta n da c h i e v e m e n ta sf o l l o w s : a f t e ra n a l y s i s i n ga n dr e s e a r c h i n gt h em o d e l i n go ft h en e u r a ln e t w o r k s ,c o n c l u d e dt h a t p r o b a b i l i t yn e t w o r k , g m d hn e t w o r k , l v qn e t w o r k , c p nn e t w o r kc a na d a p tt ot h en e e d so f p r e d i c t i n gp r o t e i ns e c o n d a r ys t r u c t u r e b u td u et ot h ed i f f e r e n c eo ft h em e c h a n i s mi nd i f f e r e n t f o r mo ft h en e t w o r k s ,w ew i l lm e e tt h e d i f f e r e n tq u e s t i o nw h e nu s i n gt h ec o d e sm e t h o d st h e p a p e rm e t i o n e d s oa f t e rs p e c i f i ce x p e r i m e n t i n g 谢t hd i f f e r e n tm e t h o d s ,w ec o n c l u d et h a tt h e c p nn e u r a ln e t w o r ks t r u c t u r ei st h em o s te f f i c i e n tn t 咖r a ln e t w o r ks t r u c t u r et op r e d i c tp r o t e i n s e c o n d a r ys 1 嚏 u c t u r e ( 2 ) e s t a b l i s h m e n to ft h ep r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o nd a t a b a s e t h i sp a p e rf i r s t l yw i t h d r e w3 6p r o t e i n sf r o mt h eh o m o l o g o u sp r o t e i nd a t a b a s e ( h o m o l o g y d e r i v e ds e c o n d a r ys t r u c t u r eo fp r o t e i n s ,i sc a l l e dh s s p ) w i t hav i e wt ot h ec o m p l e xd a t af o r m i nt h e m ,t h i sp a p e rd e s i g n e dam e t h o dt ow i t h d r a wt h ed a t a ,a n dc a r r i e do nt h ep r e t r e a t m e n tt ot h e p r o t e i nd a t a ,w i t h d r e w t h ea m i n oa c i ds e q u e n c e s i n c et h i sp a p e re s t a b l i s h e dt h ep r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o nd a t a b a s et h a tc o n s t i t u t e sb yt h e s ea m i n oa c i ds e q u e n c e s t h i s d a t a b a s eh a sb u i l tt h eg o o df o u n d a t i o nf o rp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n ( 3 ) 5k i n do fa m i n oa c i d se n c o d i n gm e t h o dc o m p a r i s o nr e s e a r c h h i - v i e wo ft h eo r t h o g o n a lc o d e ,5c o d e , c o d o n ( b a s i c ) c o d e , c o r l o n ( e x p a n s i o n ) c o d ea n dt h e p r o f i l ec o d ea n ds oo n5c o m m o n l yu s e dc o d e sm e t h o d s u s i n gt h ec p nn e r v en e t w o r k ,t h i sp a p e r e s t a b l i s h e dt h ee v a l u a t i o nm o d e lo fp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n a tt h es a m e v i i 上海大学堡兰竺垒苎 t i m e ,u s i n gt h i sm o d e l ,t h i sp a p e rh a sa n a l y z e dt h e i n f l u e n c eo ft h e s e 5e n c o d i n gm e t h o dt o p r e c i s i o no f p r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n t h er e s u l ti n d i c a t e dt h a t ,t h ep r o f i l ee n c o d i n gm e t h o dt h a ti sr i c hi n ”t h eb i o l o g i c a le v o l u t i o n i n f o r m a t i o n ”m i g h to b t a i nt h eh i g h e rp r e d i c t a b l er e s u r ( 4 ) t h em o d e lo f p r o t e i ns e c o n d a r ys t r u c t u r eb a s e do nt h em u l t i - m o d a ln e u r a ln e t w o r k t h i sp a p e rp r o p o s e dam u l t i - m o d a ln e u r a ln e t w o r kp r e d i c t a b l em o d e lt h a ts y n t h e s i z e sb y7 c p nn e u r a ln e t w o r kg r o u pi np r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n , t h i sm o d e lu ”p r o f i l e ” e n c o d i n gm e t h o da n d t h ed i s t a n c e b e t w e e nt h ea m i n oa c i df o rt h ee x c i t o r yi n p u ti n f o r m a t i o n , h a sc a r r i e do l lt h ep r e d i c t i o nt ot h ep r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n t h i sp a p e rh a s c o n d u c t e dt h ep r e d i c t i o nr e s e a r c ha n dt h ea n a l y s i so nt h ea l t o g e t h e r4 0 0 0a m i n oa c i d st h a tw e r e w i t h d r e wf r o m3 6p r o t e i n s t h er e s u l ti n d i c a t e dt h a t , t h em u l t i - m o d a ln e u r a ln e t w o r kt h a tt h i sp a p e rp r o p o s e ds u r p a s s e s t h em u l t i - m o d a ln e u r a ln e t w o r kw h i c hz h ua n ds oo np r o p o s e d 【1 9 】,弧m ea v e r a g ep r e c i s i o n w h i c hp r e d i c tp r o t e i ns e c o l l d a r ys 协l c t u r ef r o m6 6 1 5 0 2 。o 1 9 e n h a n c e st o8 3 8 9 0 3 k e yw o r d :a m i n oa c i ds e q u e n c ec o d e ,p r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o n ,a r t i f i c i a ln e u r a ln e t w o r k , c p nn e u r a ln e t w o r k , m u l t i - n e u r a ln e t w o r k v i i i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 日期:型 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名: l i 上海火学硕士学位论文 1 1 引言 第一章绪论 过去十年,d n a 测序技术( s e q u e n c i n g ) 的飞速发展使分子生物学经历了信息 革命时代。这一革命,得益于计算机技术在过去十多年来突飞猛进的高速发展。只 有使用计算机技术,我们才有可能应付日益快速增长的生物信息。2 0 世纪8 0 年代 中期以来,计算机在生物学中的广泛应用孕育了生物信息学这一新兴学科。生物信 息学【1 】这一术语在不同的场合下被赋予了不同的含义。从广义上说,生物信息学可 指利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当 广泛,从人工智能、机器人一直到基因组( g e n o m e ) 分析。就基因组分析这一角度 来看,生物信息学主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来, 蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的 范畴。蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一级 结构中的氨基酸序列最终怎样折叠成三维空间结构的问题。 2 0 世纪6 0 年代,a n f i n s e n 2 j 通过实验发现,变性的核糖核酸酶( r i b o n u c l e a s e ) 可以重新折叠并恢复生物活性。这说明蛋白质一级结构中隐含了编码蛋白质三级结 构的所有信息【3 1 。这一发现,为蛋白质结构预测提供了理论依据。也就是说,在完 全掌握了蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性,预 测其三维空间结构。然而,从一级结构直接预测三级结构至今仍无高精度的方法。 蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演着极 其重要的角色。蛋白质结构数据已经成为生物信息学的主要研究对象之一。生物信 息学关于生物序列研究的工作主要集中在氨基酸序列的研究上,这是因为氨基酸序 列决定了蛋白质的空间结构,而蛋白质的空间结构决定了蛋白质生理功能的多样 性。可以说序列、结构和功能之间的关系密不可分,所以从理论上说它们之间的关 系应该能够通过某种数学的方法表示出来。一旦确定了这种关系,我们就有可能预 测新基因的功能。同时也可以反过来,根据所要达到的功能,来设计我们所需要的 上海大学硕:l 学位论文 蛋白质。因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作用机制, 对于正确预测蛋白质的空间结构更具有非常重要的意义。因此,如何提高蛋白质二 级结构预测的精度是当务之急。 1 2 课题相关领域的研究与发展 蛋白质是由2 0 种氨基酸组成的多聚体,氨基酸之间由肽键相连,由多肽键折叠 形成的蛋白质三维结构远比d n a 双螺旋结构复杂。蛋白质二级结构预测问题自 1 9 5 7 年首次被提出迄今已有5 0 年了。一般认为蛋白质二级结构预测准确率达到8 0 我们就可以基本准确地预测一个蛋白质分子的三维空间结构了【4 1 。 1 2 1 蛋白质二级结构预测的发展 1 9 5 3 年,f r e d e r i c ks a n g e r 第一次测定了胰岛素的氨基酸序列。氨基酸序列又称 为蛋白质的一级结构。蛋白质的三维结构又称为三级结构;1 9 6 0 年,j o h nk e n d r e w 用蛋白质晶体x - r a y 衍射方法,第一次测定了肌血球素的三维结构。传统的生物学 认为,蛋白质的序列决定了它的三维结构,也就决定了它的功能。由于用x 光晶体 衍射和n m r 核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的 功能效率不高,无法适应蛋白质序列数量飞速增长的需要,因此近几十年来许多科 学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,经过多年努力已 经取得了一定的成果,尤其是蛋白质二级结构预测的研究。从细胞分子水平来说, 蛋白质是携带大多生命数基本功能的多肽链。现在人们至少能够合成几十万不同类 型的蛋白质。这些蛋白质实质上是大量的、复杂的生物分子,而这些生物分子又是 由首尾相连的氨基酸序列组成的。蛋白质的氨基酸序列是蛋白质的一级结构,而不 同区域的氨基酸序列所形成局部规范的结构,我们称其为蛋白质二级结构。例如, 螺旋( h e l i c e s ) 结构、薄片( s h e e t s ) 结构和薄片( l o o p ) 结构,蛋白质的三级结 构是通过把若干个二级结构堆积( p a c k i n g ) 在一个或几个区域所形成的结构。二级 结构是指q 螺旋和1 3 折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形 成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形 2 上海大学硕士学位论文 蛋白分为全q 蛋白、全1 3 蛋白、q + 1 3 蛋白和q 1 3 蛋白等四个折叠类型。由于蛋白 质的功能是由它的三级结构决定的,因此,预测蛋白质二级结构是非常有意义的, 它已经成为解决由蛋白质的一级结构( 序列) 预测其空间结构这一问题的最关键的 步骤;同时,对理解二级结构在细胞中的作用也是非常有帮助的。 7 0 年代分别由c h o u 和f a s m a n 、g a s m i e r 等人( g o r 法) 以及l i m 提出的方法 是最常用的方法,根据k a b s c h 和s e n d e r 对6 2 个蛋白质分子检验的结果,上述3 个方法的预测成功率分别为5 0 、5 6 和5 9 。c h o u 和f a s m a n 法被公认为是经 典的二级结构预测方法,这个方法是蛋白质二级结构预测的第一个经验方法。从它 们的预测结果来看,这三种预测方法所取得的预测准确率是很低的。 自从1 9 8 8 年l h o w a r dh o l l e y 和m a r t i nk a r p l u s 提出用人工神经网络来预测蛋 白质二级结构以来【5 】,人工神经网络一直是蛋白质二级结构预测的研究领域中的一 个非常重要的工具【6 。最早使用a n n 在二级结构预测方面取得成功的是q i a n 和 s e j n o w s k i 在1 9 8 8 年所做的工作【8 】。他们的网络结构为一个完全连通的单隐层网络。 而且,与其它各种方法相比来说,应用神经网络已经取得了比较高的预测结果。这 个时期的代表方法有著名的p h d ( p r e d i c t p r o t e i n ) 9 1 方法和s a l a m o v t l 0 1 方法等。 由于蛋白质二级结构预测方法中第一类方法在数学上遇到难以解决的多重极小 值问题】,而第二类方法又受到预测精度的限制,近年来一些科学家提出了一种预 测蛋白质三维结构的新策略,这类方法被称为t h r e a d i n g 方法或折叠类型识别方法, 这一方法的基本思想是假定被预测蛋白质的折叠类型与某一已知结构的蛋白质的 折叠类型相同,这样,蛋白质结构预测的问题就转变为在已知空间结构的蛋白质中, 选取一种被预测序列最可能采取的折叠类型,从而大大减少了预测蛋白质结构的难 度,这一方法已经成功地预测了一些蛋白质的空间结构。除了t h r e a d i n g 方法外, 近年来,国际上一些研究组织还发展了一些从蛋白质的一级结构直接预测蛋白质空 间结构的新方法。这些方法的基本思想是将基于知识的方法与计算化学以及统计物 理学的方法相结合,采用简化的蛋白质模型和根据已知结构的蛋白质所导出的平均 势场,从理论上计算蛋白质的空问结构。这些方法不仅可以从蛋白质的一级结构直 接预测蛋白质的三维结构,而且可以在计算机上模拟蛋白质分子折叠的全过程。目 上海人学硕十学位论文 前,还有一些新方法如遗传算法、模拟退火、多维统计、模糊集合论方法等在蛋白 质结构预测中的应用也正在研究中。通过对一些简单蛋白质分子的模拟研究,这些 新方法已经显示出很强有力的生命力,许多权威人士推测,随着这些新方法的进一 步改进和完善,在今后l o 年内,蛋白质折叠这一分子生物学中的难题将有望得到 解决。 1 2 2 蛋白质二级结构预测的预测方法 在过去的2 0 几年中,科学家已经提出了几十种预测蛋白质二级结构的方法。所 有这些方法都可归类为基于知识的预测方法。预测蛋白质二级结构的算法大多以已 知三维结构和二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预 测方法。还有将多种预测方法结合起来,获得“一致序列总的来说,二级结构 预测仍是未能完全解决的问题,一般对于q 螺旋预测精度较好,对1 3 折叠差些,而 对除q 螺旋和b 折叠等之外的无规则二级结构则效果很差。蛋白质二级结构预测的 方法有三类。一是由已知结构统计各种氨基酸残基形成二级结构的构象趋势,其中 最常用的是c h o u - f a s m a n 法:二是基于氨基酸的物理化学性质,包括堆积性、疏水 性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推 断未知蛋白的二级结构。该方法基于对当时仅有的1 5 个已知三维结构的蛋白质的 统计分析。他们统计了2 0 种氨基酸处于螺旋、片层和卷曲的出现概率,并定义了 构象参数表示对这些状态的相对倾向性。但其准确性只能达到6 5 。究其原因,是 因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还 不够多。基于多序列比对的二级结构预测方法其精度可提高几个百分点。第一个相 对成功的自动化方法称为g o r ( g a r n i e r o s g u t h o r p e r o b s o n ) 方法,该方法基于精 确的统计分析,考虑了氨基酸序列链的每一边一直到8 个残疾的相关性。 其中,第二种属于分子动力学方法,这类方法采用分子力学、分子动力学的方 法,根据物理化学的基本原理,从理论上计算蛋白质分子的空间结构,这类理论计 算方法依据一个基本热力学假定:一个蛋白质分子的溶液中的天然构象相应于热力 学上最稳定、自由能最低的构象,但这一方法目前存在着三个主要问题,首先,用 以描述蛋白质一溶剂系统工程力场和能量函数还和于半定量阶段;其次,数学上还 4 上海大学硕士学位论文 没有有效方法解决能量极小化问题;第三,目前并没有证据证明蛋白质的天然构象 就是全局自由能最小的构象。而其它的两种方法属于基于知识的模式识别预测方 法,模式识别技术。顾名思义,模式识别的基本思想是利用存在于蛋白质序列或结 构中的某些特征模式识别相关蛋白质的性质。如果某一蛋白质序列或结构中的一部 分具有保守性,这种保守性或者与蛋白质的生物活性有关,或者与蛋白质的折叠方 式有关;那么,这种特征模式可以用来识别该蛋白质家族中的新成员。换句话说, 如果将已知蛋白质的特征序列模式和特征结构模式搜集起来,构建成数据库,则可 以用来确定新测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白属 于哪个蛋白质家族。根据与当前蛋白质结构库中的蛋白质的相似性或者同源性来进 行结构的预测,要依赖与蛋白质结构库中的数据的多少。从代数上讲,就是蛋自质 库中的数据是否包含了蛋白质结构空间的所有的基向量,而且这些基向量具体是哪 些,一个新的蛋白质和这些基向量之间的关系系数是怎么确定的,以及是怎么由基 向量来得到结构。而从概率上讲则是蛋白质库中的数据是否已经达到了足够大的样 本量,能够对未知序列进行概率估计。如果确实是存在了足够的样本,则最后预测 就变成了模式识别。c h o u 法之所以现在准确性不高,也是因为用作统计二级结构构 象趋势的蛋白质空间结构数据库中非同源蛋白的数量还不够多。而且由于结构测定 速度的制约,这一数据库容量不足的问题将长期存在。这类方法通过对已知空间结 构的蛋白质进行研究和分析,找出蛋白质一级结构和空间之间的联系,总结出一定 的规律并建立一些经验规则。这类方法已经被成功地应用于同源蛋白质空间结构预 测的研究。然而对于同源性低的和非同源蛋白质分子来说,由于受二级结构预测精 度的限制,这种方法只取得了非常有限的成功。 1 2 3 人工神经网络在蛋白质二级预测中的应用 自从1 9 4 3 年心理学家w m c c u u o c h 和数理逻辑学家w p i t t s 提出第一个简单的 神经网络模型( 即m p 模型) 以后的5 0 多年里,人工神经网络模型( a r t i f i c i a ln e u r a l n e t w o r k ,以下简称a n n ) 一直是数学家重要研究的对象之一。人工神经网络是由大 量的神经元广泛互连而形成的网络,它是层次的网络结构,从本质上来说,人工神 经网络的学习是一种归纳学习方式,它通过大量实例的反复学习,由内部自适应过 5 上海大学硕士学位论文 程不断修改各个神经元之间的连接权值,最终使神经网络的权值分布收敛于一个稳 定的区域。它有许多好的性质:对不完全信息和带有噪音的信息具有良好的自适应 性;尤其是对复杂非线性问题更具有很强的优越性。而在蛋白质二级结构研究领域 里,b p 神经网络一直是被广泛应用的一种学习算法。这种网络分为输入层、隐含 层和输出层。隐含层可以由一层或多层组成。在过去的十几年里,随着人类基因组 计划的实施和生物信息学研究的兴起,a n n 模型已广泛地应用于核酸和蛋白质序 列的预测和分析中。例如,在核酸序列研究中,a n n 模型在原核生物的转录终端 的预测,以及大肠杆菌核糖体结合靶址的识别中都有很好的表现。a n n 也应用在 确定d n a 序列与其性质之间的映射关系的过程中,例如转录控制信号的分析和 d n a 曲率的分析等。蛋白质分子折叠成天然三维结构的全部信息通常被认为蕴藏 在蛋白质的一级结构中【3 】,低级结构对于高级结构起着决定性的作用。但是,除基 于知识的蛋白质三维结构预测外,从一级结构直接预测三级结构至今仍无高精度的 方法。蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演 着极其重要的角色。蛋白质二级结构预测一直受到重视,是生物信息学研究的重要 组成部分。蛋白质二级结构预测从方法的角度上大致可分为四大类;统计学方法、 多重序列联配法、二级结构模体( m o t i f ) 法、a n n 方法。前三种方法由于在预测 精度上不够理想,近几年几乎没有大的发展。而a n n 方法,由于它的方法多样、 适于计算机计算以及精度较好而受到广大研究者的重视。若从方法所涉及的信息挖 掘的层次来看,a n n 方法大致可被划分为三代;第一代的信息来源仅限于序列中 的单个残基;第二代的预测算法加入了局部残基间相互作用的信息:第三代则在第 二代的基础上加入了同源序列的信息,所以预测精度更高。现在人们研究的大都属 于第三代,它的主要标志是引入了序列联配过程。 在生物信息学研究中,应用得最多的a n n 模型是多层前馈网络模型,这种模 型使用最广泛的算法是b p 算法,即反向传播算法。它属于有教师学习的算法。这 种模型也叫b p 神经网络。它也是在其它领域里使用得最广泛的a n n 模型之一。 机器学习算法在蛋白质二级结构预测方面非常成功【1 2 1 ( b a l d i 等1 9 9 8 ) ,这其 中又数a n n 模型最为重要。利用人工神经网络模型预测蛋白质二级结构的基本原 理是利用蛋白质数据库( 如p r o t e i nd a t ab a n k 即p d b 数据库 1 3 1 等) 提供足够的已 6 上海大学硕:l :学位论文 知氨基酸一维序列作为神经网络的训练集样本,( x p ,y e x p = 1 , 2 9j 9 ) ,对其进行 有效编码,输入网络,训练网络各权值参数和阈值参数( c o 。,h ,h 。) ,使得学 - j 目 标e 最小,即网络达到基本稳定。然后取未知蛋白质序列进行预测,若使用已知蛋 白质序列作为测试集,则可以将计算输出与实际观测结果作比较,从而测算该网络 的预测精度。预测精度是衡量算法预测准确度的唯一办法。目前,国际上流行的预 测精度计算方法主要是q 3 法,其计算公式为q 3 = 竺掣i o o 其中, 足,易,;分别为正确预测了三种二级结构的残基数,n 为蛋白质所有残基的数量。 本文下面所提到的预测精度就是指g 精度。 最早使用a n n 在二级结构预测方面取得成功的是q i 趾和s e j n o w s k i 在1 9 8 8 年 所做的工作i b l 。他们的网络结构为一个完全连通的单隐层网络。输入层使用一个长 度为2 m + 1 个氨基酸的局部输入窗口( 编码序列是围绕中心残基周围各m 个共2 m + 1 个残基) 。输出层由三个单元组成,通过s i g m o i d 型函数进行放大输出,三个输出 分别表示中心残基的h ( 一螺旋) 、e ( p 一折叠) 和c ( 无规卷曲) 状态。其编 码方式称为正交编码( o t h o g o n a l e n c o d i n g ) ,即每个残基由2 1 个神经元编码( 2 0 种 氨基酸残基及代表n 、c 端的空输入) 。输入层中编码一个残基的2 1 个神经元只有 一个处于激发状态,即编码该残基的神经元输出为l ,其他输出为0 。类似地,代 表中心残基二级结构状态的输出单元的期望值为1 ,其他的为0 。q i a n 等用一个包 含1 0 6 个蛋白质结构的学习集训练神经网络,并预测与学习集里蛋白质无明显同源 性的序列的二级结构。使用这种方法,可以达到的准确度为6 4 3 ,明显高于传统 的统计方法。由于使用了局部输入窗口,但没有加入联配信息,所以q i a n 的方法 属于第二代的预测算法。 在q i a n 和s e j n o w s k 后的很长的一段时间里,著名的p h d ( p r e d i c t i c t p r o t e i n ) 【9 】 方法在二级结构预测方面起了主导作用,这是由德国的r o s t 和s a n d e r 在1 9 9 3 年提 出来的。该方法在q i a n 和s e j n o w s k i 方法的基础上引入了其他机器学习技术,包括 早停( e a r l ys t o p p i n g ) 、不同网络的整体平均以及为补偿大型低相似性数据偏差而 7 上海大学硕士学位论文 使用的权重法。他们用一个三层前馈神经网络作为模型的主要框架,训练集采用 r s l 2 6 蛋白质集合,这其中包括1 2 6 条长度大于8 0 b p ,并且成对联配的相似性低 于2 5 的球蛋白以及4 条膜蛋白。低相似性使得预测网络能够适合更多的蛋白质家 族,而膜蛋白的加入,使网络的鲁棒性得到提高。在预测前,他们用多重序列联配 获得了更多的进化信息和蛋白质家族信息,这使得整个系统的预测精度提高了 6 - - 一8 1 1 4 】。这是p h d 预测系统中最为关键的地方。运用这套系统对蛋白质三种 类型的二级结构( q 一螺旋、b 一折叠和无规卷曲) 的预测精度达到了7 0 8 。 p h d 的优点在于,利用输入的信息在数据库中进行多序列联配,从而可以得到 进化信息。该方法较其他单个序列信息估算的方法准确度要高出1 0 ,比序列的统 计分析法准确度要高出6 。由于引入了序列联配的过程,显然p h d 方法属于第三 代的预测算法。虽然p h d 方法在一些问题上已经能够达到较好的效果,但是也有 许多人用神经网络与其他算法结合使用,推出新的算法,以求达到更高的精度。1 9 9 4 年,a a s a l a m o v 和v s o l o v y e v t l 0 1 利用改进的人工神经网络和最近相邻法,并且将 q 一螺旋、b 一折叠和无规卷曲对应的n 端和c 端的不同位置引入罚分系统中,同 时还减小了训练基的限制数量,从而减少了计算的时间。尽管在蛋白质二级结构预 测方面并没有超越p h d 方法,但是在序列联配方面所得到的计算精度,确实超过 了当时计算精度最高的多层神经网络方法。到了1 9 9 9 年,他们将最近相邻法作了 进一步改进【1 4 】。用一种可变的最近相邻法与神经网络结合,此方法的关键在于使用 了一条单序列作为询问输入,然后针对二级结构的三种状态,对序列上的每一个位 置都在序列数据库进行联配搜索,预测该位置的二级结构的类型的过程也就是选择 得分最大的联配位置的二级结构类型的过程。通过对含有1 2 4 个非同源蛋白质数据 集的试验表明,精度可以与p h d 方法相当,达到7 1 2 。这个方法的最大优点在于 不需要知道是否同源,若使用多序列联配作为输入,预测精度可达7 3 5 。s a l a m o v 方法也属于第三代的预测算法。 1 9 9 6 年,r i i s 和i o o g h 【”】优化了a n n 学习算法。他们使用权重共享技术对输 入的氨基酸进行重新编码,以降低自由参数的数量。他们还根据一些生物学含义, 为每一种二级结构类型分别设计了不同的网络,例如,对于周期性的q 一螺旋使用 上海大学硕:t 学位论文 输出过滤和整体平均。最后,对于整个单条序列的预测结果在输出层用多重序列联 配和最大熵权重法进行组合。在实际使用中,这种方法与r o s t 和s a n d e r 的p h d 方 法得到的精度几乎是一致的,达到7 1 3 。r i i s 和r , r o g h 方法也属于第三代的预测 算法。 在最近的几年里,蛋白质二级结构预测的方法可说是层出不穷。其中比较具有 代表性的是d t j o n e s 的p s i p r e d t 1 方法。他用了一个基于精确位置得分矩阵的三 层b p 网络来预测蛋白质的二级结构,该得分矩阵是由p s ib l a s t t l 7 1 产生的。尽管 所用的方法非常简单,但是通过c a s p 3 1 8 1 的评估,他所得到的计算结果要优于现 在最为流行的p h d 方法。通过1 8 7 条互不相似的蛋白质的测试,平均g 得分介于 7 6 5 - - - - 7 8 5 之间。p s i p r e d 方法是第三代蛋白质二级结构预测方法的佼佼者。 很明显,第三代的预测方法,即在神经网络训练中加入联配信息,是近几年来 蛋白质二级结构预测方法研究的主要方向,这是因为神经网络的模式识别能力在预 测领域中有很好的表现,并且联配信息体现了网络信息元素的相关性。 1 3 本课题的主要工作 本文首先对氨基酸编码方式进行了比较研究,由于用人工神经网络对蛋白质二 级结构进行预测所用的氨基酸编码方式不尽相同,例如l a m o n t 用的是c o d o n ( 密 码子) 和正交编码( 标准编码) 1 7 1 ,z h u 用的p r o f i l e 编码f 1 9 l ,王龙会用的是5 位编码 t 2 0 l 等。对这几种编码方式来做比较分析它们的优缺点。在体现“公平”的原则下, 我们选用c p n 神经网络来做预测模型。 本文利用c p n 网络,对这5 种氨基酸编码方式的进行研究,并分析氨基酸序列 编码方式对蛋白质二级结构预测精度的影响。实验结果表明:用富含“生物进化信 息 的p r o f i l e 编码方式可以得到较高的预测结果,这也说明了充分利用生物本身 所具有的生物信息,对提高蛋白质二级结构预测精度是非常重要的。 之后,本文针对已经建立起来的预测数据库,运用多神经网络对蛋白质二级结 构进行了预测研究。通过用由7 个c p n 神经网络组合成的“多神经网络( 复合神经 9 上海大学硕上学位论文 网络) 一对蛋白质二级结构进行了预测研究,同时给多神经网络引进了较多的生物 进化信息( e v o l u t i o n a r yi n f o r m a t i o n ) ,即一方面引入了“p r o f i l e ”编码,这 种编码被认为携带了较多的生物信息;另一方面引入了氨基酸之间的“距离”概念。 它体现了输入层临近氨基酸的相互联系和影响。本文通过对从3 6 个蛋白质提取的 共4 0 0 0 个氨基酸的进行了预测研究。结果表明,与经典的m u l t i - m o d a l 1 9 网络相 比,本文提出的多神经网络预测模型把蛋白质二级结构预测的平均精度提高了 1 7 7 4 。 1 0 上海大学硕七学位论文 第二章神经网络概述及建模方法优选 2 1 引言 神经网络是由大量的处理单元( 神经元) 互相连接而成的网络。为了模拟大脑 的基本特性,在神经科学研究的基础上,提出了神经网络的模型。但是,实际上神 经网络并没有完全反映大脑的功能,只是对生物神经网络进行某种抽象、简化和模 拟。神经网络的信息处理通过神经元的相互作用来实现,知识与信息的储存表现为 网络元件互连分布式的物理联系。神经网络的学习和识别取决于各神经元连接权系 数的动态演化过程。 神经网络大体上可以分为四种类型:前向型、反馈型、随机型和自组织竞争型。 神经网络中的两个重要问题是网络的结构和网络的训练算法f 2 1 1 。 2 2 基本神经网络模型 1 神经元结构模型 神经元是神经网络的基本处理单元1 2 2 1 ,一般表现为一个多输入、单输出的非线 性器件,通用的结构模型如图2 1 所示。 上海大学硕: 学位论文 图2 - 1 神经元结构模型 f i g 2 1m o d e lo f n e u r a lc e l ls t r u c t u r e 其中,毛( i = 1 ,2 ,n ) 为该神经元的输入;嵋为该神经元分别与各输入 之间的连接强度,称为连接权值:口为该神经元的阈值,s 为外部输入的控制信号, 它可以用来调整神经元的连接权值,使神经元保持在某一状态;y 为神经元的输出。 神经元的工作过程一般是: a ) 从各输入端接收输入信号; b ) 根据连接权值,求出所有输入的加权和仃: o r = ( 0 i x i + 8 - 8 i f f i l c ) 用某_ 特性函数( 又称作用函数) f 进行转换,得到输出y : y = 厂( 盯) = 厂( ( - 0 1 x i + s - 8 ) 翊 神经元模型常用一阶微分方程来描述,它可以模拟生物神经网络突触模电位随 时间变化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论