




已阅读5页,还剩52页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于神经网络的蛋白质二级结构预测问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京工业大学工学硕士学位论文 摘要 蛋白质二级结构预测问题是生物信息学的重要问题之一。本文对蛋白质二级结构 预测问题进行了研究,建立了蛋白质二级结构预测数据库。研究了蛋白质的基本组成 成分氨基酸的编码方式。基于b p 神经网络建立了单神经网路和多神经网络的预测模 型。并利用它们对蛋白质二级结构进行了预测研究。其主要研究内容和成果如下: ( 1 ) 蛋白质二级结构评测数据库的建立 论文首先从同源蛋白质数据库( h o m o l o g yd e n v e ds e c :d n d a r , s t r u c t u r eo f p r o t e i n s ,简称h s s p ) 中提取出3 6 个蛋白质文件:针对其包含复杂的数据形式,设计 了一个提取数据的方法,对蛋白质数据进行预处理,提取出氨基酸序列。建立了由这 些氨基酸序列构成的数据库。为蛋白质二级结构预测打下了良好的基础。 ( 2 ) 5 种氨基酸编码方式的比较研究 论文针对正交编码、5 位编码、c o d o n ( 基本型) 编码、c o d o n ( 扩展型) 编码及p r o f i l e 编码等5 常用的编码方法。利用b p 神经网络,建立了蛋白质二级结构预测的评测模型。 运用该模型研究分析了这5 种编码方式对蛋白质二级结构预测精度的影响。结果表明, 用富含“生物进化信息”的p r o f i l e 编码方式可以得到较高的预测结果。 ( 3 ) 基于多神经网络的蛋白质二级结构预测模型 论文提出了一个由7 个b p 神经网络组合成的多神经网络的蛋白质二级结构预测模 型,该模型采用“p r o f i l e ”编码方式和氨基酸间的“距离”为激励输入信息,对蛋白质 二级结构进行了预测。论文对从3 6 个蛋白质提取的共4 0 0 0 个氨基酸的进行了预测研 究和分析。结果表明,本文的多神经网络优于z h u 等人提出的多神经预测模型“,它 把蛋白质二级结构预测的平均精度从6 6 1 5 0 2 “”提高副6 8 8 9 0 3 。 本课题得到了国家自然科学基金的支持。 关键词:氨基酸序列编码、蛋白质二级结构、神经网络 北京工业大学工学硕士学位论文 a b s t r a c t p r o t e i ns * - e o n d a r ys t r u c t m ep r e d i c t i o nq n e s t i o ni so n eo f b i o l o g i c a ll “f o n u a f i o ns t u d y i m p o r t a n tq u e s t i o n s ,删sp a p e r h a sr e s e a r c h e dp r o t e i ns e c d 呦s l l u c t u l t p r e d i c t i o nq u e 蛐o n a n de s t a b l i s h e dt h ed a t a b a s eo f p r o t e i ns e e o n d a r ys t r u c t u ”p r e d i c t i o n , a n dh a ss t u d i e dt h e e n c o d i n gm e t h o do f b a s i cc o m p o n e n t a m i n oa c i do f p r o t e i n a tl a s tt h i sp a p e re s t a b l i s h e dt h e s i n g l en e u r a ln e t w o r k a n dt h em u l t i - n e r v en e t w o r kp r e d i c t a b l em o d e lb a s e do nt h eb pn e u r a l n e t w o r k ,u i n gt h e m ,w ec n n d u c t e dt h er e s e a r c ha b o u tp r e d i c to nt h ep r o t e i ns o c o n d a 珂 s t r u c t u r e t 1 1 i sp a p e r sm a i nr e s e a r c hc o n t e n ta n da c l f i e v e m e n ta sf o l l o w s : ( 1 ) e s t a b l i s h m e n t o f t h e p r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o nd a t a b a s e t 扯s p a p e rf i r s t l y 嘶t h d r e w 3 6 p r o t e m s f r o mt h e h o m o l o g o mp r o t e i n d a t a b a s e ( h o m o l o g yd e r i v e ds e c o n d a r ys t r a c r n eo f p r o t e n s i sc a z e dh s s o w i 也a 、i e w t h e c o m p l e x d a t af o r mi nt h e m ,t h i sp a p e rd e s i g n e dam e t h o dt ow i t h d r a wt h ed a 讧a n dc a r r i e do r i t h ep r e t r e a t m e a tt ot h ep r o t e i nd a t a , w i t h d r e wt h ea m i n oa c i ds e q u e n c e s i n c et h i sp a p e r e s t a b l i s h e dt h ep r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o nd a t a b a s et h a tc o n s t i t u t e sb yt h e s ea m i n o a c i ds e q l l g r c e st h i sd a m b a 虻h a sb u i l tt h eg o o df o u n d a 蛄o nf o rp r o t e i ni e c o n d a r ys l t u e l a r e p r e d i c t i o n f 2 15k i n do f a m i n oa c i d se n c o d i n g m e t h o d c o m p a r i s o nr e s e a r c h 1 nv i e wo f t h e o l t h o g o r 面c o d e ,5c o d e 、c o c k ) n ( 洒c ) e o d e ,c o d o n ( e x p a n s i o n ) c o d e a n d t h ep r o f i l el o d ea n ds oo dsc o m m o n l y 啦自dc o d e sm e t h e d t u s i n gt h eb pn e l - v en e t w o r k ,t h i s p a p e r e s t a b l i s h e dt h ee v a l u a t i o nm o d e lo f p r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n a tt h es a l n e t i m e ,u s i n gt h i sm o d e l ,t h i sp a p e rh a sa n a l y z e dt h ei n f l u e n c eo f t h e s e5e n c o d i n gm e t h o dt o p r e c i s i o no f p r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o n t h er e g u hi n d i c a t e di h a lt h ep r o f i l ee n c o d i n gm e t h o dt h a tbr i c hi n ”t h eb i o l o g i c a l e v o l u t i o ni n f o r m a t i o n ”疗u g 壤o n - a i n 妞l h g h e r p r e d i c t a b l e r e s u l t f 3 11 1 1 em o d e lo f p r o t e i ns e c o n d a r ys t r u c t u r eb a s e do n t h em u l t i - m o d a ln e u r a ln e t w o r k 砸s p a p e r l o r o p o s e d am u l t i - m o d a ln e u r a ln e t w o r k p r e d i c t a b l em o d e l t h a ts y n t h e s i z e sb y 7b pn e u r a ln e t w o r kg r o u pi np r o t e i ns e n d a r ys t r u c t u r ep r e d i c t i o n ,锄塞m o d e lu s e ”p r o f i l e 、 e n c o d i n g m e t h o da n d ”t h e d i s t a n c e ”b e t w e e n t h e a 2 i i n o a c i d f o r t h e e x c i t o r y r m p u 主n 南玎n 绚锄, h a sc a r f i 。do f tt h ep r e d i c t i o nt ot h ep r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n ,m sp a p e rh a s c o n d u c t e dt h ep r e d i c t i o nr e s e a r c ha n dt h ea n a l y s i so i lt h ea l t o g e t h e r4 0 0 0f l m i n o i d st h a t w e r ew i t h d r e wf r o m3 6 p r o t e i n s n 】er e s u l ti n d i c a t e dt h a t , t h em u l t i m o d a ln e u r a ln e t w o r kt h a lt h i s p a p e rp r o p o s e d s u r p a s s e s t h em u l t i - m o d a ln e u r a ln e t w o r kw h i c hz h ua n ds 0o n p r o p o s e d ( t 9 i ,矗苦l ea v e r a g e o r e c i s i o nw h i c hp r e d i c tp r o t e i ns e c o n a a t , y s t r u c t u r ef r o m6 6 1 5 0 2 【1 9 】e n h a n c e st o 6 8 8 9 0 3 t h i s t o p i ch a d t h e 蝴vn a t u r a ls c i e n c e sf u n ds u p p o r t k e yw o r d :a i 曲l oa c i ds e q u e n c ec o d e ,p r o t e i ns e c o n d a r yz l r u c t a r ep r e d i c t i o n ,t h en e n r a n e t w o r k 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致i 身 的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谓 意。 签名避 关于论文使用授权的说明 日期:之坐丝厶至形 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论 文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 躲避翩繇罂! 塑 日期:沙枞6 - 够 第1 章绪论 第1 章绪论 1 1 课题的研究背景及意义 本课题是国家自然科学基金资助项目“复杂系统意义下的生物信 息学中若干问题研究“的一部分。 过去十年,d n a 测序技术( s e q u e n c i n g ) 的飞速发展使分子生物 学经历了信息革命时代。这一革命,得益于计算机技术在过去十多 年来突飞猛进的高速发展。只有使用计算机技术,我们才有可能应 付日益快速增长的生物信息。2 0 世纪8 0 年代中期以来,计算机在生 物学中的广泛应用孕育了生物信息学这一新兴学科。生物信息学 这一术语在不同的场合下被赋予了不同的含义。从广义上说,生物 信息学可指利用信息技术管理和分析生物学数据。这就意味着生物 信息学所涉及的范围相当广泛,从人工智能、机器人一直到基因组 ( g e n o m e ) 分析。就基因组分析这一角度来看,生物信息学主要是 指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结 构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信 息学的范畴。蛋白质折叠问题是分子生物学研究的中心课题。它所 要解决的是蛋白质一级结构中的氨基酸序列最终怎样折叠成三维空 间结构的问题。蛋白质的结构级别见表1 。 表1 蛋白质结构级别分类 结构层次特点 北京工业大学工学硕士学位论文 三级结构由二级结构和超二级结构组成,是蛋白质的基本功能单位 2 0 世纪6 0 年代,a n f i n s e n ”3 通过实验发现,变性的核糖核酸酶 ( r i b o n u c l e a s e ) 可以重新折叠并恢复生物活性。这说明蛋白质一级 结构中隐含了编码蛋白质三级结构的所有信息。“。这一发现,为蛋白 质结构预测提供了理论依据。也就是说,在完全掌握了蛋白质序列 和结构之间的关系后,就可以通过分析一级结构序列特性,预测其 三维空间结构。然而,从一级结构直接预测三级结构至今仍无高精 度的方法。蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定 功能的构象方面扮演着极其重要的角色。蛋白质结构数据已经成为 生物信息学的主要研究对象之。生物信息学关于生物序列研究的 工作主要集中在氨基酸序列的研究上,这是因为氨基酸序列决定了 蛋白质的空间结构,而蛋白质的空间结构决定了蛋白质生理功能的 多样性。可以说序列、结构和功能之间的关系密不可分,所以从理 论上说它们之间的关系应该能够通过某种数学的方法表示出来。一 旦确定了这种关系,我们就有可能预测新基因的功能。同时也可以 反过来,根据所要达到的功能,来设计我们所需要的蛋白质。因此, 蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作用机 制,对于正确预测蛋白质的空间结构更具有非常重要的意义。因此, 如何提高蛋白质二级结构预测的精度是当务之急。 第1 章绪论 1 2 课题相关领域的研究和发展 蛋白质是由2 0 种氨基酸组成的多聚体,氨基酸之问由肽键相连, 出多肽键折叠形成的蛋白质三维结构远比d n a 双螺旋结构复杂。蛋 白质二级结构预测问题自1 9 5 7 年首次被提出迄今已有4 0 多年了。 一般认为蛋白质二级结构预测准确率达到8 0 我们就可以基本准确 地预测一个蛋白质分子的三维空间结构了。 1 2 1 蛋白质二级结构预测的发展 l9 5 3 年,f r e d e r i c k s a n g e r 第一次测定了胰岛素的氨基酸序列。 氨基酸序列又称为蛋白质的一级结构。蛋白质的三维结构又称为三 级结构;19 6 0 年,j o h nk e n d r e w 用蛋白质晶体x - r a y 衍射方法,第 一次测定了肌血球素的三维结构。传统的生物学认为,蛋白质的序 列决定了它的三维结构,也就决定了它的功能。由于用x 光晶体衍 射和n m r 核磁共振技术测定蛋白质的三维结构,以及用生化方法研 究蛋白质的功能效率不高,无法适应蛋白质序列数量飞速增长的需 要,因此近几十年来许多科学家致力于研究用理论计算的方法预测 蛋白质的三维结构和功能,经过多年努力已经取得了定的成果, 尤其是蛋白质二级结构预测的研究。从细胞分子水平来说,蛋白质 是携带大多生命数基本功能的多肽链。现在人们至少能够合成几十 万不同类型的蛋白质。这些蛋白质实质上是大量的、复杂的生物分 子,而这些生物分子又是由首尾相连的氨基酸序列组成的。蛋白质 的氨基酸序列是蛋白质的一级结构,而不同区域的氨基酸序列所形 成局部规范的结构,我们称其为蛋白质二级结构。例如,螺旋 ( h e l i c es ) 结构、薄片( s h e e t s ) 结构和薄片( l o o p ) 结构,蛋白质 北京工业大学工学硕士学位论文 的三级结构是通过把若干个二级结构堆积( p a c k i n g ) 在一个或几个 区域所形成的结构。二级结构是指a 螺旋和e 折叠等规则的蛋白质 局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具 有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为 全。蛋白、全b 蛋白、q + b 蛋白和q b 蛋白等四个折叠类型。由 于蛋白质的功能是由它的三级结构决定的,因此,预测蛋白质二级 结构是非常有意义的,它已经成为解决由蛋白质的一级结构( 序列) 预测其空白j 结构这一问题的最关键的步骡;同时,对理解二级结构 在细胞中的作用也是非常有帮助的。 7 0 年代分别由c h o u 和f a s m a n 、g a s r n i e l 等人( g o r 法) 以及l i r a 提出的方法是最常用的方法,根据k a b s c h 和s e n d e r 对6 2 个蛋白质分 子检验的结果,上述3 个方法的预测成功率分别为5 0 、5 6 和5 9 。c h o u 和f a s m a n 法被公认为是经典的二级结构预测方法,这个 方法是蛋白质二级结构预测的第一个经验方法。从它们的预测结果 来看,这三神预测方法所取得的预测准确率是很低的。 自从1 9 8 8 年l h o w a r dh o l l e y 和m a r t i nk a r p l u s 提出用人工神经 网络来预测蛋白质二级结构以来”1 ,人工神经网络一直是蛋白质二级 结构预测的研究领域中的一个非常重要的工具”、”。最早使用a n n 在 二级结构预测方面取得成功的是q i a n 和s e j n o w s k i 在1 9 8 8 年所做的 工作沁1 。他 f j 的网络结构为一个完全连通的单隐层网络。而且,与其 它各种方法相比来说,应用神经网络已经取得了比较高的预测结果。 这个时期的代表方法有著名的p h d ( p r e d i c t p r o t e i n ) 方法和 s a l a m o v ”3 方法等。 由于蛋白质二级结构预测方法中第一类方法在数学上遇到难咀 解决的多重极4 、值问题1 ,而第二类方法又受到预测精度的限制。 近年来一些科学家提出了一种预测蛋白质三维结构的新策略,这类 4 第1 章绪论 方法被称为t h r e a d i n g 方法或折叠类型识别方法,这一方法的基本思 想是假定被预测蛋白质的折叠类型与某一已知结构的蛋白质的折叠 类型相同这样,蛋白质结构预测的问题就转变为在已知空间结构 的蛋白质中,选取一种被预测序列最可能采取的折叠类型,从而大 大减少了预测蛋白质结构的难度,这一方法已经成功地预测了一些 蛋白质的空间结构。除了t h r e a d i n g 方法外,近年来,国际上一些研 究组织还发展了一些从蛋白质的级结构直接预测蛋白质空间结构 的新方法。这些方法的基本思想是将基于知识的方法与计算化学以 及统计物理学的方法相结合,采用简化的蛋白质模型和根据已知结 构的蛋白质所导出的平均势场。从理论上计算蛋白质的空间结构。 这些方法不仅可以从蛋白质的一级结构直接预测蛋白质的三维结 构,而且可以在计算机上模拟蛋白质分子折叠的全过程。目前,还 有一些新方法如遗传算法、模拟退火、多维统计、模糊集合论方法 等在蛋白质结构预测中的应用也正在研究中。通过对一些简单蛋白 质分子的模拟研究,这些新方法已经显示出很强有力的生命力,许 多权威人士推测,随着这些新方法的进一步改进和完善,在今后1 0 年内,蛋白质折叠这一分子生物学中的难题将有望得到解决。 1 2 2 蛋白质二级结构预测的预测方法 在过去的2 0 几年中,科学家已经提出了几十种预测蛋白质二级 结构的方法。所有这些方法都可归类为基于知识的预测方法。预测 蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为 依据,用入工神经网络、遗传算法等技术构建预测方法。还有将多 种预测方法结合起来,获得“一致序列”。总的来说,二级结构预 测仍是未能完全解决的问题,一般对于。螺旋预测精度较好,对b 北豪工业大学工学硕士学位论文 折叠差些,而对除a 螺旋和$ 折叠等之辨的无规则二级结构则效 果校差。蛋白质二级结构预测曲方法有三类。一是由已知结构统计 各种氮基酸残基形成= 级结构的构象趋势,其中避常用的是c h o u f a s m a n 法:二是基于氨基酸的物理化学性质,包括堆积性、疏水性、 电荷性、氢键形成能力等;三楚通过序列比对,由已稚二维结构的 同源蛋白推断束知蛋自的二缓结掏。该方洼基于对当日寸仅有的l5 个 已知三维结聿句的蛋白质的统计分析。他们统计了2 0 种氯基酸处于螺 旋、片层和卷曲的出现概率,并定义了构象参数表示对这热状态的 相对倾向性。但其准确性其能达到6 5 。究其原因,是因为用作统计 二级结构构象趋势的蛋白质空蝇结构数据障中非同源蛋白的数量还 不够多。基于多序列比对的二级结构预测方法其精度可提高几个百 分点。鹑一个相对成功的自动化方法称为g o r ( g a r n i e r os g u t h or p e r o b s o n ) 方法,该方法基于精确的统计分析,考虑了氨基酸序列链的 每一边一直到8 个残疾的相关性。 其中,第二种属于分子动力学方法,这类方法采用分子力学、分了 动力学的方法,根据物理化学的基本原理,从理论卜计算蛋白质分 子的空间结构,这类理论计算方法依据一个基本热力学假定:一个 蛋白质分子的溶液中的天然构蒙相应于热力学上最稳定、自由能最 低的构象,但这一方法目前存在着三个主要问题,首先,硐戮描述 蛋自质一溶栽系统工程力场和能量醺数还和于半定量阶段;其次, 数学上还没有有效方法解决能量极小化问题;第三,目前并没有证 据证明蛋白质的天然构象就是垒同自由能最小的构象。而其它的两 种方法属丁基于知识的模式识别顸测方法,模式识别技术。颇名愚 义,模式识别的基本思想是利j j 存在于蛋自震序列或结构中的菜些 特征模式识别相关蛋白厦的性质。如果菜一蛋白质序列或结构中的 一一瓤分具有保守性,这种保守性或者与蛋白质的生物活性有关,或 6 第l 章绪论 者与蛋白质的折叠方式有关;那么,这种特征模式可以用来识别该 蛋白质家族中的新成员。换句话说,如果将已知蛋白质的特征序列 模式和特征结构模式搜集起来,构建成数据库,则可以用来确定新 测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白 属于哪个蛋白质家族。根据与当前蛋白质结构库中的蛋白质的相似 性或者同源性来进行结构的预测,要依赖与蛋白质结构库中的数据 的多少。从代数上讲,就是蛋白质库中的数据是否包含了蛋白质结 构空问的所有的基向量,而且这些基向量具体是哪些,一个新的蛋 白质和这些基向量之间的关系系数是怎么确定的,以及是怎么由基 向量来得到结构。而从概率上讲则是蛋白质库中的数据是否己经达 到了足够大的样本量,能够对未知序列进行概率估计。如果确实是 存在了足够的样本,则最后预测就变成了模式识别。c h o u 法之所以 现在准确性不高,也是因为用作统计二级结构构象趋势的蛋白质空 间结构数据库中非同源蛋白的数量还不够多。而且由于结构测定速 度的制约,这一数据库容量不足的问题将长期存在。这类方法通过 对已知空间结构的蛋白质进行研究和分析,找出蛋白质一级结构和 空间之问的联系,总结出一定的规律并建立一些经验规则。这类方 法已经被成功地应用于同源蛋白质空间结构预测的研究。然而对于 同源性低的和非同源蛋白质分子来说,由于受二级结构预测精度的 限制,这种方法只取得了非常有限的成功。 1 2 3 人工神经网路在蛋白质二级预测中的应用 自从1 9 4 3 年心理学家w m c c u l l o c h 和数理逻辑学家w p i t t s 提出 第一个简单的神经网络模型( 即m p 模型) 以后的5 0 多年罩,人工 神经网络模型( a r t i f i c i a ln e u r a ln e t w o r k ,以下简称a n n ) 一直是数学 7 北京工业大学工学硕士学位论文 家重要研究的对象之一。人工神经网络是由大量的神经元广泛互连 而形成的网络,它是层次的网络结构,从本质上来说,人工神经网 络的学习是一种归纳学习方式,它通过大量实例的反复学习,由内 部自适应过程不断修改各个神经元之间的连接权值,最终使神经网 络的权值分布收敛于一个稳定的区域。它有许多好的性质:对不完 全信息和带有噪音的信息具有良好的自适应性;尤其是对复杂非线 性问题更具有很强的优越性。而在蛋白质二级结构研究领域里,b p 神经网络一直是被广泛应用的一种学习算法。这种网络分为输入层、 隐含层和输出层。隐含层可以由一层或多层组成。在过去的十几年 罩,随着人类基因组计划的实施和生物信息学研究的兴起,a n n 模 型已广泛地应用于核酸和蛋白质序列的预测和分析中。例如,在核 酸序列研究中,a n n 模型在原核生物的转录终端的预测,以及大肠 杆菌核糖体结合靶址的识别中都有很好的表现。a n n 也应用在确定 d n a 序列与其性质之间的映射关系的过程中,例如转录控制信号的 分析和d n a 曲率的分析等。蛋白质分子折叠成天然三维结构的全部 信息通常被认为蕴藏在蛋白质的一级结构中1 ,低级结构对于高级结 构起着决定性的作用。但是,除基于知识的蛋白质三维结构预测外, 从一级结构直接预测三级结构至今仍无高精度的方法。蛋白质的二 级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演着 极其重要的角色。蛋白质二级结构预测一直受到重视,是生物信息 学研究的重要组成部分。蛋白质二级结构预测从方法的角度上大致 可分为四大类;统计学方法、多重序列联配法、二级结构模体( m o t i f ) 法、a n n 方法。前三种方法由于在预测精度上不够理想,近几年几 乎没有大的发展。而a n n 方法,由于它的方法多样、适于计算机计 算以及精度较好而受到广大研究者的重视。若从方法所涉及的信息 挖掘的层次来看,a n n 方法大致可被划分为三代;第一代的信息来 8 第1 章绪论 源仅限于序列中的单个残基:第二代的预测算法加入了局部残基间 相互作用的信息:第三代则在第二代的基础上加入了同源序列的信 息,所以预测精度更高。现在人们研究的大都属于第三代,它的主 要标志是引入了序列联配过程。 在生物信息学研究中,应用得最多的a n n 模型是多层前馈网络 模型,这种模型使用最广泛的算法是b p 算法,即反向传播算法。它 属于有导师学习的算法。这种模型也叫b p 神经网络。它也是在其它 领域里使用得最广泛的a n n 模型之一。 机器学习算法在蛋白质二级结构预测方面非常成功”23 ( b a l d i 等 19 9 8 ) ,这其中又数a n n 模型最为重要。利用人工神经网络模型预 测蛋白质二级结构的基本原理是利用蛋白质数据库( 如p r o t e i n d a t a b a n k 即p d b 数据库“”等) 提供足够的已知氨基酸维序列作为 种经网络的训练集样本,( j ,y 9 ) ( p = i ,2 ,n ) ,对其进行有效 编码,输入网络,训练网络各权值参数和阈值参数( 。,。h ,h 。) , 使得学习耳标e 最小,即网络达到基本稳定。然后取未知蛋白质序 列进行预测,若使用已知蛋白质序列作为测试集,则可以将计算输 出与实际观测结果作比较,从而测算该网络的预测精度。预测精度 是衡量算法预测准确度的唯一办法。目前,国际上流行的预测精度 计算方法主要是q ,法,其计算公式为 q 3 = t p a + p p + 儿。1 o o 其中只,名,分别为正确预测了三种二级结构的残基数,n 为蛋白 质所有残基的数量。本文下面所提到的预测精度就是指q 3 精度。 最早使用a n n 在二级结构预测方面取得成功的是q i a n 和 s e j n o w s k i 在1 9 8 8 年所做的工作哺1 。他们的网络结构为一个完全连 通的单隐层网络。输入层使用一个长度为2 m + 1 个氨基酸的局部输 9 北京工业大学工学硕士学位论文 入窗口( 编码序列是围绕中心残基周围各m 个共2 m + 1 个残基) 。输 出层由三个单元组成,通过s i g m o i d 型函数进行放大输出,三个输出 分别表示中心残基的h ( a 一螺旋) 、e ( 1 3 一折叠) 和c ( 无规卷曲) 状态。其编码方式称为正交编码( o t h o g o n a i e n c o d i n g ) ,即每个残基 由2 1 个神经元编码( 2 0 种氮基酸残基及代表n 、c 端的空输入) 。 输入层中编码一个残基的2 1 个神经元只有一个处于激发状态,即编 码该残基的神经元输出为1 ,其他输出为0 。类似地,代表中心残基 二级结构状态的输出单元的期望值为1 ,其他的为o 。0 i a n 等用一 个包含10 6 个蛋白质结构的学习集训练神经网络,并预测与学习集 里蛋白质无明显同源性的序列的二级结构。使用这种方法,可以达 到的准确度为6 4 3 ,明显高于传统的统计方法。由于使用了局部输 入窗口,但没有加入联配信息,所以q i a n 的方法属于第二代的预测 算法。 在q i a n 和s e j n o w s k i 后的很长的一段时间里,著名的 p h d ( p r e d i c t i c t p r o t e i n ) 阳1 方法在二级结构预测方面起了主导作用,这 是由德国的r o s t 和s a n d e r 在1 9 9 3 年提出来的。该方法在q i a n 和 s e j n o w s k i 方法的基础上引入了其他机器学习技术,包括早停 ( e a r l ys t o p p i n g ) 、不同网络的整体平均以及为补偿大型低相似性数据 偏差而使用的权重法。他们用一个三层前馈神经网络作为模型的主 要框架,训练集采用r s l 2 6 蛋白质集合,这其中包括1 2 6 条长度大 于8 0 b p ,并且成对联配的相似性低于2 5 的球蛋白以及4 条膜蛋白。 低相似性使得预测网络能够适合更多的蛋白质家族,而膜蛋白的加 入,使网络的鲁棒性得到提高。在预测前,他们用多重序列联配获 得了更多的进化信息和蛋白质家族信息,这使得整个系统的预测精 度提高了6 8 1 。这是p h d 预测系统中最为关键的地方。运用 这套系统对蛋白质三种类型的二级结构( a 一螺旋、b 一折叠和无规 l n 第1 章绪论 卷曲) 的预测精度达到了7 0 8 。 p h d 的优点在于,利用输入的信息在数据库中进行多序列联配, 从而可以得到进化信息。该方法较其他单个序列信息估算的方法准 确度要高出1 0 ,比序列的统计分析法准确度要高出6 。由于引入了 序列联配的过程,显然p h d 方法属于第三代的预测算法。虽然p h d 方法在一些问题上已经能够达到较好的效果,但是也有许多人用神 经网络与其他算法结合使用,推出新的算法,以求达到更高的精度。 1 9 9 4 年,a a s a l a m o v 和v s o l o v y e v “”利用改进的人工神经网络和 最近相邻法并且将a 一螺旋、b 一折叠和无规卷曲对应的n 端和c 端的不同位置引入罚分系统中,同时还减小了训练基的限制数量, 从而减少了计算的时间。尽管在蛋白质二级结构预测方面并没有超 越p h d 方法,但是在序列联配方面所得到的计算精度,确实超过了 当时计算精度最高的多层神经网络方法。到了1 9 9 9 年,他们将最近 相邻法作了进一步改进1 4 1 o 用一种可变的最近相邻法与神经网络结 合,此方法的关键在于使用了一条单序列作为询问输入,然后针对 二级结构的三种状态,对序列上的每一个位置都在序列数据库进行 联配搜索,预测该位置的二级结构的类型的过程也就是选择得分最 大的联配位置的二级结构类型的过程。通过对含有12 4 个非同源蛋 白质数据集的试验表明,精度可以与p h d 方法相当,达到7 1 2 。 这个方法的最大优点在于不需要知道是否同源,若使用多序列联配 作为输入,预测精度可达7 3 5 。s a l a m o v 方法也属于第三代的预测 算法。 19 9 6 年,r i i s 和k r o g h ”“优化了a n n 学习算法。他们使用权重 共享技术对输入的氨基酸进行重新编码,以降低自由参数的数量。 他们还根据一些生物学含义,为每一种二级结构类型分别设计了不 同的网络,例如,对于周期性的a 一螺旋使用输出过滤和整体平均。 1 1 北京工业大学工学硕士学位论文 最后,对于整个单条序列的预测结果在输出层用多重序列联配和最 大熵权重法进行组合。在实际使用中,这种方法与r o s t 和s a n d e r 的 p h d 方法得到的精度几乎是一致的,达到7 1 3 。r i i s 和k r o g h 方法 也属于第三代的预测算法。 在最近的几年里,蛋白质二级结构预测的方法可说是层出不穷。 其中比较具有代表性的是d t j o n e s 的p s i p r e d “”方法。他用了一个 基于精确位置得分矩阵的三层b p 网络来预测蛋白质的二级结构,该 得分矩阵是由p s ib l a s t “”产生的。尽管所用的方法非常简单,但 是通过c a s p 3 “叫的评估,他所得到的计算结果要优于现在最为流行 的p h d 方法。通过1 8 7 条互不相似的蛋白质的测试,平均q 。得分介 于7 6 5 7 8 5 之间。p s i p r e d 方法是第三代蛋白质二级结构预测 方法的佼佼者。 很明显,第三代的预测方法,即在神经网络训练中加入联配信息, 是近几年来蛋白质二级结构预测方法研究的主要方向,这是因为神 经网络的模式识别能力在预测领域中有很好的表现,并且联配信息 体现了网络信息元素的相关性 1 3 本课题的主要工作 本文首先对氨基酸编码方式进行了比较研究,由于用人工神经网 络对蛋白质二级结构进行预测所用的氨基酸编码方式不尽相同,例 如l a m o n t 用的是c o d o n ( 密码子) 和正交编码( 标准编码) ,z h u 用 的p r o f i le 编码”,王龙会用的是5 位编码”等。但是对这几种编 码方式少有人来做比较分析它们的优缺点。在体现“公平”的原则 下,我们选用b p 神经网络来做预测模型。 本文利用前向型b p 网络( 图2 ) ,对这5 种氨基酸编码方式的进 第1 章绪论 行研究,并分析氨基酸序列编码方式对蛋白质二级结构预测精度的 影响。实验结果表明:用富含“生物进化信息”的p r o f i l e 编码方式 可以得到较高的预测结果,这也说明了充分利用生物本身所具有的 生物信息,对提高蛋白质二级结构预测精度是非常重要的。 之后,本文针对已经建立起来的预测数据库,运用多神经网络对 蛋白质二级结构进行了预测研究。通过用由7 个前项型的b p 神经网 络组合成的“多神经网络( 复合神经网络) ”对蛋白质二级结构进行 了预测研究,同时给多神经网络引进了较多的生物进化信息 ( e v o l u t i o n a r yi n f o r m a t i o n ) ,即一方面引入了“p r o f i l e ”编码,这种 编码被认为携带了较多的生物信息;另一方面引入了氨基酸之间的 “距离”概念。它体现了输入层临近氨基酸的相互联系和影响。本 文通过对从3 6 个蛋白质提取的共4 0 0 0 个氨基酸的进行了预测研究。 结果表明,与经典的m u l t i n o d a l “”网络相比,本文提出的多神经网 络预测模型把蛋白质二级结构预测的平均精度提高了2 7 4 。 1 ,4 论文的组织 论文共分为四章,具体编排如下: 第一章对课题的背景和意义、课题相关领域的研究、以及课 题的具体内容作了介绍。 第二章首先介绍了一下与课题相关的生物学数据库,同时具 体介绍了课题所需要的数据库,之后建立起了本文所需要的数据库。 第三章对蛋白质二级结构预测研究中所用的5 种氨基酸编码 方式进行了具体的描述和分析,通过建立5 个b p 神经网络对这5 种 编码方式进行试验比较研究。并具体分析了每一种氨基酸编码方式 的优缺点。 北京工业大学工学硕士学位论文 第四章利用第三章的分析结果,选出最好的编码方式 一p r o f i le 编码,构造了一个由7 个b p 神经网络并行组成的多模神经 网络,对蛋白质二级结构进行预测和分析。 1 4 第2 章评测数据库的建立 2 1 引言 第2 章评测数据库的建立 本章首先介绍了几个主要的生物信息数据库和若干个在蛋白质 二级结构预测领域中占有重要地位的蛋白质数据库,之后从同源蛋 白质数据库( h o m o l o g yd e r i v e ds e c o n d a r ys t r u c t u r eo fpr o t e i n s , 简称h s s p ) 中提取出3 6 个蛋白质文件;针对其包含复杂的数据形式, 设计了一个提取数据的方法,对蛋白质数据进行预处理,提取出氨 基酸序列。建立了由这些氨基酸序列构成的数据库。为蛋白质二级 结构预测打下了良好的基础。 2 2 生物信息数据库 据保守估计,目前世界上平均每一分钟就有一个序列增加到核 酸序列数据库中,能够从飞速增长的序列数据更高效的提取信息, 建立生物信息中心,通过互联网实现全球范围内的信息共享成为必 然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中 心,如美国国家生物技术信息中心( n a t i o n a lc e n t e rf o rb i o t e c h n o l o g y i n f o r m a t i o n ,n c b i ) 、位于英国的欧洲生物信息研究所( e u r o p e a n b i o i n f o r m a t i c si n s t i t u t e ,e b l ) 、位于瑞士日内瓦的蛋白质专家分析系 统( t h ee x p e r tp r o t e i na n a l y s i ss y s t e m ,e x p a s y ) 、日本国立遗传学研 究院f n a t i o n a li n s t i t u t e g e n e t i c s ,简称n i g ) 等。以西欧各国为主的欧 洲分子生物学网络组织e u r o p e a n m o l e c u l a r b i o l o g y n e t w o r k f e m b n e t ) ,成立于1 9 8 8 年,是目前国际上最大的分子生物信息研究、 北京工业大学工学硕士学位论文 开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一 起,实现信息共享,并合作进行开发、研究、培训l 。 当前数以百计的生物信息数据库。它们各自按一定的目标收集 和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。 随着因特网的普及,这些数据库大多可以通过网络来访问,或者通 过网络下载。 一般而言,这些生物信息数据库可以分为一级数据库和二级数 据库。一级数据库的数据都直接来源于实验获得的原始数据,只经 过简单的归类整理和注释:二级数据库是在一级数据库、实验数据 和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信 息的进一步整理。国际上著名的一级核酸数据库有g e n b a n k 数据库 ”“、e m b l 核酸库”和d d b j 数据库”“等;蛋白质序列数据库有 s w i s s p r o t ”“、p i r ”等;蛋白质结构库有p d b 等。国际上二级 生物学数据库非常多,它们因针对不同的研究内容和需要而各具特 色,如人类基因组图谱库g d b 、转录因子和结合位点库t r a n s f a c 、 蛋白质结构家族分类库s c o p 等等 2 3 蛋白质数据库 2 3 1pir 和p s d p l r 国际蛋白质序列数据库( p s d ) 是由蛋白质信息资源( p l r ) 、慕 尼黑蛋白质序列信息中心( m i p s ) 和日本国际蛋白质序列数据库 ( j i p i d ) 共同维护的国际上最大的公共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年在线教育平台教学质量提升策略与学习支持服务研究报告
- 2025年教育大数据:智慧教育体系建设与应用前景报告
- 2025年疫苗产业发展动态及新冠疫情常态化防控策略研究报告
- 2025年工业互联网平台网络流量整形技术在工业互联网平台可持续发展中的应用报告
- 2025年在线教育平台用户界面设计与满意度提升策略
- 养老社区季度工作计划范文
- 市场营销策划公司合伙协议书
- 2025年茶餐厅行业品类发展分析报告
- 数字化转型赋能制造业生产效率提升
- 屋顶上的花园
- 2025年辅警笔试题库行测及答案指导
- 运维7×24小时服务保障方案
- 2025年建筑行业员工劳动合同
- 《医疗机构医疗质量安全专项整治行动方案》解读课件
- 2025年国家网络安全宣传周知识竞赛题库(试题及答案)
- 《论教育》主要篇目课件
- 防止滑倒摔伤事故的安全培训
- 《舞蹈艺术赏析》课件
- PLC项目实操练习题
- 《新能源材料与器件》教学课件-04电化学能源材料与器件
- 轻型门刚设计中风荷体型系数取值的适用标准讨论
评论
0/150
提交评论