(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf_第1页
(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf_第2页
(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf_第3页
(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf_第4页
(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(模式识别与智能系统专业论文)基于改进bp神经网络预测蛋白质二级结构.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 蛋白质结构预测在生物信息学研究中占有重要地位,而蛋白质二级结构 预测是蛋白质结构预测的关键步骤。本文结合氨基酸序列的编码方式,介绍 了几种改进b p 算法在预测蛋白质= 级结构中的应用,并对网络的学习过程及 结果进行分析和评价。主要研究内容及成果如下: ( 1 ) 首先了解蛋白质一级及二级结构的种类,并掌握其表示方法。从蛋 白质数据库中随机选取5 8 条蛋白质,对它们的氨基酸序列和对应二级结构特 征进行提取和表示,为整个研究提供了原始数据; ( 2 ) 对已获取的氨基酸序列及其二级结构进行编码,为神经网络训练和 测试提供输入、输出数据。设计编码方法时,考虑其可能对神经网络的结构、 运算能力以及最终预测精度的影响,提出了4 种氨基酸序列的编码方式,讨 论它们结合神经网络预测蛋白质二级结构时存在的问题及优点; ( 3 ) 基于标准b p 算法在预测时存在的缺陷,介绍了3 种改进b p 神经网 络,从原理出发分析了它们改进的具体内容、改进以后可能出现的特点以及 相比较于标准b p 算法有哪些优点: ( 4 ) 结合各种编码方式和不同神经网络实现蛋白质二级结构的预测,给 出各种组合下得到预测结果并予以分析。提出一种新的改进方法,即遗传算 法结合动量法与学习率自适应调整策略的b p 神经网络。实验表明,基于正交 编码方式的这种神经网络预测可以得到较高的准确度,可将蛋白质二级结构 的预测准确度提升到7 4 3 5 。 本课题得到了国家自然科学基金( n o 6 0 2 3 4 0 2 0 ) 的支持。 关键词:蛋自质二级结构:编码方法;改进b p 神经网络 北京工业大学工学硕士学位论文 a b s t r a c t p r e d i c t i o no fp r o t e i ns t r u c t u r e p l a y s a ni m p o r t a n tr o l ei nt h er e s e a r c ho f b i o i n f o r m a t i c s ,a n dp r e d i c t i o nf r o mp r o t e i ns e q u e n c et os e c o n d a r ys t r u c t u r ei st h ep i v o t a l s t e p t h i sp a p e ri n t r o d u c e ss e v e r a li m p r o v e db pn e u r a ln e t w o r k st op r e d i c tp r o t e i n s e c o n d a r ys t r u c t u r e ,t h e na n a l y z e sa n de s t i m a t e st h el e a r n i n gp r o c e s s e sa n dr e s u l t so f t h e n e t w o r k s 朋1 cm a i nr e s e a r c hc o n t e n t sa n dr e s u l t sa r ea sf o l l o w s : ( 1 ) f i r s tw em u s tr e a l i z et h ek i n d so fp r o t e i nf i r s ta n ds e c o n ds t r u c t u r e ,a n dm a s t e r t h e i re x p r e s s i v em e t h o d t h e n5 8p r o t e i n sw e r es e l e c t e dr a n d o m l yf r o mp r o t e i nd a t a b a s e , e x p r e s s e dw i t ht h e i ra m i n oa c i ds e q u e n c e sa n ds e c o n d a r ys t r u c t u r e t h i sw o r kp r o d u c e d o r i g i n a ld a t af o ra l lr e s e a r c h ( 2 ) t h ei n p u ta n do u t p u td a m sa r eo f f e r e df o rt h en e t w o r k st r a i n i n ga n dt e s t i n gb y e n c o d i n gt h ea m i n oa c i ds e q u e n c e sa n ds e c o n d a r ys t r u c t u r eo f t h eo b t a i n e dp r o t e i n s t h i s p a p e rp r o v i d e s4k i n d sm e t h o d so fe n c o d i n gw h i c ha r et h o u g h to ft h e i ri n f l u e n c e t ot h e s t r u c t u r ea n dl e a r n i n ga b i l i t yo f t h en e u r a ln e t w o r kt h ef i n a lr e s u l ta n d ,a n dd i s c u s s e st h e a d v a n t a g e sa n dd i s a d v a n t a g e sw h e ne n c o d i n gm o t h e d sa r ec o m b i n e dw i t ht h ed i f f e r e n t n e u r a ln e t w o r k s ( 3 ) b a s e do nt h es h o r t c o m i n g so ft h es t a n d a r db pa r i t h m e t i c ,3k i n d si m p r o v e db p n e u r a ln e t w o r k sa r ei n t r o d u c e di nt h i sp a p e r f r o mt h e o r y , w ea n a l y z e st h ed e t a i l so ft h e i m p r o v e m e n t , p r o b a b l ec h a r a c t e r i s t i c sa f t e ri m p r o v e m e n t a n do b t a i n ss o m em e r i t s a c c o r d i n gt ot h es t a n d a r db p a r i t h m e t i ci nt h i sp a p e r ( 4 ) b yc o m b i n i n ge a c he n c o d i n ga n dd i f f e r e n tn e u r a ln e t w o r k , w ea c c o m p l i s h p r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o n t h i sp a p e rp r o p o s e san e wi m p m v e db p a r i t h m e t i c :t h ea l g o r i t h mw h i c hc o m b i n sg e n e t i ca l g o r i t h mw i t hm e t h o do fm o m e n t u m a n ds t r a t e g yw h i c hi sa d o p t e df o ra d j u s t i n gl e a r n i n ge f f i c i e n c y p r a c t i c eh a dp r o v e dt h a t w ec a l lg e ta h i g hp r e c i s i o nb yt h i si m p r o v e db pn e t w o r k t h ep r e c i s i o no ft h ep r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o ni sp r o m o t e d t o7 4 3 5 t h i s p a p e rh a sg o tt h es u p p o r to fn a t i o n a ls c i e n c ef o u n d a t i o no fc h i n a ( n o 6 0 2 3 4 0 2 0 ) k e y w o r d s :p r o t e i ns e c o n d a r ys t r u c t u r e ;e n c o d i n gt o o t h e d ;i m p r o v e db p n e u r a ln e t w o r k 1 i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:日期: 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论 文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 导师签名 日期 引言 引言 蛋白质二级结构预测是蛋白质工程的重要组成部分,始于2 0 世纪6 0 年代, 至今已有3 0 多年的历史。了解蛋白质的二级结构,便可掌握其空间结构,不 仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。目 前,蛋白质序列数据库的数据积累速度非常快,而已知结构的蛋白质相对比 较少。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确 定蛋白质结构的过程仍然非常复杂,代价较高,因此需要发展一种行之有效 的预测蛋白质二级结构的方法。 人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起, 科学家们也将神经网络用于生物信息学。本文分析了几种改进的b p 神经网络 在蛋白质二级结构预测中的应用,从不同的方面讨论了神经网络学习和预测 过程中的优缺点,并对预测结果作了相应的评价。 第1 章绪论 1 1 课题来源及研究意义 本课题是国家自然科学基金资助项目“复杂系统意义下的生物信息学中若 干问题研究”的一部分。 生物信息学( b i o i n f o r m a t i c s ) 是8 0 年代末随着人类基因组计划( h u m a n g e n o m ep r o j e c t ) 的启动而兴起的一门新的交叉学科。通过应用先进的数据管理 技术、数学分析模型和计算软件对生物学实验数据进行获取、加工、存储、检 索与分析,从而达到揭示数据所蕴含的生物学意义的目的,旨在掌握复杂生命 现象的形成模式与演化规律。生物信息学涉及生物学、数学、计算机科学和工 程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生 数据的大量储存。其研究内容主要包括:对海量数据的收集、整理与服务,特 别是构建收集有关人类疾病、生长的数据库;从数据中发现新的规律,因此需 要研究好的算法对这些数据进行分析,以便得到其中的关键联系。目前生物信 息学的研究重点主要体现在基因组学( g e n o m i c s ) 和蛋白组学( p r o t e o m i c s ) 两方 面,即生物学的大量研究都集中在d n a 数据分析、蛋白质折叠及相关疾病分析上; 研究的对象是大量数据,包括各种基因组数据、核酸数据和蛋白数据等,如此 海量生物学数据的积累,必将导致重大生物学规律的发现。生物信息学是当今 生命科学和自然科学的重大前沿领域之一,同时也将是2 l 世纪自然科学的核一心 领域之一,它的发展将会对生命科学带来革命性的变革。 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它既属 于基础研究,以探索生物学、自然学及自然规律为己任;又属于应用研究,它 的许多研究成果可以较快或立即产业化,成为价值很高的产品,这个特点在现 有的许多学科中几乎是独一无二的。它的发展将对生物医药、卫生、食品、农 业等产业产生巨大的影响,甚至引发新的产业革命。我国己将这一研究领域列 入国家“8 6 3 ”高技术发展计划中。 其中,蛋白质工程是发展较好、较快的分子工程。它是在基因重组技术、 生物化学、分子生物学、分子遗传学等学科的基础之上,融合了蛋白质晶体学、 蛋白质动力学、蛋白质化学和计算机辅助设计等多学科而发展起来的新兴研究 北京工业大学工学硕士学位论文 领域,汇集了当代分子生物学等学科的一些前沿领域的最新成就,它把核酸与 蛋白质结合、蛋白质空间结构与生物功能结合起来研究。蛋白质工程将蛋白质 与酶的研究推进到崭新的时代,为蛋白质和酶在工业、农业和医药方面的应用 开拓了诱人的前景,它开创了按照人类意愿改造、创造符合人类需要的蛋白质 的新时期。 目前,蛋白质工程的内容主要有两个方面:一是根据需要通过物理、化学、 生物和基因重组等技术改造或设计合成具有特定氨基酸序列、空间结构和功能 的蛋白质;二是对蛋白质分离纯化,确定蛋白质化学组成、空间结构与生物功 能之间的关系,并在此基础之上,实现从氨基酸序列预测蛋白质的空间结构和 生物功能,设计合成具有特定生物功能的全新的蛋白质,这也是蛋白质工程最 根本的目标之一。因此蛋白质的空间结构和生物功能的确定,对蛋白质工程的 研究具有重要意义。 众所周知,遗传信息是由d n a 转录到r n a ,再由r n a 翻译成蛋白质,因此基 因是遗传信息的携带者,而生命活 动的执行者却是蛋白质,即基因表 达产物,各种生命活动是通过蛋白 质来实现的,如图卜l 。它是生命 活动的主要体现者,比基因更靠近 功能,能够反映生物的生长过程及 相关疾病的产生。而蛋白质多种多 样的功能与各种蛋白质特定的空间构象 图1 - 1 蛋白质的形成 密切相关,蛋白质的空间构象是其功能活性的基础,构象发生变化,其功能活 性也随之改变。即蛋白质分子只有处于它自己特定的三维空间结构情况下,才 能获得它特定的生物活性;三维空间结构稍有破坏,就很可能会导致蛋白质生 物活性的降低甚至丧失。因为它们的特定的结构允许它们结合特定的配体分子, 例如。血红蛋白和肌红蛋白与氧的结合、酶和它的底物分子、激素与受体、以 及抗体与抗原等。 鉴于蛋白质的生物学功能在很大程度上取决于其空间结构,因此蛋白质工 程的核心内容之一就是收集大量的蛋白质分子结构的信息,以便建立结构与功 第1 章绪论 能之间关系的数据库,为蛋白质结构与功能之间关系的理论研究奠定基础。 目前,知道了基因密码,科学家们可以推演出组成某种蛋白质的氨基酸序 列,却很难绘制蛋白质空间结构。因而,揭示人类每一种蛋白质的空间结构, 己成为后基因组时代的至高点,这也是结构基因组学的基本任务。对于蛋白质 空间结构的了解,将有助于对蛋白质功能的确定。对其进行研究,联合运用基 因密码知识和蛋白质结构信息,药物设计者可以设计出小分子化合物,即找到 用于抑制与疾病相关的可识别蛋白,而这些蛋白质作为诊断标记或诊断的靶分 子疾病特异性的蛋白分子,可为疾病的早期诊断,药物精确筛选等提供方 案,进而达到治疗疾病的目的。这样,无论对基础研究还是对实际应用来说, 根据蛋白质分子的氨基酸序列预测其三维空间结构都具有重要的意义,后基因 组研究有着非常重大的应用价值和广阔前景。 因此在蛋白质工程学中,蛋白质空间结构的确定占有重要地位。 1 2 蛋白质结构的类型 蛋白质是一种生物大分子,基本上是由2 0 种不同的氨基酸通过共价键连接 而成的线性多肽链,其结构的一个显著特征是结构的层次性。一般用一级结构、 二级结构、三级结构和四级结构表示蛋白分子的不同结构层次。一级结构指由 肽键连接成的肽链,是一条多肽链中氨基酸残基排列的序列,也是蛋白质最基 本的结构。它是由基因上遗传密码的排列顺序所决定的。各种氨基酸按遗传密 码的顺序,通过肽键连接起来,成为多肽链,如图1 - 2 ( a ) 。不同蛋白质其肽链 的长度不同,肽链中不同氨基酸的组成和排列顺序也各不相同。肽链在空间卷 曲折叠成为特定的三维空间结构,称为蛋白质的空间结构或构象,包括二级结 构和三级结构二个主要层次。二级结构指的是多肽主链骨架中的某些肽段借助 氢键的维系而形成的沿一个方向具有周期性的构象,主要包括a 螺旋( h e l i x ) 和b 折叠( s h e e t ) ,除a 螺旋和b 折叠以外的构象称为无规卷曲( c e i l ) 。二级结 构反映多肽链中主链原子的局部空间排布,不涉及氨基酸残基侧链基团的构象。 在可溶性球蛋白分子中,a 螺旋、b 折叠和无觌卷曲三种构象出现的百分比大约 为3 0 、2 0 和5 0 ,如图卜2 ( b ) 。三级结构指的是一条多肽链在二级结构的基 础上,由蛋白质分子中顺序上相隔较远的氨基酸残基侧链基i 司之间以及它们与 北京工业大学工学硕士学位论文 溶剂的相互作用而形成的具有一定规律的三维空间结构。换句话说,三级结构 指的是一条多肽链中所有原子的空间排布,如图卜2 ( c ) 。具有二条或二条以上 独立三级结构的多肽链组成的蛋白质,其多肽链间通过次级键相互组合而形成 的空间结构称为蛋白质的四级结构。其中,每个具有独立三级结构的多肽链单 位称为亚基( s u b u n i t ) 。四级结构实际上是指亚基的立体排布、相互作用及接触 部位的布局。如图卜2 ( d ) 。所以蛋白质分子有非常特定的复杂的空间结构。 图卜2 蛋白质结构类型 一般认为,蛋白质的一级结构决定了蛋白质的二级、三级等高级结构,成 百亿的天然蛋白质各有其特殊的生物学活性,决定每一种蛋白质的生物学活性 的结构特点,首先在于其肽链的氨基酸序列,但多肽链并非呈线形伸展,而是 折叠和盘曲构成各具特殊的侧链,侧链基团的理化性质和空间排布各不相同, 当它们按照不同的关系组合时,就可形成多种多样的空间结构和不同生物学活 性的蛋白质分子。因此蛋白质的生物学活性和理化性质主要决定于空间结构的 完整,因此仅仅测定蛋白质分子的氨基酸组成和它们的排列顺序并不能完全了 解蛋白质分子的生物学活性和理化性质。例如球状蛋白质( 多见于血浆中的白蛋 白、球蛋白、血红蛋白和酶等) 和纤维状蛋白质( 角蛋白、胶原蛋白、肌凝蛋白、 纤维蛋白等) ,前者溶于水,后者不溶于水,显而易见,此种性质不能仅用蛋白 质的一级结构的氨基酸排列顺序来解释。近年来,随着蛋白质工程技术的发展 和人类基因组计划的顺利进展,对蛋白质空间结构与一级结构的关系的研究也 交得更加紧迫和重要。 1 3 实验测定蛋白质空间结构的方法及其局限性 目前蛋白质结构的测定方法主要有两种 4 第1 章绪论 1 x 射线晶体衍射( x r a y d i f f r a c t i o nb yc r y s t a l s ) :应用x 射 线晶体衍射图谱法和中予衍 射法测定晶体中的蛋白质分 子构象,如图1 3 。该技术在 确定蛋白质结构方面有了很 大发展。但最明显的不足是采 图卜3x 射线晶体衍射的原理 用该方法的前提必须是获得能对x 射线产生强衍射作用的晶体,需要分离出足 够量的纯蛋白质( 几毫克几十毫克) ,制备出单晶体,然后再进行繁杂的数据 收集、计算和分析,而蛋白质晶体的表达、提纯与结晶,晶体培养,x 射线衍射 成像分析等难点增加了结构测定的难度,因此用x 光衍射的方法测定一个蛋白 质分子的晶体结构不仅需要花相当长的时间,在技术上也受到相当大的限制; 2 核磁共振技术( n m r ) :核磁共振是指某些有磁矩的原子核,在静磁场中由于 磁矩和磁场相互作用形成一组分裂 的能级,在合适频率的射频作用下, 能级间发生跃迁而出现的共振现 象。它的出现提供了另一个测定蛋 白质三维结构强有力的手段,其基 本过程如图卜4 ,但这一方法目前还 只限于测定蛋白质的溶液结构,并 且样品的需要量大、纯度要求高、 等原因,使该方法受到很大限制。 图卜4n m r 测定蛋白质三维结构的基本过程 被测定的蛋白质的分子量一般不超过2 0 0 0 0 因而现在通过实验测定得到蛋白质结构的数目非常有限,约为2 6 ,0 0 0 个蛋 白质分子立体结构,而从p i r p s d ,s w i s s p r o t ,t r e m b l ,g e n p e p t , r e f s e q ,p d b 等蛋白质数据库收集来的氨基酸序列约为8 0 0 ,0 0 0 条,显然现在 的通过实验测定蛋白质三维结构的方法远远跟不上每天数以千计的氨基酸序列 测定速度且满足不了人们越来越迫切要掌握大量蛋白质结构类型的愿望。因此, 迫切需要一种不依赖晶体培养、迅速简便易行的确定蛋白质结构的方法。为了 缩小结构与已知序列之间的差距,通过分子工程来预测高级结构,已势在必行, 北京工业大学工学硕士学位论文 i i n 发展蛋白质结构预测的方法成为人们所瞩目的问题了。利用蛋白质的一级结构 所提供的氨基酸序列信息来进行高级结构预测的方法就是应这种需要而发展起 来的。 1 4 蛋白质结构预测的发展 预测是生物信息学中的棘手问题,目前尚无行之有效的方法。所谓蛋白质 结构预测,是指直接从氨基酸序列推断某一蛋白质的功能位点或预测其三维结 构,包括2 级和3 级结构预测,是目前分子生物学研究中迫切需要解决的问题, 是最重要的课题之一。已有许多科学家致力于这方面的工作。许多研究机构在 这方面开展了不少工作,但由于蛋白质结构的复杂性,至今尚未找到非常可靠 的由氨基酸序列预测蛋白质高级结构的方法,尤其是对于非同源性蛋白质的结 构预测。 蛋白质结构预测研究的发展大体可分为两个阶段: 第一阶段为归纳法,属于对蛋白质空间结构进行消化的阶段,随着蛋白质 晶体结构数据的积累,人们对于蛋白质的空间结构进行了大量的研究和分析, 得出了许多经验规律。通过对新蛋白质晶体结构的测定以及对原有数据更深入 的分析,不断有新的结构类型被发现,对蛋白质结构规律的认识也将更加深入。 同时也有人对已有的晶体结构数据进行了统计处理,发展了从蛋白质的一级结 构预测其二级结构的方法。在以后的2 0 多年中关于二级结构预测的方法又有了 不少发展,但总的来说准确度均不超过6 8 ,成为蛋白质空间结构预测的一个 制约条件。 第二阶段采用演绎法,主要是试图利用理论计算的方法得到蛋白质的高级 结构,模型分子力学方法在处理小分子体系上的成功运用,激励着人们开始将 其应用到蛋白质及核酸体系中,所根据的基本原理是蛋白质的活性构象对应于 体系自由能最小的状态,在某种条件下也可认为是能量最小的状态。但由于蛋 白质体系庞大,可变参数繁多,数学处理上的整体极小问题难以解决,所以无 论是能量优化方法还是以后发展起来的分子动力学方法都无法从理论上解决使 蛋白质折叠成正确构象的问题,只能进行在已有大体正确的结构参数后的局部 结构优化或动力学模拟。利用理论计算方法直接从一级结构得出蛋白质的空间 6 _ 第1 覃绪论 结构的努力就目前的情况来看还有很大的困难。 在理论上遇到了一时难以跨越的障碍后,人们又回过头来在已有的晶体结 构数据中寻找规律。近年来新发展起来的一些方法以及构建三级结构的方法都 基于实验数据的积累,即基于对已知蛋白质结构规律的总结、吸收、利用。例 如二级结构预测的模式匹配方法就是在分类总结了已知结构蛋白质结构规律的 基础上建立的。最近发展起来的利用神经网络算法进行二级结构预测的方法也 是先对已有的结构进行学习,然后在此基础上进行预测。虽然仅靠一级结构的 氨基酸序列信息的从头预测方法目前还存在着许多困难,但借助于一些其他信 息还是可以成功地建立起立体结构模型的。这方面最为成功的一个例子就是 t b l u n d e l l 等发展的利用同源蛋白质的结构进行结构预测的方法,其原理是同 一家族中的蛋白质结构和功能类似,利用同族中已知的蛋白质结构就可以建立 起未知结构蛋白质的模型。但经过3 0 余年的努力,蛋白结构预测研究现状远远 不能满足实际需要。 1 5 蛋白质结构预测的现状 1 5 1 该领域的研究方法 目前该领域的研究方法主要分为两类: 1 ) 理论计算方法 根据物理化学、量子化学、量子物理的基本原理,从理论上计算蛋白质分 子的空问结构,这是一种理想的预测方法。 这类理论计算方法所依据的一个基本热力学假定是:一个蛋白质分子的溶 液中的天然构象相应于热力学上最稳定的、自由能最低的构象。但实际组成蛋 白质分子的每一个键的键长和键角都可能发生变化,而且微小的结构变化都会 带来能量变化,每一种蛋白质存在一种稳态结构和极大量的亚稳态结构。蛋白 质结构的这种复杂性阻碍着这种预测方法的实现,因此这也是一种最难的预测 方法。 2 1 基于知识的蛋白质结构预测方法 根据大量已知的蛋白质三维结构来预测序列己知而结构未知的蛋白质结 北京工业大学j 二学硕士学位论文 构,通过对已知空间结构的蛋白质进行研究和分析,找出蛋白质一级结构和空 间结构之间的联系,总结出一定的规律并建立一些经验规则,这是目前较为可 靠的蛋白质结构预测方法。 根据蛋白质结构的层次性,这类方法将蛋白质分子空间结构的预测分为若 干个步骤:( 1 ) 根据蛋白质分子的一级结构预测其二级结构;( 2 ) 根据所预测的 二级结构建立可能的蛋白质分子的三维模型;( 3 ) 根据一定的经验规则,将一些 不合理的模型排除;( 4 ) 根据能量最低原理,用分子力学或分子动力学的方法对 所得到的模型进行修正。 目前,基于知识的蛋白质结构预测方法主要有以下几种途径: ( 1 ) 同源模建( h o m o l o g ym o d e l i n g ) 传统生物学认为,蛋白质根据其序列同源性可以分成不同的家族。一般认 为序列同源性大于3 0 的蛋白质可能由同一祖先进化而来,称为同源蛋白质。同 源蛋白质具有相似的结构和功能。所以利用结构已知的同源蛋白质可以建立目 标蛋白质的结构模型,然后用理论计算方法进行优化。 其预测流程如图卜5 :利用同源模建方法建立的蛋白质模型是以已知的同源 蛋白质结构为基础,将已知同源蛋白质的结构作为模板,将目标序列与模板序 列进行匹配,根据同源蛋白质的多重序列匹配结果,确定同源蛋白质的结构保 守区以及相应的框架结构,因此序列匹配对建立精确的结构模型起着关键的作 用,如果待测蛋白质与已知蛋白质的同源性较好,且匹配得当,预测的准确废 是比较高的。但一般来说,序列同源性越差,匹配的准确程度越低,建立的模 型精度也越差,对于序列同源性低于3 0 的蛋白质难以得到理想的结构模型。 预测三维结 构模型 e 实验室里进 三维结构分析 序列与已知结l ni 蛋白家族 蛋白匹配吗? h 分析 玉二工 三维比较ivi 与已知结构 建模| + 1 的关系 丁丁 期陌薪 结构吗? | 1 = 二二竺 图i - 5 同源模建法的预测流程 ( 2 ) 折叠识别( f o l dr e c o g n i t i o n ) _ 8 第1 章绪论 由于某些蛋白质在结构已知的数据库中找不到序列同源性大于3 0 的同源 蛋白质,那么采用同源模建的方法无法建立精确的模型。但是研究表明许多序 列同源性很差( 小于2 5 ) 的蛋白质却存在相同的框架结构折叠子。许多学者对 自然界中可能存在的折叠子数目作了估计,认为折叠子的数目在6 0 0 7 0 0 之间。 因此可以以结构已知的蛋白质的折叠子为模板,寻找给定氨基酸序列可能采取 的折叠类型,即折叠识别。 目前利用折叠识别预测蛋白质结构的主要方法大多是从t h r e a d i n g 方法发 展而来的,其做法是将未知 序列放在已知序列上滑动, 同时考虑插入和删除的情 况。示意图如图卜6 : 与序列比对不同的地方 在于,t h r e a d i n g 进行的序列 与结构之间的比对,序列的插入和删除只 图1 6t h 7 。a d l “g 方法 允许在l o o p 区( 环区) 进行。 该方法首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以 折叠子数据库中的折叠结构作为模板,将目标序列与这些模板一一匹配,通过 计算打分函数的值判断匹配程度,根据打分值给模板结构排序,其中打分最高 的被认为是目标序列最可能采取的折叠结构。因此,在找不到同源蛋白质结构 作为模板的情况下,折叠识别方法显示出了它独特的优势,并且得到了迅速的 发展,尤其是t h r e a d i n g 方法,但t h r e a d i n g 方法的难点在于序列与折叠结构的 匹配技术和打分函数的确定。 因此无论是同源模建还是折叠识别都需要己知的蛋白质结构作为模板,而 且在当目标蛋白质找不到模板结构的情况下难以得到成功应用。 ( 3 ) 从头预测( a bi n i t i op r e d i c t i o n ) 与前两种方法相比,从头预测方法不需要己知结构信息,直接从蛋白质序 列预测其空间结构,它仅利用氨基酸序列和模拟氨基酸间相互作用的模型来预 测目标蛋白质的空间结构,因此具有更大的挑战性。目前从头预测法应用最广 的是采用人工神经网络法进行预测,人工神经网络的采用在一定程度上提高了 , 北京工业大学工学硕士学位论文 非同源性蛋白质结构预测的精度。 这些预测方法主要是受到二级结构预测精度的限制,因而只取得了非常有 限的成功。有幸的是,通过对已知空间结构的蛋白质分子的研究和分析,人们 发现蛋白质的一级结构,包含着关于高级结构的信息,并且尽管一条多肽链可 能采取的构象数目是相当大的,但是在蛋白质分子中,由二级结构组装而形成 一定空间结构的方式却是有限的。一般认为,如果二级结构的预测准确率能达 到8 0 ,那么便可以基本准确地预测一个蛋白质分子的三维空间结构,因此蛋 白质二级结构预测是蛋白质结构预测的关键步骤,进一步提高蛋白质二级结构 预测的准确度成为当务之急。如果掌握了蛋白质的二级结构,便可获得其空间 结构,以便预测并解决人类疾病。 1 5 2 现有蛋白质二级结构预测方法 蛋白质二级结构的预测开始于2 0 世纪6 0 年代中期。二级结构预测的方法大 体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取 各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预 测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的 对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为1 卜2 1 。片段 体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环 境形成特定二级结构的倾向作为预测依据。第一代和第二代预测方法有共同的 缺陷,它们对三态预测的准确率都小于7 0 ,而对折叠预测的准确率仅为2 8 4 8 。 二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信 息,使二级结构预测的准确程度有了比较大的提高,特别是对折叠的预测准确 率有较大的提高,预测结果与实验观察趋于一致。 目前常见的蛋白质二级结构预测方法主要有以下几种: ( 1 ) c h o u f a s m a n 算法: 是由已知结构统计各种氨基酸残基形成二级结构的构象趋势,是单序列预 测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级 结构。首先统计出2 0 种氨基酸出现在a 螺旋、b 折叠和无规则卷曲中出现频率的 大小,然后计算出每一种氨基酸在这几种构象中的构象参数p 。,构象参数值的 第1 章绪论 大小反映了该种残基出现在某种构象中的倾向性的大小,根据残基的倾向性因 子提出二级结构预测的经验规则,要点是沿蛋白序列寻找二级结构的成核位点 和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程,但预测 成功率并不高,仅有5 0 左右。 ( 2 ) g o r 算法: g o r 也是单序列预测方法中的一种,因其作者g a r n i e r ,o s g u t h o r p e 和r o b s o n 而得名。这种方法是以信息论为基础的,也属于统计学方法的一种,g o r 方法不 仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残 基种类对该位置构象的影响。这样使预测的成功率提高至u 6 5 左右。g o r 方法的 优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序, 但缺点是表达式复杂。 ( 3 ) 基于神经网络的结构预测: 利用神经网络的方法进行序列的预测,让网络在学习过程中根据输入的一 级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到 一种好的输入与输出的映象,并对未知二级结构的蛋白质进行预测。将神经网 络用于二级结构预测最早是由q i a n 和s e j n o w s k i t 提出的,他们受到神经网络在 文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的 字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的 输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取 更多的信息,并利用所掌握的信息进行预测。它的优点是应用方便,获得结果 较快较好,主要缺点是没有反映蛋白质的物理和化学特性,而且利用大量的可 调参数,使结果不易理解。许多预测程序如p h d s e c , p s i p r e d 等均结合利用了神 经网络的计算方法,p s i p r e d 是个两阶段神经网络模型,以p s i b l a s t 计算结 果作为输入,这种算法将蛋白质二级结构预测的准确度提高到7 0 甄上;p h d s e c 是基于统计的神经网络方法,利用通过多重序列比对得到的进化信息作为神经 网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成( 2 0 种氨基酸 中每个所占的比例) 作为蛋白质序列的全局信息,这类算法预测的准确率率先 达到了7 2 , ( 4 ) 混合方法: 北京工业大学工学硕士学位论文 将一些方法选择性的混合使用,并调整它们之间使用的权重可以提高预测 的准确率,目前预测准确率在7 0 以上的都是混合方法。 鉴于提高蛋白质二级结构预测准确度的紧迫性,本文基于目前应用最为广 泛的b p 算法,进行不断改进,并尝试用改进b p 神经网络预测蛋白质的二级结构。 探讨了各种改进算法的工作原理,以及从理论上分析其各自的优缺点,结合氨 基酸序列的编码方式,实现了对蛋白质二级结构的预测。 第2 章数据的来源和表示 氨基酸序列的测定速度,远远领先于蛋白质结构的研究,主要是因为大规 模测序比蛋白质三维结构的测定容易得多。要从这些大量的序列信息中得到尽 可能多的有用信息,就必须对这些数据按一定的方式进行处理,即通过构建和 维护这些数据库,开发方便实用的数据库查询软件,使生物学家能够方便地获 取这些数据库所包含的信息。在此基础上,利用生物信息学手段,研究开发有 效的分析工具,以便进一步获取隐藏在这些序列数据中的生物学意义,探索生 物大分子的结构功能关系。 因而,在对序列信息进行分析,预测蛋白质二级结构的过程中,第一步就 要查找存放这些数据的数据库。蛋白质数据库有许多不同的类型,其划分既取 决于所要存储信息的性质( 比如是序列信息还是结构信息,是二维凝胶信息还 是三维结构图像信息) ,也取决于存储数据的方式( 即存储的是普通文本文件, 还是采用关系数据库进行存储,或者是采用面向对象数据库进行存储等) 。但不 论这些数据库基于怎样的存储方式或者是数据管理机制,对其中的数据进行分 析,就可能获得蛋白质的高级结构或其功能。 2 1 蛋白质结构数据库 目前全球已有9 4 个蛋白质数据库,除p d b 外,p i ri n t e r n a t i o n a l 、s w i s s p r o t 、h s s p 、s c o p 等也是使用较广泛的数据库。 2 1 1 p d b 蛋白质结构数据库( p r o t e i nd a t ab a n k ) ,是国际上唯一的生物大分子结构 数据档案库。1 9 7 1 年建立于美国布鲁克海文( b r o o k h a v e n ) 国家实验室,当时 只有7 个结构,从1 9 9 8 年1 0 月1 目起p d b 的管理交给结构生物信息学研究合 作组织( r c s b ) 。p d b 收集的数据来源于x 光晶体衍射和核磁共振的实验测定的 生物大分子三维结构数据,经过整理和确认后存档而成,总共收集了约2 6 0 0 0 种生物大分子的结构数据,其中2 2 3 0 0 种为x 射线衍射或其它方法测定的晶体 结构,3 8 0 0 种为n m r 测定的结构数据。r c s b 的主服务器和世界各地的镜像服务 北京工业大学工学硕士学位论文 器提供数据库的检索和下载服务,以及关于p d b 数据文件格式和其它文档的说 明,p d b 数据还可以从发行的光盘获得。 p d b 数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。 除了原子坐标外,还包括物种来源、化合物名称以及有关文献等基本注释信息。 此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、配体分子式、 金属离子、二级结构信息、二硫键位置等和结构有关的数据。p d b 数据库可以 用文字编辑软件查看,使用r a s m o l 等软件可以在计算机上按p d b 文件分析和显 示生物大分子的三维结构。 r c s b 的p d b 数据库网址是:h ! p ;纽型:! ! i b :! ! g p d b ,在世界许多地方 设有p d b 镜像点。 2 1 2p i r 和p s d 国际蛋白质序列数据库( p s d ) 是由蛋白质信息资源( f i r ) 、慕尼黑蛋白质序 列信息中心( m i p s ) 和日本国际蛋白质序列数据库( j i p i d ) 共同维护的国际上最 早的也是最大的公共蛋白质序列数据库,在6 0 年代早期发展建立的。这是一个 全面的、经过注释的、非冗余的蛋白质序列数据库,含有从p i r p s d ,s w i s s - p r o t , t r e m b l ,c e n p e p t ,r e f s e q 、p d b 收集来的约8 0 0 0 0 0 条序列,其中包括来自几 十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过9 9 的序列已 按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。p s d 的注释中还 包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条 目之间的索引,这些内部索引帮助用户在包括复合物、酶一底物相互作用、活 化和调控级联和具有共同特征的条目之间方便的检索。该数据库可接受网络递 交数据,每季度都发行一次完整的数据库,每周可以得到更新部分。 p s d 数据库有几个辅助数据库,如基于超家族的非冗余库等。p 豫提供三类 序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括b l a s t 、 f a s t a 等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按 注释分类的相似性搜索、结构域搜索g e n e f i n d 等。 p i r 和p s d 的网址是:丛卫;z z p i ! :g i ! 强! ! ! 业:! d ! 。 数据库下载地址是:! ! 卫;z 出! ! 垦:g q ! 驾! ! ! 曼! :! 地血i ! 。 第2 章数据的来源和表示 2 1 3s w i s s - p r o t s w i s s p r o t 是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所 ( e b i ) 维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文 献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊 位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的 关系、序列变异体和冲突等信息。s w i s s - p r o t 是对资料正确性把关很严格的资 料库,只接受直接测序获得的蛋白质序列,即只有实际存在的蛋白质才被收入, 序列提交可以在其w e b 页面上完成。其中尽可能减少了冗余序列,并与其它3 0 多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构 库等。 s w i s s p r o t 数据库的结构使之可以直接有效地连接到不同的查询区域,即 查询软件不需要搜索整个文本区,就可以直接定位到所要查询的字段行。并且, 由于s w i s s p r o t 数据库还具有生物学的意义,所以它也是较广泛使用的蛋白质 序列数据库。 s w i s s p r o t 的网址是:! p ;! 璺里:! b i :丝:! k ;旦i ! ! 卫! ! ! 。 2 1 4h s s p h s s p 是根据同源性导出的蛋白质二级结构数据库。对于一个蛋白质,h s s p 结合三维结构数据和序列数据,其数据来源于p d b ,或来源于其它蛋白质序列 数据库,如s w i s s p r o t 。对于p d b 中的每一个蛋白质,都有一个对应的h s s p 文 件,h s s p 将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白 质聚集成结构同源的家族。如果家族成员中有一个已知三维结构,则可以推测 家族其它成员的三维结构、二级结构或者折叠。所以h s s p 不仅是序列家族对比 排列数据库,同时该数据库隐含了二级结构和空间结构信息,这覆盖了 s w i s s p r o t 中2 7 的蛋白质。 其网址为:h t t p :w w w , s a n d e r , e m b l - h e i d e l b e r g , d e h s s p 。 2 1 5c a t h 北京工业大学工学硕士学位论文 c a t h 数据库是一个有关蛋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论