(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf_第1页
(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf_第2页
(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf_第3页
(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf_第4页
(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于智能计算模型的蛋白质功能位点的预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅或借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 中国科学技术大学硕士学位论文摘要 摘要 计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。蛋白质 功能位点的预测因其在医学特别是在揭示生命奥秘、功能蛋白质组学研究方面具有重 要意义,引起了生物和医学工作者的极大关注。利用生物实验手段获取蛋白质功能位 点是非常耗时耗力的,这就要求我们借助于计算的手段从序列预测其功能位点。对于 蛋白质翻译后的磷酸化修饰位点和酶的催化活性位点的预测问题,本文提出了两个摹 于智能计算模型的预测方法。其主要内容和贡献包括: ( i ) 蛋白质磷酸化位点预测 蛋白质磷酸化作为翻译后修饰的一种,目前常见的预测方法主要有基于组的g p s 方法、基于b a y e s 决策论的p p s p 方法和基于支持向量机( s v m ) 方法和隐马尔可犬方 法( h m m ) 等机器学习方法,它们基本都依赖于序列保守性特性。本文提出了融入蛋 白质结构信息的基于b p 神经网络模型的预测方法。有关文献表明,磷酸化位点更倾向 于出现c ( c o i l ) 形式二级结构和b ( b u r i e d ) 形式三级结构。我们实验评价标准m c c 的值为o 8 7 ,优于s c a n s i t e 2 0 和p r e d p h o s p h o 预测方法。在此基础上,我们进一步提出 了两阶段神经网络模型的预测方法,第二阶段的模型去提炼第一阶段的结果,对于蛋 白激酶p k a ,我们得到的灵敏度和特异性分别为9 3 2 6 和9 4 1 4 。 ( 2 ) 酶的活性位点预测 酶作为一种特殊的蛋白质,对化学反应起n s n 速催化作用。它的催化活性位点是 这一功能的重要参与残基。到目前为止,关于活性催化位点的预测有多序列比对方法、 计算几何方法、演化跟踪方法以及能量函数计算方法等,但是都没有给出令人满意的 结果。本文提出了基于朴素贝叶斯模型的方法,并且使用了新的残基二级结构属性, 给出了比较满意的预测精度和对间效率,灵敏度和特异性分别为:8 8 6 ,9 3 7 。实 验证实了恰当的模型选择、充足的数据集以及合适的输入属性( 残基属性) 对提高预 测精度和时间效率都起到积极作用。 中国科学技术大学硕士学位论文 本文工作的特色和创新在于:考虑到了结构和功能的关系,融入二级结构和二 级构信息,并且给出了一定的简化表示方法。对于二级结构我们只考虑了h 、e 、c 三 种状态;三级结构也只考虑了e 、b 两种状态。除此以外,在神经网络基础上,增加到 两个阶段,并且融入了磷酸化修饰的模体信息,第二阶段对第一阶段的结果进行了提 炼;首次运用朴素贝叶斯统计分类模型来解决酶的活性位点预测问题。在其输入参 数中,不仅充分考虑到了序列保守性特征,而且更多的结构信息、残基生化属性也被 考虑。七种状态较为详细地描述了氨基酸的二级结构。关于三级结构,我们从更多的 角度体现它,使用了残基溶剂可访问性值、表面裂口信息以及反映残基弹性的b f a c t o r 值。这个模型和方法给我们预测其他功能位点( 磷酸化位点、蛋白质与蛋白质相互作 用位点) 提供了很好的参考,同样适合他们的预测。 关键词:计算生物学;结构;磷酸化位点;活性位点;神经网络;贝叶斯 中国科学技术大学硕士学位论文 a b s t r a c t a b s t r a c t t h er a p i dd e v e l o p m e n to fc o m p u t e ra n dn e t w o r kt e c h n o l o g yh a se q u i p p e dm o l e c u l a r b i o l o g i s tw i t hn o v e lp o w e r f u lm e t h o d s r e s e a r c ho np r e d i c t i n gf u n c t i o n a l l yi m p o r t a n ts i t e s o fp r o t e i n sh a sa t t r a c t e d g r e a ta t t e n t i o no fb i o l o g ya n dm e d i c a lr e s e a r c h e r l 3 f o ri t s s i g n i f i c a n c ei nu n d e r s t a n d i n gl i f es e 嘣ea n df u n c t i o n a lp r o t e o m i e s i ti st i m ec o n s u m i n g a n dv e r ye x p e n s i v et og e tp r o t e i nf u n c t i o n a ls i t e st h r o u g he x p e r i m e n t a lm e t h o d s ,a n dw e n e e dr e s o r tt oc o m p u t a t i o n a lt e c h n i q u e sf o rp r e d i c t i n gt h e mf r o ms e q u e n c e a sf o rt w o p r o b l e m s :p o s t - t r a n s l a t i o n a lm o d i f i c a t i o np h o s p h o r y l a t i o ns i t e so np r o t e i na n dc a t a l y t i cs i t e s o ne n z y m e ,w ep u tf o r w a r dt w od i f f e r e n tp r e d i c t i o nm o d e l si nt h i sp a p e r t h em a i nc o n t e n t a n dc o n t r i b u t i o n si n c l u d e : ( 1 ) p r e d i c t i n g p h o s p h o r y l a t i o n s i t e s a n p r o t e i n p r o t e i np h o s p h o r y l a t i o ni sak i n do fp r o t e i np o s t - t r a n s l a t i o n a lm o d i f i c a t i o n t h ec o m m o n m e t h o d sa r eg p sb a s e do ng r o u p p p s pb a s e do nb a y e sd e c i s i o nt h e o r ya n ds o m em a c h i n e l e a r n i n gt e c h n i q u e ss u c ha ss v ma n dh m m t h e ya r eb a s e do r ls e q u e n c ec o n s e r v a t i o n i n t h i sp a p e r , w ei n c o r p o r a t ep r o t e i ns t r u c t u r e i n f o r m a t i o ni n t ob pn e u r a ln e t w o r k i n gm o d e l s o m ee x p e r i m e n ts h o w e dt h a tp h o s p h o r y l a t i o ns i t e sp r e f e rt ocf o rs e c o n d a r ys t r u c t o r ea n d bf o rt e r t i a r ys t r u c t u r e w eo u t p e r f o r mi nm c c ( 0 ,8 7 ) c o m p a r e dw i t hs c a n s i t e2 0a n d p r e x i p h o s p h om e t h o d s ,a f t e rt h i se x p e r i m e n t , w ep u tf o r w a r dan e wm e t h o dw h i c hu s e s t w o - s t a g en e u r a ln e t w o r km o d e l t h es e c o n dn e u r a ln e t w o r k r e f i n e so u t p u t sp r o d u c e db yt h e f i r s tn e u r a ln e t w o r k a sf o rp r o t e i nk i n a s ep k a ,t h es e n s i t i v i t ya n ds p e c i f i c i t ya r c9 3 2 6 a n d9 4 1 4 r e s p e c t i v e l y 。 ( 2 ) p r e d i c t i n gc a t a 帆i es i t e so ne n z y m e e n z y m e ,ak i n do fs p e c i f i cp r o t e i n , p l a y sa ni m p o r t a n tr o l ei na c c e l e r a t i n gs o m 8c h e m i c a l r e a c t i o n si nw h i c hi t sc a t a l y t i cs i t e sa r ei n v o l v e d s of a r , t h e r ea r es o m er e s e a r c h e so n c a t a l y t i cs i t e sp r e d i c t i o ns u c ha sm u l t i p l es e q u e n c ea l i g n m e n t , c o m p u t a t i o n a lg e o m e t r y , e v o l u t i o n a r yt r a c ea n de n e r g yc a l c u l a t i o n h o w e v e r , w eh a v en o tr e c e i v e da n ys a t i s f i e d 3 中嚣科学技本大学硕士学位论文 a b 鞋f 8 c l r e s u l t sb ya p p l y i n gc o m p u t a t i o n a lt e c h n i q u e so np r e d i c t i n ga c t i v es i t e so ne n z y m e s t h i s p a p e rb r i n g sf o r w a r dan o v e lm e t h o db a s e do nn a i v eb a y e sm o d e l s i tr e a c h e ss a t i s f i e d p r e d i c t i o na c c u r a c ya n dt i m ee f f i c i e n c yt h r o u g hu s i n gs p e c i f i cm e t h o d se x p r e s s i n gt e r t i a r y s t r a c t u r eo fp r o t e i n s s e n s i t i v i t ya n ds p e c i f i c i t ya 8 8 6 a n d9 3 7 r e s p e c t i v e l y e x p e r i m e n tr e s u l t ss h o wt h a ta p p r o p r i a t em o d e ls e l e c t i o n ,a b u n d a n ts a m p l ed a t aa n dp r e t t y i n p u tp a r a m e t e r s ( r e s i d u ea t t r i h u m s ) m a k ep o s i t i v e c o n t r i b u t i o n st oi m p r o v ep r e d i c t i o n a c c u r a c ya n d t i m ee f f i c i e n c i e s t h ec h a r a c t e r i s t i c sa n di n n o v a t i o n so f t h i sd i s s e r t a t i o na r e :w ec o n s i d e rt h er e l a t i o n s h i p b e t w e e ns t r u c t u r ea n df u n c t i o n ,i n c o r p o r a t es e c o n d a r ya n dt e r t i a r ys t r u c t u r ei n f o r m a t i o n w h i c ha r cs u b s t i t u t e db yo t h e rf o r m s w eo n l yu s et h r e es t a t e s :h ea n dcf o rs e c o n d a r y s t r u c t u r ea n do n l yt w os t a t e s :ea n dbf o rt e r t i a r ys t r u c t u r e i na d d i t i o n t h es e c o n ds t a g e n e u r a ln e t w o r km o d e lw i t hm o d i f i c a t i o nm o t i fk n o w l e d g er e f i n e st h er e s u l t sf r o mf i r s ts t a g e n e u r a ln e t w o r k ;i ti st h ef i r s tt i m et oa p p l yn a f v eb a y e ss t a t i s t i c a lm o d e lt os o l v e c a t a l y t i cs i t e sp r e d i c t i o np r o b l e m s a sf o ri n p u tp a r a m e t e r s ,w en o to n l yc o n s i d e rs e q u e n c e c o n s e r v a t i o n c h a r a c t e d s t i e s , b u t a l s om o r es t r u c t u r a li n f o r m a t i o na n dr e s i d u e e h e m i c o - p h y s i c a la t t r i b u t e s s e c o n d a r ys t r u c t u r eo fa m i n o a c i di sd e s c r i b e db ys e v e ns t a t e s i nd e t a i l s i m i l a r l y , s u r f a c ec l e f t , s o l v e n ta c c e s s i b i l i t ya n db f a c t o rr e f l e c tp r o t e i nt e r t i a r y s t r u c t u r e t h i sm o d e lp r o v i d e sag o o dr e f e r e n c et oo t h e rf u n c t i o n a l l yi m p o r t a n ts i t e s p r e d i c t i o ns u c ha sp h o s p h o r y l a t i o ns i t e s ,p r o t e i n - p r o t e i ni n t e r a c t i o ns i t e s i ta l s of i t st h e m w e l l k e y w o r d s :c o m p u t a t i o n a lb i o l o g y , s t r u c t u r e , p h o s p h o r y l a t i o ns i t e s , a c t i v es i t e s , n e u r a l n e t w o r k b a y e s 4 中国科学技术大学硕士学位论文 第一一幸绪论 第一章绪论 本章概要本章给出了整个论文的主要研究内容。在此之前我们先要简单介绍 计算生物学的概念及研究领域。接下来,我们给出了蛋白质功能位点( 磷酸化位 点、酶的活性位点) 预测的研究意义以及前人在这方面所取得的工作成果。我们 还提供了一个简单的资源列表,通过该列表可以熟悉和跟进包括功能位点预测在 内的多个计算生物学研究课题的进展。本章最后给出r 全文的章节安排。 1 1 研究领域介绍 1 1 1 计算生物学 这篇论文的题目“基于智能计算模型的蛋白质功能位点的预测”充分说明了其内 容既和计算机科学又和生物学相关。计算生物学就是这样的一门新兴交叉学科,它一 般是用数学或者计算机手段来解决生物和医学研究中出现的问题。本文研究内容是属 于结构和功能蛋白质组学,其研究动机毫无疑问来自生物和医学,但是在解决问题过 程中,我们使用的是典型的计算机科学和统计学方法。 计算生物学( c o m p u t a t i o n a lb i o l o g y ) ,在越来越多的人那里,被当作生物信息学 ( b i o i n f o r m a t i c s ) 的同义词处理;但有一些人则坚持认为计算生物学和生物信息学应 当有不同的含义,因为生物信息学主要关注生物学中所得信息的采集、存储、分析处 理以及如何提供服务,而计算生物学则侧重于使用计算手段解决生物问题;甚至。还 有一些人认为,和生物信息学应该是包含与被包含的关系。第三类人可以细分成两种: 其一认为生物信息学的内涵较广,它不光包括传统生物信息学的领域,也包括新兴的 主要的生物数据库和网上数据服务等问题;另外一些人则执完全相反的意见,他们认 为计算生物学包含普通生物信息学所不包含的大分子体系模拟等研究课题。 在这里,我们并不打算给出自己的看法。然而按传统习惯,本文使用“计算牛物学” 这一提法,因为文中涉及到计算机科学范畴的内容主要是典型的智能计算模型、聚类 方法、统计方法以及算法设计,这些都与信息处理和服务没有多大关系。 串置科学技术大学硕士学位论文 第掌绪论 计算生物学的研究领域十分广泛,一般来说,只要是分子牛物学所涉及的计算课题, 都可以列入其中。传统的计算生物学研究课题主要包括:序列比对和同源序列检索、 进化树构建、基因发现、基因表达数据分析、模体发现、蛋白质结构和功能预测、r n a 结构预测、蛋白质设计、蛋白质相互作用等。随着研究的进一步深入以及各个大型计 划等的完成或者进行,一些新的研究课题吸引了越来越多研究者的目光。其中包括: 基因本体论和基因组语义学、生物过程路线图及作用网络、单体型分析、牛物文献挖 掘、细胞和组织建模等。由此可见,计算机的触角已经深入分子牛物学研究的方方面 面之中。 1 1 2 分子生物学 现代分子生物学认为,生命是由基因组( g e n o m e ) 决定的。每个生物个体都具有 基因组,基因组携带着构成和维持生物体生命形式所必需的全部牛物信息。绝大部分 基因组有d n a ( 脱氧核糖核酸) 组成。d n a 序列通过转录、翻译以及翻译后修饰彤成 蛋白质序列。蛋白质是生物活动的必需,各种生命的疾病都与蛋白质功能的损坏有关。 蛋白质的结构形式有四种,一级结构就是通常所提到的序列;二级结构分为很多 种,我们这里只提3 种最常见的_ a l p h a 螺旋、b e t a 片、无规则卷区;三级结构是指所 有原子的空间三维坐标,是蛋白质折叠后的形式,也是其行使功能的形式;四级结构 主要是指多个亚单位之间形成的独立单元。 基因调控使我们具有相同遗传物质的细胞发育分化成不同性状和不同牛理功能。 在一个具体的环境里,一个细胞只有某些基因被表达。通常这是借助具有调控作用的 蛋白质( 如转录因子( t r a n s c r i p t i o n f a c t o r s ) ) 和d n a 序列中调控位点( r e g u l a t o r ys i t e s ) 的结合来完成。调控位点出现在相关基因的调控区域中,并且通常是保守序列模式。 诸如此类在d n a 序列中具有特定功能并且保守的序列片断称之为模体( m o t i f ) ,有时 也称为d n a 信号。对于蛋白质氨基酸序列而言,同样存在这样的模体。在d n a 序列 或者蛋白质序列中找出模体对于深入基因调控机制、蛋白质相互作用、蛋白质设计、 发现生物功能位点有着重要的意义。 中国科学技术大学硕士学位论文 第尊绪论 1 2 本文研究问题及意义 随着大量d n a 序列数据的不断涌现,人们意识到仅仅靠基因组的序列来试图阐明 生命现象是远远不够的。蛋白质本身的存在形式和活动规律,如翻译后修饰、蛋白质 间相互作用以及蛋白质结构等问题,必须要依赖于对蛋白质组学的研究来解决。蛋白 质组学使我们从综合和总体的角度,在分子水平上来研究和把握牛命现象,这对于理 解生命现象的本质,对于生命科学的每一个分支都将起到强有力的推动作用。仟何一 种疾病在表现出可察觉的症状之前,就已经有一些蛋白质发牛了变化。因此寻找各种 疾病的关键蛋白和标志蛋白,对于疾病的诊断、病理的研究和药物的筛选都具有重要 意义 通过多年各国生物学家,物理化学学家等的努力,对于蛋白质序列的测定技术已经 比较熟练的掌握,每年产生大量新的d n a 序列和蛋白质序列。然后与此相矛盾的是, 对蛋白质的结构和功能的了解却远远的滞后。各种新型手段( 核磁共振,质谱仪等实 验手段) 测定蛋白质空间三维结构已经基本成为生物上获取的一种重要方式,但是其 代价是极其昂贵的。于是出现了各种以计算为手段的方法,从序列预测蛋白质结构和 功能,这对促进计算生物学发展和生物制药的进步具有积极作用。蛋白质结构钡测大 赛c a s p t l 】已经成功举办了7 届,也孕育出了大量的新方法。 蛋白质通过折叠成三维结构行使某些功能,测定出其空间结构的终极目标是了解其 功能。这样从结构推断功能无疑成为研究热点。但是实验测定的结构数目的限制以及 实验代价让我们很多研究者选择了另外一条道路:从序列的角度,加以结构的辅助作 用来预测其功能。预测蛋白质功能的重要工作之一就是从序列上预测出功能上重要的 位点( 磷酸化位点、活性位点等) ,因为功能位点往往体现了这个蛋白质的本质所在。 对于翻译后修饰的功能位点的一种:磷酸化位点的计算手段预测,到目前为止出现的 比较多,大多从序列角度出发,比较典型的是f e n g f e n gz h o u 等开发的g p s 聚类的方 法【2 】。也有基于机器学习的方法:支持向量机的方法( s v m ) o l 、隐马尔可犬方法( h m m ) 州等。随着蛋白质结构数量的逐渐增加,本文抓住了这个数据量的背景,结合某些结构 信息给出了基于b p 神经网络模型方法的预测,我们也给出了两阶段神经网络模型并结 9 中国科学技术大学硕士学位论文蒋章绪论 合模体知识和聚类的方法给出精度更高的预测;关于酶的活性位点的预测,真正意义 上计算手段的预测方法很少,有l i a n g 等提出的计算几何的方法【5 】、l i c h t a r g e 等提出的 演化跟踪【6 】等方法。酶作为一种特殊的蛋白质,对化学反应起到加速催化作用,预测其 催化活性位点对于我们理解某些化学反应的整个过程具有重要意义。我们给出了n a f v e b a y e s 统计手段的预测方法,而且更多的考虑了与催化特性相关的残基物理化学属性。 作为一门新兴的学科领域,计算生物学内涵非常丰富,其核,t l , 是基因组和蛋白质组 信息学,包括基因与蛋白质序列信息的获取、处理、存储和解释。牛物信息学的关键 是用计算的方法阐明和理解大量数据所包括的生物学意义,并通过计算的方法为牛物 学家的科学实验提供帮助。对于生物序列数据包括所有编码与非编码基因在染色体上 的位置、功能以及相互作用关系;在发现新基因信息之后翻译成蛋白质序列,进一步 模拟预测蛋白质空间结构和功能,还可以依据特定蛋白质的功能进行药物设计。 1 3 文献资源 计算生物学的研究离不开与国际国内同行的交流以及丰富的文献资源。为了便于 调研、学习和研究,我们列出了一些在计算生物学领域有影响的杂志、期刊会议以及 网站供参考。 电子文献资源 a c m 电子文献资源数据库 皿e 电子文献资源数据库 e l s e v i e r 电子文献资源数据库 s p r i n g e r 电子文献资源数据库 o x f o r d 电子文献资源数据库 b i o m e dc e n t r a l 电子文献资源数据库 a c a d e m i c 电子文献资源数据库 h i g l l w r e 电子文献资源数据库 期刊 0 中国科学技术大学硕士学位论文 第章绪论 b i o i n f o r m a t i 龉 b m cb i o i n f o r m a t i c s n u c l e i ca c i d sr e s e a r c h ,n a r g c n o m er e s e a r c h p r o t e i n s :s t r u c t u r e ,f u n c t i o na n db i o i n f o r m a t i c s j o u r n a lo fc o m p u t a t i o n a lb i o l o g y , j c b j o u r n a lo f b i o i n f o r m a t i c sa n dc o m p u t a t i o n a lb i o l o g y , j b c b m e e a c mt r a n s a c t i o n so nc o m p u t a t i o n a lb i o l o g ya n db i o i n f o r m a t i c s t c b b g e n o m i c s ,p r o t e o m i c sa n db i o i n f o r m a t i c s t h ep r o c e e d i n g so f n a t i o n a la m c r i c 柚s c i e n c e ,p n a s i n t e r n a t i o n a lj o u r n a lo f b i o i n f o r m a t i c sr e s e a r c ha n da p p l i c a t i o n s ,i j b r a 会议 a n n u a lc o n f e r e n c eo nc o m p u t a t i o n a lb i o l o g y ( r e c o m b ) i n t e l l i g e n ts y s t e m sf o rm o l e c u l a rb i o l o g yo s m b ) i e e e c o m p u t a t i o n a ls y s t e m s b i o i n f o r m a t i e sc o n f e r e n c e ( c s b ) w o r k s h o po na l g o r i t h m si nb i o i n f o r m a t i c s ( w a r n ) p a c i f i cs y m p o s i u mo i lb i o c o m p u t i n g 口s b ) e u r o p e a nc o n f e r e n c eo nc o m p u t a t i o n a lb i o l o g y ( e c c b ) 正e ec o n f e r e n c eo nb i o t e c h n o l o g ya n db i o i n f o r m a t i c s ( b i b e 、 i n t e r n a t i o n a lw o r k s h o po ng e n o m el n f o r m a t i c s ( g i w ) a s i a - p a c i f i cb i o i n f o r m a t i c sc o n f e r e n c e ( a p b c ) 1 2 论文组织 本文先介绍研究课题所需要的背景知识,再按研究内容的先后次序进行撰写和编 排。全文一共五章,各章节的内容安排如下。 第一章绪论本章给出整个论文的主要研究内容。首先简要介绍计算牛物学的 概念及研究领域。接下来,给出了一些生物学的背景知识介绍,最后给出了蛋白质功 能位点预测的研究意义以及前人在这方面已经取得的工作成果。本章还提供了一个简 中田科学技术大学硕士学位论文 第章绪论 单的资源列表,通过该列表可以熟悉和跟进计算生物学研究课题的进展,最后给出了 全文章节的安排。 第二章生物学知识及研究背景 本章给出了有关的分了牛物学背景知识。蛋臼 质中心法则,蛋白质结构知识,序列结构功能关系,氨基酸的各种生物物理属性,序 列模体( m o t i f ) 的概念等为我们进行计算手段预测功能位点提供了基本知识,有助f 我们理解他们在生物医学上的重大意义。当然这里也提到了为什么要用计算下段进行 预测。随后简要介绍了智能计算模型中的神经网络模型和贝叶斯模型的摹本知识。 第三章蛋白质磷酸化位点的预测从本章开始,介绍了两种关于磷酸化位点的 预测模型及算法。我们首先结合蛋自质的结构信息、残基的生物物理属性,利用b p 神 经网络模型给出了预测。紧接着,我们利用两阶段神经网络模型,并结合已知部分的 磷酸化位点修饰的序列模体知识给出了更精确地预测。这两种方法中都涉及到了摹于 距离的聚类算法。 第四章酶的活性位点预测本章给出了一类特殊的功能位点的预测。酶的活性 位点对于其参与的化学反应起到加速作用,对于理解酶的功能具有重要意义。从实验 手段获得活性位点比较耗时。我们从序列出发借助于贝时斯模型给出了较为精确地预 测,并且在此基础上实现了w e b 服务,为生物学家的实验验证提供了可靠的| j i 期准备, 大大缩短实验时间。 第五章总结 本章对全文的工作、研究方法和结果、贡献和创新之处进行了总 结,并给出了进一步的研究方向和研究问题。 中国科学技术大学硕士学位论文 第,漳生物学期i i l 及研究f t 景 第二章生物学知识及研究背景 本章概要本章给出了与蛋白质功能位点预测研究相关的分子生物学背景知识, 智能计算模型的背景以及关于此类研究已有工作等的介绍。我们首先给出j ,蛋白 质中心法则、结构概念、一些残基的化学物理属性、序列模体概念、功能位点概 念。这些概念有助于了解本文工作内容以及在生物医学研究上的意义。随后我们 给出了与我们相关的智能计算模型的基本知识以及一些已有的工作背景。 2 1 分子生物学基础知识 2 1 1 从d n a 到蛋白质 分子生物学研究已经证实,d n a 控制了生物的性状遗传。无论d n a 或r n a ,都 是由许许多多个核苷酸连接而成的生物大分子,而每个核苷酸又由磷酸、核糖和碱摹 三部分组成基因作为唯一能够自主复制、永久存在的单位,其生物学功能5 ;舜白 质的形式表达出来的。d n a 序列是遗传信息的贮存者,它通过自主复制得到永存。并 通过转录生成信使r n a ,翻译生成蛋白质的过程来控制生命现象。如图2 - 1 所示。d n a 图2 1c r i c k 的中心法则( c e n t r a ld o g m a ) l ,。1 分子中的核苷酸排列顺序不但决定了胞内所有r n a 及蛋白质的基本结构,还通过蛋白 质( 酶) 的功能间接控制了细胞内全部有效成份的生产、运转和功能发挥。与m r n a 序列相同的那条d n a 链是编码链( c o d i n gs t r a n d ) 或称有意义连( s e n s es t r a n d ) ,另4 条根 据碱基互补原则指导m r n a 合成的d n a 链则被称为模板链( r e m p l a t es t r a n d ) 或称反义链 ( a n t i s e n s es t r a n d ) ,如图2 - 2 所示。d n a 和r n a 虽然很相似,只有t 或u 及核糖的 中国科学技术大学硕士学位论文 第:章生物宁知识及研究f f 篡 f 晶2 ;8 ”l l 氪蓥端 豁2g a f gt “auj i a l ,tatf 2 焉: l l l ;ta1 i 譬:2吕甲”l a u jl t m au p h e 黜苫 l a co1 l c ock c - gcj 。t i , , a 翌咖 t a u j 5 “5 r丫j 8 ,l l 羧旗端 。 l 。 中国科学技术大学硕士学位论文第章生物学知识及研究f t 精 同,很容易从d n a 链上掉下来并导致转录重新开始。一旦r n a 聚合酶成功地合成9 个以 上核苷酸并离开启动子区,转录就进入正常的延伸阶段。所以,通过房动了的时间代 表一个启动子的强弱。一般说来,通过启动子的时间越短,该基因转录起始的频率也 越高。r n a 聚合酶离开启动子,沿d n a 链移动并使新生r n a 链不断伸长的过程就是转 录的延伸。这样的转录过程形成t p r e - m r n a 。p r e m r n a 到成熟的m r n a 具体过程, 也p 4 p r e - m r n a 剪接,即把内含子去除并把外显子序列连接成为成熟的m r n a ,是基冈表 达与调控的重要环节之一。蛋白质是生物信息通路上的终产物,一个 舌细胞在仟何发 育阶段都需要数千种不同的蛋白质。因此,活细胞内时刻进行着各种蛋白质的合成、 修饰、运转和降解反应。所谓翻译是指将m r n a 链上的核苷酸从一个特定的起始位点扦 始,按每3 个核苷酸代表一个氨基酸的原则,依次合成一条多肽链的过程。这3 个核苷 酸就是一个密码子。翻译从起始密码子a u g 开始,沿m r n a5 一3 方向连续阅读密码 子,直至终止密码子为止,生成一条具有特定序列的多肽链蛋白质。其翻译过程 主要有翻译的起始、延长和终止。前体蛋白是没有活性的,常常要进行一个系列的翻 译后加工,才能成为具有功能的成熟蛋白。加工的类型是多种多样的,一般分为四种: n - 端t m e t 或m e t 的切除,二硫键的形成;化学修饰和剪切。如图2 3 所示。氨摹酸侧链 的修饰作用包括磷酸化( 如核糖体蛋白质) 、糖基化( 如各种糖蛋白) ,甲皋化( 如 组蛋白、肌肉蛋白质) 、乙基化( 如组蛋白) 、羟基化( 如胶原蛋白) 和羧募化等。 其中本文即将讨论的磷酸化位点预测,是对信号传导、医药研究等有重要意义。 中国科学技术大学硕士学位论文 第章生物学知识及研究f f j j i 图2 3 大肠杆菌中依赖于d n a 的r n a 转录过程图示【7 8 1 2 1 2 蛋白质结构 蛋白质是生命的物质基础,生物体内的蛋白质含量除水以外,机体组织中最多的 是蛋白质,占人体干重的4 5 。蛋白质分子中,基本上是由2 0 种氨基酸以肽键连接成肽 链。一个氨基酸的a c o o h 和相邻的另一个氨基酸的a n h 2 脱水形成共价键。肽链两 端有自由- n i - 1 2 和一c 0 0 h ,自由- n i - 1 2 端称为n 末端( 氨基末端) ,自由- c o o h 端称为c 末 端( 羧基末端) 。构成肽链的氨基酸己残缺不全,称为氨基酸残綦。 蛋白质的一级结构主要是指氨基酸的排列顺序。肽键连接成肽链称为蛋白质的一 级结构。不同蛋白质其肽链的长度不同,肽链中不同氨基酸的组成和排列顺序也并不 相同。如图2 4 所示。 中鱼罩毒学技术大学硕士学位论文第一章生物学知识及研究背最 肽链在空间卷曲折叠成为特定的三维空间结构,包括二级结构和二级结构:二个串 要层次。在本文中所提到的二级结构,我们给出了一些分类。_ 辛要的就二类:a l p h a 螺 旋、b e t a 片以及无规卷区。如图2 5 所示。 图2 - 4 蛋白质的几种常见q 螺旋二级结构“” 图2 5 蛋白质常见的b 片二级结构“” 一条多肽链中所有原子在三维空间的整体排布,称为三级结构。是包括丰、侧链 中国科学技术大学硕士学位论文第章生物学知识及研究背j l 在内的空间排列。三级结构主要靠次级键( 非共价键,n o n c o v a l e n t ) 维系固定。二硫键 ( 共价键) 也参与维系三级结构。三级结构形成后,生物学活性必需基团靠近,形成 活性中心或部位,即蛋白质分子表面形成了某些发挥生物学功能的特定区域。如图2 6 所示。我们这里只需要它们的大概信息表示,处于表面还是埋藏在内部,或者直接用 溶剂可访问表面信息来表示其意思。这些我们在后面的章节会给出详细的讨论。 图2 6 三级结构的空间表象”1 1 二个或二个以上具有独立的三级结构的多肽链,彼此借次级键相连,成为一定的 空间结构,称为四级结构,如图2 7 所示。具有独立三级结构的多肽链单位,称为哑摹 或亚单位( s u b u n i t ) 。亚基可以相同,亦可以不同。单独亚基,多无生物学功能,_ 二 个以上亚基聚合成为有完整四级结构的蛋白质,才有功能。所以蛋白质分了有非常特 定的复杂的空间结构。一般认为,蛋白质的一级结构决定二级结构,二级结构决定三 级结构。另外,结构与功能之间具有密切的关系。 中国科学技术大学顼士学位论文 第漳生物皆知识及研究背j j i 图2 7 血红蛋白的四级结构【7 8 】 2 2 神经网络模型和b a y e s 统计模型 2 2 1 神经网络模型【9 1 0 删 模拟人类实际神经网络的数学方法问世以来,人们已慢慢习惯了把这种人上神经 网络直接称为神经网络。神经网络在系统辨识、模式识别、智能控制等领域有着广泛 而吸引人的前景。神经网络是一个并行分布式处理结构,它由处理单元及称为联接的 无向信号通道互连而成。这些处理单元具有局部内存,具有局部处理能力。每个单元 有一个单一的输出联接,这个输出可以根据分支成希望个数的许多并行联接,且这些 并行联接都输出相同信号,即相应处理单元的信号,信号大小不因分支多少而改变。 处理单元的输出信号可以是任何需要的数学模型,每个处理单元中进行的操作必须是 完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信 号的当前值和存储在处理单元局部内存中的值。神经网络的基础在于神经儿。神经凡 是以生物神经系统的神经细胞为基础的生物模型。在人们对生物神经系统进行研究, 以探讨人工智能的机制时,把神经元数学化,从而产生了神经元数学模型。大量的形 式相同的神经元连结在起就组成了神经网络。神经网络是一个高度非线性动力学系 中国科学技术大学硕士学位论文第:章生物擘知识及研究背j ;t 统。虽然,每个神经元的结构和功能都不复杂,但是神经网络的动态行为则是f 分复 杂的;因此,用神经网络可以表达实际物理世界的各种现象。神经网络模型是以神经 元的数学模型为基础来描述的。神经网络模型由网络拓扑、节点特点和学习规则来表 示。神经网络对人们的巨大吸引力主要在下列几点: 1 并行分布处理。2 岛度鲁 棒性和容错能力。3 分布存储及学习能力。4 能充分逼近复杂的非线性关系。利 用神经网络的学习能力,使它在对不确定性系统的控制过程中自动学习系统的特性, 从而自动适应系统随时问的特性变异,以求达到对系统的最优控制:显然这是一种十 分振奋人心的意向和方法。 人工神经网络的模型现在有数十种之多,本文主要使用了前向反馈神经网络( b p ) 。 在这里我们简要介绍下b p 网络,如图2 8 所示。 网络的拓扑 r 1 x 2 , 善| 一。t n 吧 图2 - 8 多级前馈网 一般地,设b p 网络的输入样本集为: ( x ,y ) ix 为输入向量,y 为x 对应的 理想输出向量) 。网络有n 层,第h ( 1 s h s 厅) 层神经元的个数用l h 表示,该层神经 元的激活函数用f h 表示,该层的联接矩阵为【”。显然输入输出向量的维数是由问题 所直接决定的,然而网络的隐藏层个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论