(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf_第1页
(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf_第2页
(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf_第3页
(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf_第4页
(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(生物医学工程专业论文)基于支持向量机的蛋白质相互作用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 关键词:蛋白质相互作用预测、支持向量机、机器学习 v i 上海大学硕士学位论文 a b s t r a c t t h eo p e r a t i o no fb i o l o g i c a ls y s t c mi sc l o s e l yr e l a t e dt ot h ep r o t e i n p r o t e i n i n t e r a c t i o n s a 1 1o ft h ei m p o r t a n tl i r ea c t i v i t i e s i n c l u d i n gd n as y n t h e s i s g e n e t r a n s c r i p t i o n a c t i v a t i o na n d s i g n a l t r a n s d u c t i o na r ei n v o l v e di n p r o t e i n s p r o t e i n - p r o t e i ni n t e r a c t i o ni st h eb a s i cu n i to f o fb i o l o g i c a lc o n t r o la n dt h eb a s i so f a c h i e v i n gb i o l o g i c a lf u n c t i o n u n d e r s t a n d i n gt h en a t u r ea n dt h es t r u c t u r eo fp r o t e i n a n dt h ew a yo fi n t e r a c t i o ni so fg r e a ts i g n i f i c a n c ef o rt h em e c h a n i s mr e s e a r c ho f d i s e a s e sa n dd r u gd e s i g na n d d e v e l o p m e n t i i lt 1 1 i st h e s i s ,t h em e t h o do fs u p p o r tv e c t o rm a c h i n e ( s v m ) w a su s e df o r p r e d i c t i n gp r o t e i n p r o t e i ni n t e r a c t i o n f i r s ts e q u e n c ea l i g n m e n ta n ds e c o n d a r y s t r u c t u r ep r e d i c t i o nw e r es t u d y e d t h ei m p a c tf a c t o r so fs e q u e n c ea l i g n m e n ta n d s e c o n d a r ys t r u c t u r ep r e d i c t i o nw e r ea n a l y z e da n dd i s c u s s e d t h ei m p r o v e dm e t h o d o ff u n c t i o no fd e g r e eo fd i s a g r e e m e n ( f d o d ) a l g o r i t h mw a su s e dt op r e d i c t p r o t e i ns e c o n d a r ys t r u c t u r e t h eh y d r o p h o b i cv a l u e sw e r ea p p l i e dt or e d u c et h e c o m p u t a t i o na n dt h es e q u e n c em u l t i p l ea l i g n m e n tp r o g r a m m ep s i b l a s tw a s u s e dt oi m p r o v et h ea c c u r a c yr a t e t h er e s u l tw a se n h e n c e d3 5p e r c e n t a g ep o i n t s t h a l lt h eo r i g i n a l a l g o r i t h m s e c o n d p r o t e i n p r o t e i ni n t e r a c t i n sp r e d i c t i o nw a s c a r r i e d t h ep r o t e i n - p r o t e i ni n t e r a c t i o np a i r sw e r e d o w n l o a d e df r o mt h ed i p d a t a b a s ea n d17 ,0 0 0p r o t e i n sp a i r sw e r es e l e c t e dt oc o n s t r u c tt h ep o s i t i v ed a t as e t t h el7 ,0 0 0p r o t e i n sp a i r sw e r ea c q u i r e df r o mt h en e g a t i v ed a t as e t t h en e g a t i v e d a t as e tw a sc o n s t r u c t e db yu s i n gr a n d o mc o m b i n a t i o na m a n gd i f f e r e n tp r o t e i n s a n de x c l u d i n gt h ei n t e r a c t i o np a i r s t h ef e a t u r ev e c t o r sw e r ec o m p o s e do ft h e p r e d i c t i o nr e s u l to fs e c o n d a r ys t r u c t u r ef r o mf d o da n do t h e rp h y s i c a la n d c h e m i c a lp r o p e r t i e so fa m i n oa c i d s t h ep h y s i c a la n dc h e m i c a lp r o p e r t i e sw e r e d e s c r i b e db yt h ew a yo fc o m p o s i t i o n ,t r a n s f o r m a t i o na n dd i s t r i b u t i o na n de a c h p r o t e i n sp a i rw a sc h a r a c t e r i z e da s2 7 8d i m e n s i o n a lf e a t u r ev e c t o r s t h ep r e d i c t i o n a c c u r a c yr a t ew a s7 5 8 6 i no r d e rt ot a k ea c c o u n to ft h ee n v i r o n m e n ti m p a c to f t h ea m i n oa c i d s t h em e t h o do fp r e d i c t i n gp r o t e i n p r o t e i ni n t e r a c t i o n sb a s e do n l yo n t h es e q u e n c ei n f o r m a t i o n sw a su s e d t h e2 0k i n d so fa m i n oa c i d sw e r ed i v i d e di n t o s e v e nc a t e g o r i e so nt h eb a s i so ft h ev o l u m eo ft h ep r o t e i ns i d ec h a i n sa n dd i p o l e v a l u e t h ef r a g m e n t so ft h et h r e ea d j a c e n ta m i n oa c i dr e s i d u e sw e r et r e a t e da sa u n i t t h ep r o b a b i l i t yo fe a c hk i n do ff r a g m e n ti nap r o t e i ns e q u e n c ew a sc a l c u l a t e d a n da tl a s te a c hp r o t e i n sp a i rw a sc h a r a c t e r i z e da s6 8 6d i m e n s i o n a lf e a t u r ev e c t o r s a n dt h ep r e d i c t i o na c c u r a c yr a t ew a s7 9 6 3 c o m p a r i n gt h ea d v a n t a g e sa n d d i s a d v a n t a g e so ft h et w om e t h o d sm e n t i o n e da b o v e ,a ni m p r o v e dm e t h o dw a s p r o p o s e db yc o m b i n a t i o no ft h et w of o r w a r dm e t h o d s i nt h ei m p r o v e dm e t h o d u n c e r t a i n t i e sp h y s i c a la n dc h e m i c a lc h a r a c t e r i s t i c so fa m i n oa c i dw e r er e m o v e da n d t h ef d o da l g o r i t h mw a sp u ti n t ou s et oi n s t e a do ft h es e c o n d a r ys t r u c t r ea n dt h e s o l v e n ta c c e s s i b i l i t y e a c hp r o t e i n sp a i rw a sc h a r a c t e r i z e da s212d i m e n s i o n a l f e a t u r ev e c t o r sa n dt h ep r e d i c t i o na c c u r a c y p r e c i s i o na n dr e c a l lw a sr e a c h e d 8 3 7 2 ,8 4 6 7 ,8 2 1 5 r e s p e c t i v e l y t h er e s u l tw a sc l o s et ot h ea d v a n c e d m e t h o d sa th o m ea n da b r o a dw h i c hv a l i d a t e dt h ep r o p o s e dm e t h o d k e y w o r d s :p r o t e i n p r o t e i ni n t e r a c t i o n s ,s u p p o r tv e c t o rm a c h i n e s m a c h i n e v i i 上海大学硕士学位论文 v l l i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:盔堑数日期:迹! 三,3 1 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:辑日期:埘 上海大学硕士学位论文 第一章绪论 蛋白质是细胞和生命活动的基本组成物质,新陈代谢、信号传导、基因表达 调控等一切生命活动都与蛋白质密切相关。细胞中各种生物分子紧密地依赖于自 身与周边环境的交流能力,通过错综复杂的相互作用网络来实现各自的功能,维 持生物体正常的生命活动。因此,研究蛋白质一蛋白质相互作用,从基因组编码 蛋白的相互作用水平阐释基因组功能,对深刻了解生命体作用机制具有重要意 义。 1 1 研究背景 1 1 1 蛋白质组学 由于受诸多因素的影响,传统的对单个蛋白质进行研究的方式已无法满足后 基因组时代的要求,蛋白质组学( p r o t e o m i e s ) 研究便应运而生【l 】。蛋白质组学是 研究蛋白质组或应用大规模蛋白质分离和识别技术的一门学科。蛋白质组学研究 的内容不仅包括对各种蛋白质的识别和定量化,还包括它们细胞内外的定位、修 饰、相互反应、活性和最终确定它们的功能【2 】。蛋白质组学应用了许多新的技术 和研究手段,如双向凝胶电泳、生物质谱、蛋白质芯片等,蛋白质组学主要任务 是识别鉴定细胞、组织或机体的全部蛋白质,分析蛋白质的功能及其模式。揭示 蛋白质组中蛋白质问的相互作用关系是蛋白质组学的重要内容之一。 1 1 2 蛋白质分子相互作用 生物体的功能是通过生物分子之间的相互作用来实现的,因此研究生物分子 之间的相互作用对于阐明各种生物功能非常关键。生物分子的相互作用包括多种 方式,有蛋白质蛋白质相互作用,蛋白质核酸相互作用、酶与底物或抑制剂相 互作用等,有些相互作用还涉及多分子。相互作用的蛋白质是指:两个蛋白质参 与同一个代谢途径或生物学过程,属于同一个结构复合物或分子机器。它们之间 上海大学硕士学位论文 可以发生“物理 上的接触,也可以不接触,而仅是遗传上关联【3 】。蛋白质相互 作用从相互作用双方组成上可分为以下三类:蛋白质与蛋白质相互作用,蛋白质 一d n a 相互作用,蛋白复合物之间的相互作用。随着基因研究的进展,大量数据的 涌现为研究提供了条件,近年来很研究者投入到蛋白质相互作用网络及蛋白质功 能研究当中,大规模的实验检测基因组水平的蛋白质蛋白质相互作用的工作已 经有报道【4 1 。 1 1 3 计算机技术与人工智能的发展 科学技术的发展在现代生物研究工作中显得越来越重要,很多生物软件的开 发和应用都需要计算机技术的支撑。计算机技术在生物信息学中的应用领域十分 广泛,主要包括序列分析软件,基因分析软件,基因组绘图软件,数据库管理软 件和特征提取分类软件。目前越来越多的技术应用到生物信息学领域,人工智能 就是其中之一。 人工智能是研究如何制造出人造的智能机器或者智能系统来模拟人类智能 活动的能力,以延伸人类智能的科学。人工智能研究的基本内容包括知识表示, 机器感知,机器思维,机器学习,机器行为等,除此之外,还有建立智能系统及 智能机器,开展对模型、系统分析与构造技术、建造工具及语言等的研究。人工 智能的研究领域十分广泛,在专家系统、模式识别、智能检索、自动程序设计、 自然语言理解、数据挖掘、软计算等方面都有应用【5 】。模式识别是近3 0 年来得 到迅速发展的人工智能分支科学。人之所以能识别图像、声音、动作、文字、面 部表情等,是因为它们都存在着反映其特征的某种模式。模式是对一个物体或某 些其它感兴趣实体定量或者结构的描述,而模式类是指具有某些共同属性的模式 集合。用机器进行模式识别的重要内容是研究一种自动技术,依靠这种技术,机 器就可以自动地或者尽可能少的人工干预把模式分配到它们各自的模式类中去。 传统的模式识别方法如统计模式识别和结构模式识别等在生物信息领域早有应 用,近年来出现的模糊数学、人工神经网络技术,支持向量机等方法也成功应用 于蛋白质结构预测和功能研究【6 埘。 2 上海大学硕士学位论文 1 2 研究的主要内容和意义 随着科学技术的不断发展,人类已经完成对大部分基因的测序,然而,面对 大量的序列符号,它们的结构和功能之间的关系尚未清楚。由生物学知识可知, 生物分子的功能是通过分子之间相互作用体现出来的,生物体的一些基本的生理 活动,如新陈代谢、信号传导、信使核糖核酸的形成过程都涉及到蛋白质相互作 用网络。此外,研究蛋白质问相互作用对药物设计有重要意义,因为基于相互作 用网络的新药物研究能明确知道与某种疾病相关的相互作用网络,全面了解这种 疾病的形成原因,从而调节该作用网上的路径,而不再是简单的抑制或增强某个 特定蛋白质的功能。研究蛋白质问相互作用的最终目标是建立模式细胞系统中全 部蛋白质相互作用的网络,即蛋白质相互作用组( i n t e r a c t o m e ) ,为研究蛋白质的 其它功能及细胞的全局特征构筑一个框架,因此相互作用网络的研究成为功能基 因组学和蛋白质组学的一个重要研究方向。 机器学习方法自从其问世以来,因其良好的理论基础及适用性,被应用到当 代科学的各个领域中,支持向量机方法是应用的最成功的机器学习方法之一。支 持向量机方法是建立在统计学习理论的v c 维理论和结构风险最小原理基础上 的,对特定训练样本的学习精度和学习能力之间寻求最佳折中,以期获得最好的 推广能力。支持向量机方法能通过快速训练方法来提高运算速度,可以随着生物 数据的增长来不断容纳新的数据,更新模型和最优超平面。基于上述原因,s u m 算法在同类算法中是最优算法之一,适合数据量庞大的蛋白质相互作用预测研 究。 本文研究的主要内容包括序列比对、蛋白质二级结构预测和蛋白质相互作用 预测。在序列比对的研究中,实现双序列比对的经典算法和优化算法,比较各种 多序列比对算法,对替代矩阵和空位罚分对比对结果的影响进行讨论,为相互作 用研究的数据预处理工作做准备。在蛋白质二级结构预测中,采用f d o d 算法 进行二级结构预测,讨论疏水标度和长程作用对预测结果的影响,对算法进行改 进,并将改进算法的预测结果作为特征向量进行蛋白质相互作用预测。采用d i p 数据库中酵母表达蛋白用支持向量机进行数据的分类和预测。在进行相互作用的 过程中,分别采用基于蛋白质氨基酸物理化学特性的方法构和仅基于序列信息的 上海大学硕士学位论文 方法建特征向量,讨论参数和不同特性对预测精度的影响。比较上述两种方法, 讨论影响预测准确率的因素,进行方法改进。 1 3 论文章节安排 本文的研究工作主要分为以下六个章节: 第一章绪论,介绍蛋白质相互作用的概念,涉及相关学科等相关内容: 第二章蛋白质相互作用方法,介绍氨基酸组成,蛋白质的结构特点,目前 研究蛋白质相互作用的方法; 第三章研究蛋白质相互作用数据,进行两序列和多序列比对研究,实现对 蛋白质数据的同源性比较分析; 第四章研究利用蛋白质数据的一级结构完成对蛋白质二级结构的预测以及 二级结构特性研究,改进算法,减小计算量; 第五章利用氨基酸物理化学特性以及支持向量机方法完成蛋白质相互作用 的预测,并在此基础上进行算法改进以提高预测精度; 第六章总结与展望,总结全文内容并提出今后的研究方向。 4 上海人学坝士学位论文 第二章蛋白质结构及其相互作用研究方法 2 1 蛋白质分子的组成和结构分类 蛋白质是一种生物大分子,基本上是由2 0 种氨基酸以肽键连接成肽链。肽 键连接成肽链称为蛋白质的- 级结构。不同蛋白质其肽链的长度不同,肽链中不 同氨基酸的组成和排列顺序也各不相同。肤链在空问卷曲折叠成为特定的三维守 间结构,包括二级结构和三级结构两个主要的结构层次。有的蛋白质由多条肽链 组成,每条肽链称为亚基,亚基之间又有特定的空问关系,称为蛋白质的四级结 构。一般认为,蛋白质的低级结构决定高级结构,即蛋白质的一级结构决定二缴 结构二级结构决定= 三缴结构吼 蛋白质一级结构足指多肽链的氨基酸残基的排列顺序。也是蛋白质最基本的 结构。它是由基因上遗传密码的排列顺序所决定的。各种氨基酸按遗传密码的顺 序通过肽键连接起来,图2 1 中给出了2 0 种氨基酸的名称、符号和空间结构。 蛙诅瞍f s l, 诅电i t )m 诅1 w l秆钮艘f y l撕讯瞻i v l 幽2 , 1l f 【成蚩自质的2 0 种氨基陵的空间结构( 选白参考文献 9 】) 蛋白质二级结构是指多肽链借助于氢键沿一维方f 甸排列成具有周期性的结 j :海大学矾学也论立 构的构象( 如图2 2 所示) 是多肚链局部的空间结构( 构象) ,主要有a 一螺旋、 b 一折叠、b 一转角、无规卷曲等几种形式。它们是构成蛋白质高级结构的基本 要素。 图2 2 蛋白质一:级结构圈( 删片进自h t p :h p d b h b uc 呐廿i l c i 岍巾k h s 叽c n 嘶a s p j 三级结构主要针对球状蛋自质而言的是指整条多肷链山二级结构元件构建 成的总三维结构,包括一级结构中相距远的肽段之问的几何相互关系,骨架和侧 链在内的所有原子的空丑j 排列。蛋白质的l q 绂结构是指在亚基和亚基之削通过疏 水作用等次级键结合成为有序排列的特定的空间结构。四绒结构的蛋白质中每个 球状蛋门质称为亚基亚基通常由一条多肤链纽成有时俞两条以上的多肽链 单让存在时一般没有生物活性。 圈2 3 蛋白质三级结构酗( 嘲片进白p u b 数据库i d :i c l c 2 2 相关蛋白质数据库 随着研究的不断深入,产生了大量的数据这些数据以指数次方的速度增长, 为了方便存储和共享这些数据。数据库便应运而生用并通过瑚络为科学研究提供 服务。蛋白质数据库主要分为蛋白质结构数据库和蛋白质相瓦作用数据库。蛋白 上海大学硕士学位论文 质结构数据库主要有c a t h ,p d b ,d s s p ,f s s p ,h s s p ,s c o p 等,相互作用数 据库主要有d i p ,b i n d ,p i r 等,这些数据库为蛋白质分子设计、蛋白质模型构 建和蛋白质工程等研究提供了很好的信息资源和工具,表2 1 中列出了几种常用 的数据库。 p d b 收集的数据来源于x 光晶体衍射和核磁共振m m r ) 的数据,经过整理和 确认后存档而成。d s s p ( d e f i n i t i o no f s e c o n d a r ys t r u c t u r eo f p r o t e i n s ) 数据库根据 p d b 中原子坐标,计算每个氨基酸残基的二级结构构象参数,包括氢键、主链和 侧链二面角、二级结构类型等。蛋白质家族数据库f s s p ( f a m i l i e so fs t r u c t u r a l l y s i m i l a rp r o t e i n s ) 把p d b 数据库中的蛋白质通过序列和结构进行比对和分类。同源 蛋白质数据库h s s p ( h o m o l o g yd e r i v e ds e c o n d a r ys t r u c t u r eo fp r o t e i n s ) 不但包括 已知三维结构的同源蛋白家族,而且包括未知结构的蛋白质分子,并将它们按照 同源家族分类。c a t h 的含义为:类型( c l a s s ) 、构架( a r c h i t e c t u r e ) 、拓扑结构 ( t o p o l o g y ) 和同源性( h o m o l o g y ) ,c a t h 数据库把蛋白质分为4 类,即q 主类、b 主 类,q 一6 类( q 6 型和q + b 型) 和低二级结构类。 相互作用的蛋白质数据库d i p 1 0 】收集了由实验验证的蛋白质一蛋白质相互 作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三 个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或 引用文献来查询d i p 数据库。生物分子互动网络数据库b i n d 1 1 】收集了全球科学 家提供的1 8 万个分子间的相互作用信息,包括蛋白质相互作用的完整描述,相互 作用形成的分子复合物及代谢途径的描述。这个数据库可以用于识别蛋白质、化 合物及生理过程中的相互作用,并且还可用于研究分子相互作用的分类学差异, 因此它可以用于研究生物分子间的相互作用网络、代谢途径和动力学模拟。 表2 i 常用蛋白质数据库 英文名中文名网址 c a t h 蛋白质结构分类 h t t p :w w w b i o c h e m u c l a c u k b s m c a t h d s s p 二级结构归属数据库 h t t p :s w i f l e m b l h e i d e l b e r g d e d s s p f s s p 蛋白质家族数据库 h t t p :c r o m a e b i a c u k d a l i f s s p h s s p 同源蛋白质数据库 h t t p :w w w s a n d e r e m b l h e i d e l b e r g d e h s s p p d b 生物犬分子结构数据库 h t t p :w w w r c s b o r g p d b b 心d 生物分子相互作用数据库h t t p :b i n d c a d i p 蛋白质相互作用数据库 h t t o :d i o d o e m b i u c l a e d u 7 上海大学硕士学位论文 2 3 研究蛋白质相互作用的实验方法 蛋白质相互作用问题是研究蛋白质结构与功能关系的重要问题之一,国内外 都有大量学者从事p p i ( p r o t e i n p r o t e i ni n t e r a c t i o n ) 的研究。研究蛋白质相互作 用的方法从实验手段上可以分成两类:利用实验研究蛋白质之间的相互作用和利 用计算方法研究蛋白质之间的相互作用【1 2 】。本文按照实验规模将实验方法分为高 通量的大规模实验方法和小规模实验方法。 2 3 1 大规模实验方法 1 酵母双杂交技术 酵母双杂交技术作为发现和研究在活细胞体内的蛋白质与蛋白质之间的相 互作用的技术平台,在近几年来得到了广泛运用。酵母双杂交系统由f i e l d s 和 s o n g 等【1 3 1 首先在研究真核基因转录调控中建立。酵母双杂交系统利用杂交基因 激活报道基因的表达,启动报道基因在酵母细胞内的表达,如果检测到报道基因 的表达产物,则说明两者之间有相互作用,反之则两者之间没有相互作用。大量 的研究文献表明,酵母双杂交技术既可以用来研究哺乳动物基因组编码的蛋白质 之间的相互作用,也可以用来研究高等植物基因组编码的蛋白质之间的相互作 用,因此,它在许多的研究领域中有着广泛的应用。 2 蛋白质芯片【1 4 】 蛋白质芯片一种是快速有效的高通量实验方法。蛋白质芯片在固体支持物表 面密度排列的探针蛋白点阵,可特异地捕获样品中的靶蛋白,然后通过检测器对 靶蛋白进行定性或定量分析,能够同时分析上千种蛋白质的变化情况,使得在全 基因组水平研究蛋白质的功能成为可能。现阶段,蛋白质芯片除了用于研究蛋白 质相互作用外,还广泛应用于疾病诊断、疗效判定、发现药物或毒物新靶点及其 作用机制等方面。 3 质谱技术【1 5 】 近年来质谱技术发展迅速,其功能强大且灵敏度高,常用来鉴定相互作用的 蛋白质复合体或复合体亚基。混合的蛋白样品首先经过纯化分离、然后通过 8 上海大学硕士学位论文 s d s p a g e 将复合体中的组分开,随后对感兴趣的蛋白进行酶解:得到的肽段在质 谱中进行鉴定,从而确定样品中的目标蛋白。质谱能很容易的区分并鉴定实验组 中特异的蛋白质,此外,对于酵母双杂交、t a p 等方法乎无能为力的d n a 、r n a 、 金属离子或代谢产物等小分子与蛋白质间的相互作用,质谱技术能够发挥了自身 优势,检测出其这些物质之间的相互作用。 2 3 2 小规模实验方法 1 g s t 融合蛋白方法【1 6 】 g s t 融合蛋白方法利用p u l l d o w n 技术,使g s t 融合蛋白作为检验蛋白质 相互作用的探测器。p u l l d o w n 技术用固相化的、已标记的饵蛋白或标签蛋白, 从细胞裂解液中钓出与之相互作用的蛋白。通过该技术可以确定己知的蛋白与钓 出蛋白或已纯化的相关蛋白间的相互作用关系,从体外转录或翻译体系中检测出 蛋白相互作用关系。 2 荧光共振能量转移技术【1 7 】 荧光共振能量转移( f l u o r e s c e n c er e s o n a n c ee n e r g yt r a n s f e r ,f r e t ) 是近年来 迅速发展的一种新技术,其最大的特点就是可以在活体细胞生理条件下对蛋白质 间的相互作用进行实时的动态研究,已成为现代蛋白质组学研究的有力工具。 f r e t 技术的原理为,当与荧光基团融合的被研究蛋白发相互作用时,荧光基团 在空间上靠近,发生能量转移,通过检测受体分子发射程度比率的变化就可得知 蛋白质结合程度的强弱。目前,f r e t 技术已在检测酶活性变化、膜蛋白的研究、 信号转导、细胞周期调控等研究中发挥了重要作用。 3 等离子共振技术【1 8 】 表面等离子共振( s u r f a c ep l a s m o nr e s o n a n c e ,s p r ) 是一种物理光学现象,当 一束平面单色偏振光以一定角度入射到镀在玻璃表面的薄层金属膜上发生全反 射时,若入射光的波向量与金属膜内表面电子的振荡频率相一致,光线即被耦合 入金属膜引发电子共振,即表面等离子共振。该技术将待测生物分子固化在生物 传感芯片上,使另一种被测分子的溶液流过表面,如二者发生相互作用,就会引 起芯片表面折射率的变化,从而导致共振角的改变,通过检测该共振角的变化, 9 上海大学硕士学位论文 就可实时监测分子间的相互作用。 然而实验方法存在着不可避免的局限性:首先,不可能穷举在一个细胞中实 际相互作用的蛋白质对;其次,实验存在难以重复性和复杂性;此外,采用不同 实验方法得到的相互作用数据彼此覆盖率低 1 9 - 2 1 】。可见,实验方法得到数据的准 确性验证仍然是一个比较难以解决的问题。 2 4 研究蛋白质相互作用的计算方法 由于实验方法存在种种缺陷,需要引入新的方法进行相互作用预测,而计算 机软硬件的发展,生物信息学各种算法的不断成熟,都为用计算方法研究蛋白质 相互作用提供了有利条件,模拟和计算方法开始应用于相互作用预测。 2 4 1 基于基因组信息方法 基于基因组信息的预测方法包括系统发育谱( p h y l o g e n e t i cp r o f i l e ) 2 2 】,基因邻 接( g e n en e i g h b o r h o o d ) 2 3 1 ,基因 合( g e n ef u s i o ne v e n t ) e 2 4 】以及镜像树( m i r r o r t r e e ) 2 5 】等方法。系统发育谱是指功能相关的基因,在一组完全测序的基因组中预 期同时存在或不存在的模式。假定如果两个基因,它们的序列没有同源性,但它 们的系统发育谱一致或相似,可以推断它们在功能上是相关的。基因邻接方法中 认为在细菌基因组中,功能相关的基因紧密连锁地存在于一个特定区域,构成一 个操纵子,这种基因之间的邻接关系,在物种演化过程中具有保守性,可以作为 基因产物之间功能关系的指示。基因融合基于如下假定:由于在物种演化过程中 发生了基因融合事件,一个物种的两个( 或多个) 相互作用的蛋白,在另一个物种 中融合成为一条多肽链,因而基因融合事件可以作为蛋白质功能相关或相互作用 的指示。镜像树方法的思想是,功能相关的蛋白质或同一个蛋白的域之间,受功 能约束,其进化过程应该保持一致,即呈现共进化( c o e v o l u t i o n ) 特征,通过构建 和比较它们的系统发育树,如果发现树的拓扑结构显示相似性( 这种相似的树被 称作镜像树) ,那么,可以推测建树基因的功能是相关的。 1 0 上海大学硕士学位论文 2 4 2 基于进化关系方法 基于进化信息的方法包括突变关联( c o r r e l a t e dm u t a t i o n ) 1 2 6 1 ,保守的蛋白质相 互作m ( i n t e r o l o g s ) t 2 7 1 ,进化速率关l 联( c o r r e l a t e de v o l u t i o n a r y - r a t e ) 2 8 】等方法。关联 突变是指物理上相互接触的蛋白质,比如处在同一个结构复合物中的蛋白质,其 中一个蛋白质在进化过程中累计的残基变化,通过在另一个蛋白质中发生相应的 变化予以补偿。保守的蛋白质相互作用利用了相互作用的蛋白质在物种演化过程 中具有保守性,通过在一个物种中建立的蛋白质相互作用网络,预测其他物种的 蛋白质问相互作用。由于蛋白质的进化速率由这个蛋白质同其它蛋白质发生相互 作用的数量决定,并呈负相关,即相互作用的数量越多进化速率越低,进化速率 关联利用上述特点进行蛋白质相互作用预测。 2 4 3 基于蛋白质结构特性方法 b o c k 和g o u g h 【2 9 】首先提出基于蛋白质的一级结构的预测方法,该方法不需 要基因组或进化的信息,仅仅需要单个蛋白质的序列信息。该方法根据蛋白质对 的序列信息包括氨基酸残基的理化特性、电荷以及疏水特性等,用s v m 的方法 进行训练。随后,又有人提出利用蛋白质的三维结构信息进行蛋白质相互作用预 测【3 0 1 。该方法认为同家族成员的蛋白质复合物相互作用的方式相同,通过评估同 家族中已知3 d 结构复合物中发生原子接触的氨基酸残基位点经验势能( e m p i r i c a l p o t e n t i a l s ) 的保守性,赋予分值( s c o r e ) 和设定判断标准,然后用实验方法证实的酿 酒酵母相互作用蛋白质进行验证。 2 4 4 机器学习方法 机器学习方法已经成功运用到相互作用预测当中,这些方法大多设计一个分 类器,训练区分相互作用或者不相互作用的蛋白质对,每个相互作用的蛋白质对 可以以不同的方式编码,作为一组特征向量,利用核函数进行运算。在众多的机 器学习方法当中,最常用的是r f d ( r a n d o mf o r e s td e c i s i o n ) 方法,其次是s v m 方法【3 l 】。这些方法通常与其他类方法相结合进行相互作用预测,例如从氨基酸一 上海大学硕士学位论文 级结构预测相互作用方法就是利用氨基酸物理化学特性与支持向量机相结合。 2 5 本章小结 本章介绍了蛋白质的序列结构和研究蛋白质相互作用的各种方法。所有这些 方法中,实验方法存在很多缺点诸如准确率低,实验环境难以重复,投入大,时 间长,而且各类实验方法得到的数据彼此之间的覆盖率低。四类计算方法中,基 于基因组信息方法、基于进化关系方法需要基因组信息和进化信息等蛋白质先验 知识,方法复杂难以普遍适用。支持向量机方法基于v c 维理论和结构风险最小 化准则,对特定训练样本的学习精度和学习能力之间寻求最佳折中,预测精度相 对于其他机器学习方法要高。支持向量机方法能通过快速训练方法来提高运算速 度,可以随着生物数据的增长来不断容纳新的数据,更新模型和最优超平面。支 持向量机方法有良好的理论基础和广泛的适用性,基于序列信息的方法不需要其 他蛋白质信息,方法简单易行,因此,本文采用序列信息和支持向量机进行相互 作用预测。由于以蛋白质序列信息为特征向量,提取序列的一级结构和二级结构 特性,然后进行蛋白质相互作用预测研究,考虑到需要对进行多序列比对,对进 行蛋白质数据的同源性比较分析,数据去冗余,因此需要先研究序列比对问题, 为数据预处理做准备。 1 2 上海大学硕士学位论文 第三章序列比对算法研究 生物序列比对是生物信息学中最基本的分析方法之一,在生物学的研究中, 将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段。序列比对 的目的是通过将两个或者两个以上核酸或蛋白质序列进行比对,并将其中相似的 结构区域突出显示。通过比较未知序列与已知序列( 尤其是功能和结构已知的序 列) 之间的同源性,可以预测未知序列的功能。序列比对的分类可以从以下几个 方面来划分:从参与比对的序列的数量可以分为双序列比对和多序列比对;从比 对范围基本上可以分为全局比对和局部比对;从比对算法思想上进行分类则可分 为动态规划算法和启发式算法:从程序运行方式分类则可分为串行和并行两种。 本文将从双序列比对和多序列比对两个方面来介绍并实现双序列比对的算法。 序列比对 两序列比对 多序列比对 。一。 点阵法动态规划算法遗传算法模拟退火算法 隐马尔可夫模型 。nl 心 f a s t a ,b l a s t ,c l u s t a l 全局比对局部比对 h s c h b e r g u k k o n e n 3j n e e dle m a n - w u n c h s m it h - w a t e r m a n d i v i d ea n dc o n q u e 图3 1 序列比对算法 上海大学硕士学位论文 3 1 双序列比对算法 3 1 1 点阵法 点阵法( d o t p l o t ) 是双序列比对的基本方法,最先是1 9 7 0 年由g i b b s 3 2 】提出。 假定两个序列a ,b ,把a 序列沿x 轴方向排列,b 沿y 轴方向排列,比较矩阵 中的任意两个元素,如果相等就标记为“,这样两条序列的相似程度可由矩阵 中沿对角线方向的点直观看出。两个不完全相同却具有一定相似性的序列在点阵 图上表示为一些间断的对角线,其中不相连的区域表示那些不匹配的区域。由于 点阵图的最基本特征是有一些由噪声组成的随机点和具有信号特征的主对角线, 因此,噪声的引入在所难免,通常的方法是引入滑动窗口作为平滑函数提高点阵 图的信噪比。 3 1 2 动态规划算法 基本动态规划算法是序列比对中的经典算法,1 9 7 0 年n e e d l e m a n 和w u n c h 【3 别 提出基于动态规划算法的全局比对算法,1 9 8 1 年s m i t hw a t e r m a n 3 4 】又提出局部 比对算法。动态规划算法的思想可以概括描述为:利用迭代的方法对两个序列建 立一个得分矩阵,再利用回溯算法在矩阵中找到最优路径,得到两序列的最佳比 对。局部比对思想的内容基本和全局比对一样,不同的是,局部比对不是从矩阵 最后一个元素开始回溯,而是从矩阵中最大的元素开始回溯,比对结果也不像全 局比对那样是整个序列之间的比对,而是搜索两条序列之间相似性最高的片段。 假定给定两条序列s 和t ,且序列的长度分别为m 和n ,s 0 - - m 和t 0 r 1 比较两序列中任意两个字符,设定匹配和不匹配的得分值记为d ( s ,t ) ,并对不 匹配的情况引入空位。空位罚分有以下两种模型:空位权值恒定模型和仿射空位 处罚模型。空位权值恒定模型中设定空位罚分值为定值w :,仿射空位处罚模型 中用一个附加的罚分比例去乘空位的长度:w = w :+ q 宰w ,q 为插入连续空位 的个数。计算两序列的相似性分值,存于一个得分矩阵中,记为m ,根据公式3 1 计算比对得分之和,其中w :为开放一个空位的罚分,w :为空位的延伸罚分,p 1 4 上海大学硕士学位论文 为开放空位数,q 为延伸空位数,分值越大则两序列的相似性越高。 s c o r n = d ( s i 】,t j ) + w g 木g + w s q ( 3 1 ) 建立得分矩阵的过程如下: 1 ) 将要比对的两条序列s i 及t j 分别沿x 轴和y 轴排列; 2 ) 接着初始化相似性得分矩阵m ,规定m o 0 ,m i 0 和m 0 j 的值; 3 ) 对s i 及t j 中的字符串对一一进行比对,设定匹配分值和空位罚分, 得出比对的得分m i j = m a x ( m l i d 】,m :嘲d 】,m 3 i d 】) ,其中: m i 】d 】= d i l 】 j l 】+ d ( s i 】,t j 】) m 2 i 】d 】= d 【i 】d 一1 】+ d ( s i 】,t 【j 】) m , i 】 j 】= d i - 1 d 】+ d ( s i 】,t j 】) 4 ) 通过上述计算得出的相似性矩阵,从m m n 开始进行回溯,对两序列 进行插入、删除、匹配操作来得到最佳比对。 t 序 列 s 序列 图3 2 矩阵元素示意图 回溯算法即是上面计算过程的逆过程,分以下3 种情况,实现如下: 1 ) 若m i j 是由m i j - 1 而计算得到的,则矩阵元素沿x 轴方向移动, 表示在t 列中插入一个空格; 2 ) 若m i j 是由m i 1 j 而计算得到的,则矩阵元素沿y 轴方向移动, 表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论