(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf_第1页
(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf_第2页
(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf_第3页
(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf_第4页
(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算数学专业论文)基于共鸣识别模型的蛋白质相互作用预测的研究和算法实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 0 0 5 印上海大学颂l :学位论文 摘要 预测蛋向质的相互作j f j 秤理论和实践上都具有非常重要的意义。生物的遗传 信息记录在d n a 中。但是,一般而言d n a 无法直接实现其生物功能,只有当 d n a 被翻译成蛋白质后,这些功能,d 能够实现。因此,蛋白质是实现生物功能 最直接也是最重要的生物大分了。事实上每个生物功能都是由一组蛋白质的共同 参与才能实现的。成百上千的蛋f 1 质参与了生物体内代谢途径的调节、免疫识别 以及d n a 的复制等各种生命活动,特别足它们之问的相互作用,使得生物功能 具有难以置信的多样性。 口前,有许多生物学实验方法和汁算机试验方法可以用来进行蛋一质相且作 用的研究,这些方法极大地深化了_ 人们对蛋白质相互作用的认识。但是,生物学 实验的方法过于费时费力,而现有的一些计算机试验方法则对于所研究的蛋白质 序列又有较高的要求,所以研究和开发新的预测蛋白质相互作用的计算机算法就 凸现了其重要性。 针对存在的问题,我们在文中介绍了共鸣识别模型,该模型利用离散傅立叶 变换对蛋白质序列进行分析,并利用分析的结果预测蛋白质相互作用,从而人人 降低了预测对序列的要求,它可以直接从蛋白质序列预测蛋白质相互作用;在应 用共鸣识别进行蛋白质相互作川预测时,我们需要一定数量的同源序列,如果无 法搜索到足够的同源序列,那么预测将无法进行。针列这个问题,本文又对该模 型应用离散小波变换进行改进,从而进一步降低了预测过程对同源序列数量的要 求。 为检验该算法对蛋白质相互作用预测的效果,文中采用了三个物种的蛋白质 相互作用数据和一组不能相互作用的蛋白质分别作为训练集和测试集对该模型 进行训练和测试。测试的结果显示,此算法可以达到较为理想的预测效果a 为了 使科研人员能更加方便地使用该预测算法,我们开发了m r r m - p p l p 软件包。这 足个用c + + 语言开发的面向对象的程序,使用者可以根据自己的需要预测相应 的蛋白质2 _ f 6 1 的相互作用,并且还可以根据需要扩充程序的功能。 关键词:蛋白质相互作用;共鸣识别模型:离散小波变换;特征频率 ! ! 塑! 生堡查兰堡主兰垡堡皇 a b s t r a c t p r e d i c t i n gp r o t e i n - p r o t e i ni n t e r a c t i o ni sv e r ym e a n i n g f u li nt h e o r ya n dp r a c t i c e t h eg e n e t i ci n f o r m a t i o no fl i v i n go r g a n i s mw a sr e c o r d e di nt h ed n a ,b u tt h ed n a c o u l dn o ti m p l e m e n t e dt h eb i o l o g i c a lf u n c t i o nu n t i lt h e ya r et r a n s l a t e di n t op r o t e i n s , t h e r e f o r ep r o t e i ni st h em o s td i r e c ta n dt h em o s ti m p o r t a n tb i o l o g ym o l e c u l a rw h i c h i m p l e m e n tt h eb i o l o g i c a lf u n c t i o n i nf a c t ,e a c hb i o l o g i c a lf u n c t i o nc a no n l yb e r e a l i z e db yag r o u po fp r o t e i n s t h o u s a n d so fp r o t e i n s p a r t i c i p a t e d i na n yb i o l o g y f u n c t i o ns u c ha st h er e g u l a t i o no fm e t a b o l i cp a t h w a y ,i m m u n i t yr e g u l a t i o na n dd n a r e p l i c a t i o n ,a n dt h e i ri n t e r a c t i o n sl e a dt ot h ed i v e r s i t yo f b i o l o g i c a lf u n c t i o n n o w a d a y s ,t h e r ea r em a n ye x p e r i m e n t a la t t e m p t sa n dc o m p u t a t i o n a la t t e m p t s t r y i n gt op r e d i c tt h ep - pi n t e r a c t i o n t h e s ea p p r o a c h e sb o o s tt h ep r e d i c t i o no fp p i n t e r a c t i o n ,b u tt h ee x p e r i m e n t a la p p r o a c h e sa r et e d i o u s ,l a b o ri n t e n s i v ea n d i n a c c u r a t ew h i l et h ec o m p u t a t i o n a la p p r o a c h e sh a v ear i g o r o u sn e e do np r o t e i n s e q u e n c e s ,t h e r e f o r er e s e a r c h i n ga n dd e v e l o p i n gn e wa l g o r i t h mt op r e d i c tt h ep - p i n t e r a c t i o nb e c o m em o r ea n dm o r ei m p o r t a n t a c c o r d i n gt ot h e s ep r o b l e m s ,t h er e s o n a n tr e c o g n i t i o nm o d e li si n t r o d u c e di n t h i sa r t i c l e t h er r ma d o p t st h ed i s c r e t ef o u r i e rt r a n s f o r mt oa n a l y z et h ep r o t e i n s e q u e n c e ,a n db yu t i l i z i n gt h ea n a l y z i n gr e s u l tt op r e d i c tt h ep pi n t e r a c t i o na n dt h i s m o d e ld e c r e a s et h er e q u e s to fp r o t e i ns e q u e n c e sal o t a l t h o u g ht h er r mh a v eal e s s n e e do fp r o t e i ns e q u e n c e ,i ts t i l ln e e d st h eh o m o l o g ys e q u e n c e so ft h ec a n d i d a t e s e q u e n c e s ot h er r v lw a si m p r o v e db ya d o p t i n gt h ed i s c r e t ew a v e l e tt r a n s f o r mi n o r d e rt od e c r e a s et h en e e d so n c ea g a i n i no r d e rt ov a l i d a t et h em o d i f i e dr e s o n a n tr e c o g n i t i o nm o d e l ,t h ed a t ao ft h r e e s p e c i e sa n dad a t a s e ti n c l u d e dt h ep r o t e i n sw h i c hh a v en oi n t e r a c t i o nb e t w e e nt h e m a r eu s e da st r a i n i n gs e ta n dt e s ts e t w eg o tc o n c l u s i o nt h a tt h ea l g o r i t h mc o u l do b t a i n a ni d e a lr e s u l t f o rt h ec o n v e n i e n tu s eo fr e s e a r c h e r s ,w ep r o g r a m m e ds o f t w a r e p a c k a g en a m e dm r r m p p l p ( m o d i f i e dr e s o n a n tr e c o g n i t i o nm o d e lp - pi n t e r a c t i o n p r e d i c t i o n ) w h i c hw n sd e v e l o p e db yc + + b a s e do no b j e c t - o r i e n t e dt e c h n i q u e t h e u s e rc o u l da d j u s tt h ep r o g r a ma c c o r d i n gt ot h e i rr e q u i r e m e n ta n de x p a n dt h ef u n c t i o n o ft h i sp a c k a g e k e yw o r d s :p r o t e i n - p r o t e i ni n t e r a c t i o n ;r e s o n a n tr e c o g n i t i o nm o d e l ;d i s c r e t e w a v e l e tt r a n s f o r m ;c h a r a c t e r i s t i c sf r e q u e n c y 本文的研究工作受上海市重点学科建 设项目以及国家8 6 3 高技术研究发展计划项 目( 2 0 0 2 a a 2 3 4 0 2 1 ) 资助。 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除j 文中特别加以标注和致谢的地方外,论文中刁i 包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:驵日 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 2 0 0 5 i :上海人学硕上学位论文 第一章绪论 1 1 发展中的生物信息学 随着时钟走入二十一世纪,基丁基凼序列和蛋白质序列的生物学时代正一步 步地向我们走来,尽管有人对“生物信息学”这一提法可能有所争议,但是今 日涌现的海量的生物序列信息却是无可争辩的事实。自从1 9 9 0 年美国启动人类 基因组计划以来,人类和模式生物基因组的测序工作进展极为迅速。迄今已完成 了,约4 0 多种生物的全基冈维测序工作。截止2 0 0 3 年,被誉为生命“阿波罗计划” 的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完 成了工作草图,这是人类科学史上又一个里程碑式的事件,9 9 的人类基凶序列 都已经测序完成。到目前为止,仅登录在美国g e n b a n k 数据库中的d n a 序列总 量已超过了4 0 0 亿碱基对,见图】l 。在人类基因组计划进行过程中所积累起来 的技术和经验,使得其他生物基因组的测序工作可以完成得更快捷。可以估计, d n a 序列数据在今后的增长将更为惊人。此外,生物序列数据的积累并不仅仅 表现在d n a 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增 长。迄今为止已有近三万多个蛋白质的空间结构以不同的分辨率被测定。此外, 基于c d n a 序列测序所建立起来的e s t 数据库,其纪录已达数百万条。在这些 数据基础上派生、整理山来的二级数据库已达5 0 0 余个,而这一切构成了一个生 物数据的海洋。这种科学数据的急速地和海量地积累,在人类的科学研究历史中 也是空前的。 值得指山的是单纯的数据并不等于信息和知识,但它们却是信息和知识的 源泉,问题的关键在于如何从那些海量的数据中挖掘宝贵的信息咀供我们所用。 与正在以指数方式增长的生物学数据相比,与其相关知识的增长却十分缓慢。一 方面是海_ 最的数据;另。方面是我们存医学、药物和农业等方面对关键信息的渴 求,而这些新的信息和新的知识将帮助人类改善其生存环境、提高生活质量。这 个矛盾的形成催生了一门新兴的交叉科学,这就是“生物信息学”。 在人类基因组计划实施无年后的总结报告中f 5 2 】,对生物信息学作了以下定 义:生物信息学是- - f 7 交叉科学,它包含了生物信息的获取、处理、存储、分发、 分析和解释等在内的所有方而,它综合运用数学、计算机科学和生物学的各种工 2 0 0 5 年卜海大学硕l :学位论文 具,来阐明和理解大量生物序列数据所包含的生物学意义。生物信息学这一名词 的出现仅仅是几年前的事情,但是计算牛物学这名词的出现则要早得多。攀十 这两门学科之间并没严格的分界线,在这里统称为生物信息学。 g e n b a n k 增跃 9 8 2 2 0 0 4 董 薹 善 苫 差 誊 圈1 i 、g e n b a n k 数据库的增长( 引自h t t p :w w w n c b i h i m n i h g o v l ) 1 2 预测蛋白质相互作用的意义 蛋白质的相互作用是实现细胞功能的分子基础,在传统预测方法中,蛋白质 总是被作为一个独立的实体进行分析,但是随着科技的发展和新技术的诞生,一 些新的预测方法结合了传统分析方法和大型的蛋白质相互作用网络分析法。与过 去传统的蛋白质相互作用分析方法相比,这些新方法使得一些复杂系统的特性非 常地清晰明了,所以它们使得蛋白质相互作用的预测精度更上一层楼。显然,从 蛋白质相互作用的网络来预测一个系统的特性同把一个系统拆散成一个个孤立 的蛋白质进行分析相比,前者更为合理和准确,更能够体现出生命过程的系统性。 特别重要的足,随着人类基因组计划q 一测序工作的基本完成,人类的基因总 数约为3 万条左右,与原先预期的基因数量l o 万条相比差距很大。最近的一些 发现使得蛋白质相互作用网络的重要性更加凸显:这些发现包括秀丽隐杆线虫【2 】 ( c a e n o r h a b d i t i se l e g a n s ) 的基因数量和人类基因数量大致相当等。这一系列的发 (siofi曼u昌。s 2 0 0 5 r 上海人学硕i :学位沧文 现说明了基因本身的一些特性并不是物种差异的最直接原因,基因之间以及蛋白 质之间的相互作用的网络j 是物种差异的根源所在。另。方面,分析蛋白质相互 作用网络的重要性并不仅仅局限于理论上,在实际的应用中,它的重要性更是不 言而喻的。蛋闩质相互作用网络的研究可以为新药的研发和个性化用药等提供重 要的依据,这对改善人类的牛活质鼍无疑有着币要的意义。 综上所述,为了更好地预测蛋白质的功能,首先必须准确地预测蛋白质之间 是否存在相互作用的关系,其次是在此基础上架构蛋白质相互作用的网络再由 该网络推断蛋白质的代谢途径,最后才能预测目标蛋白质的真正的生物功能。因 此,预测蛋白质的相互作用是这一过程中最基本也是最重要的一环。 1 3 蛋白质相互作用的分类标准 不同的蛋白质相互作用在生物体内扮演不同的角色,我们可以根据蛋白质复 合物的种类、作用力和结合时间的长短来对蛋白质相互作用进行分类1 3 l 。大致可 以按照以下的三个标准束对蛋白质的相互作用分类。 1 ) 同源和异源低聚体复合物。如果蛋白质相互作用是发生在两条同样的蛋 白质之间的话,称这利相互作用是同源的:反之,盘果参加反应的蛋白质4 i 是相 同的那么这种柏互作用就足异源的。一般同源相互作用形成的复合物具有结构上 的对称性,见图i 2 。 圈1 2 、a r cr e p r e s s o r i ”图1 3 、细胞内的信号复合川 2 0 0 5 印上海人学硕士学位论史 现说明了基因本身的一些特性并不是物种差异的最直接原因,基因之间以及蛋白 质之间的相互作用的网络才是物种差异的根源所在。另一方面,分析蛋自质拥百 作用网络的重要性并不仅仅局限于理论上,在实际的应用中它的重要性更是不 言而喻的。蛋f 1 质相互作用网络的研究可咀为新药的研发和个性化用药等提供重 要的依据,返对改善人类的牛活质晕无疑有着霞要的意义。 综上所述,为了更好地预测蛋白质的功能,首先必须准确地预测蛋白质之间 是否存在相互作用的关系,其次是在此基础上架构蛋白质相互作用的网络,再由 该网络推断蛋白质的代谢途径,最后才能预测目标蛋白质的真正的生物功能。因 此,预测蛋白质的相互作刖是这一过程中最基本也是最重要的一环。 1 3 蛋白质相互作用的分类标准 不同的蛋白质相互作在生物体内扮演不同的角色。我们可以根据蛋白质复 合物的种类、作用力利结合时间的长短来对蛋自质相互作用进行分类”。大致可 以按照以下的三个标准来对蛋白质的丰 i 互作用分类。 1 ) 同源和异源低聚体复合物。如果蛋白质相互作用是发生在诗条同样的崔 白质之间的话称这利,相互作用是同源的;反之,如果参加反应的蛋白质1 ;是相 同的那么这种相互作用就是异源的。一般同源相互作用形成的复合物具有结构上 的对称性。见图1 2 。 的对称性。见图l2 。 圈1 2 、a r cr e p r e s s o r i 1 图1 3 、细胞内的信号复合。” 2 0 0 5 年七海大学硕士学位论文 圈1 4 、酶及其抑制子0 1 圈1 5 、细胞溶解酶” 2 ) 专性和非性复合物。对于号性的蛋白质相互作用,在体内情况下原聚体 的结构并不是稳定的。这种类型的蛋白质相互作刷往往具有功能上的专性,例如 图1 2 中的a r cr c p r e s s o r 二聚体对于d n a 的结合是非常重要的。在p d b 数据库中许 多异源的相互作用都是非专性的,往往都是独立存在的;例如细胞内的信号复合 ( 见图1 3 ) 、抗原抗体复合、受体配体复合以及酶和及其抑制了( 见图1 4 ) 的复 合。参加非专性相互作用的蛋白质一般具有独立的稳定性。不过也有一些例外, 一些非同源的低聚体也可以进行非专性的装配( 例如细胞溶解酶。见圈1 5 ) 。 3 ) 短暂和永久复合物。蛋白质相互作崩同样可以根据复合物的持续时间进行 分类。对于永久的相互作用,其复合物的结构是非常稳定的,并且在体内只会以 复合物的形态出现。相反,短暂蛋白质相互作用所产生的复合物在体内可以分解 也可以重组,见图l ,5 。一般的,专性蛋白质相互作用是永久楣亘作用,两非专 性的相互作用既可以是短暂的也口j _ 以是永久的。 值得注意的足某一组蛋自质的柏互作用可以按照上述任何一种分类标准进 行分类,例如对某个特定的蛋白质相互作用它即可以是同源的也可以是专性的。 另外,许多条件也是可以转化的,例如虽然某些蛋白质相互作用在体内是短暂的 可是在某些条件下它可以转化成为永久的蛋白质相互作用。 1 4 有关蛋白质相互作用的生物实验方法 现在已经有许多生物学实验的方法能够系统地分析蛋白质相互作用。例如, 2 0 0 5 年上海大学硕士学位论文 酵母烈杂交系统 4 l ( y e a s t - t w o - h y b r i d ,y 2 h ) ,它可以预测一组给定的蛋白质的 相互作用;单个蛋白质复合物的质谱分析法l 、蛋白质芯片预测f 7 l 和杂交方法i ”。 上述生物学实验方法的最终目标都是要构建单个细胞系统的一个完整的蛋 :1 质相互作用网络,例如酵母菌1 56 ,j o ( y e a s t ) 和幽fj 螺旋杆菌( h e l i c o b a c t e r p y l o r i ) ,但是这种方法“冗长、费时费力,并目具有潜在的错误” t 2 , 1 3 , 1 4 1 ,到现 在为1 l = ,关于它们的争论仍然存在,不过正足这些方法推动了蛋白质相互作j 1 】预 测的发展。 与它们同时诞生的是一些以基因组信息为基础的预测蛋白质相互作用的计 算方法【15 , 1 6 1 ,这些方法同时可以预测蛋白质相互作用的界面。下面一节将简单地 介绍五种用于预测蛋白质相互作用的计算方法,并讨论它们的适用范围,同时简 单介绍预测蛋白质相互作用的新趋势,也就是直接从序列入手预测蛋白质相互作 _ f j 。 1 5 预测蛋白质相互作用的计算方法 随着汁算机技术的迅猛发展,越来越多的预测蛋白质相互作h j 的汁算方法相 继出现。根据这些方法所依据的理论,一般町分成以下矗类f 1 7 i 。 1 5 1 基于相关物种基因缺失的预测方法 这类力法是通过对给定基因组中的某个基因缺失的模式分析来预测的,也就 是说,测定这个给定的基因在哪些组织中存在,而在哪些组织中缺失( 也就是系 统发育削面法,p h y l o g e n e t i cp r o f i l em e t h o d ) ,见图1 6 。系统发育剖面的相似性 预示着对应的蛋白质必须都存在,从而实现指定的生物功能。虽然,这种相似性 可以推 h 这组蛋白质都参j 了这个功能的实现,但这并不意味着这组蛋白质之问 存在着直接的物理反应f 1 8 a 9 。 该方法的最大局限忭存十它只能应用十完整的犟因组( 因为只有存这种情况 r 才能弄清给定的基因是存在的还是缺穴的) 。而对于某些在生物体内普遍存在 的蛋白质的相互作用的预测,此方法就失效了。 2 0 0 3 年上海大学硕士学位论文 p 1 r o t 丘 铆f o r o p o a 叼9 i o r 9 4 1 卢押瞳6p r o t cp t o t d 1, o1 0 1 0 0 1 图i 6 、系统发育剖面法”7 i 1 5 2 基于基因邻域保守性的预测方法 众所间知,细菌基因组的编码方式有其特殊性,它通常将具有功能相关性的 攘囡编码在相邻的区域之中,例如操纵子( o p e r o n ) 。如果这些基因在不周物种 中具有高度的保守性1 2 0 1 ,那么这些相关邻域的关系就显得更加紧密了,见图1 ,7 。 止:是基于这点这些在不同细菌中的相邻基因便被应用于预测对应蛋臼质之阎的 功能相关性1 2 1 , 2 2 i 。 这种预测方法也有其缺陷,它只能直接地应用于与细菌相关的预测,因为在 细菌中基因组的次序只是一个次要的属性。 图1 7 、基因邻域保守性预测法肿 1 5 3 基于基因融合现象的预测方法 蛋仁j 质相互作川司以通过一i 同基i l 纰- ,的相同蛋白质结构域的存在性推得。 这些蛋白质结构域存在于单个多肽酶中( 多结构域蛋白质) ,或存在于独立的蛋 白质中( 单结构域蛋白质) ,见图1 8 。为了侦测基因融合现象,这种预测方法结 合了递归序列搜索法和多序列联配法1 2 3 , 2 4 。已经有实验证明,在与代谢途径相关 的蛋白质中,基因融合的现象特别地普遍【2 5 1 。 6 2 0 0 5 勺i 上海大学硕j :学位论文 根据这种方法的定义,它只适合于不同蛋闩质中共有的结构域预测,至于造 成这种现象的原因军今还未弄清。而日这种方法比较适合于原核乍物蛋白质 相互作肘的预测。 p r o t ap 雌b c 嵋,一_ 一一 j 口旧f a b o 哪2 一_ _ _ 一一 亘+ + 翅叵d 图1 8 、基因融合现象预测法 1 5 4 基于系统发育树的预测方法 最近,在一些研究案例当中发现相互作j j 的蛋白质有共同进化的趋势,例如 胰岛素和它的受体1 2 7 】。在这些例子中,相互作用蛋白质的系统发育树具有很高 的相似性( 对称性) ,这种相似性远高于不发生相互作用的蛋白质。g o h 通过采 j j 构建系统发育树的距离矩阵汁算其线性相关性1 2 ”从而定量分析了磷酸甘油 酸盐酯激酶( p h o s p h o g l y c e r a t ek i n a s e ) 的两个结构域的相似性。这种方法被称作 镜像树( m i r r o r t r e e ) 方法。该方法将蛋白质距离矩阵之间的相关系数看作一个指 标,该指标可以很好地标示蛋白质相互作用的可能性因此该方法被广泛地应用 丁预测大量的蛋白质相互作用的情况f 2 ”,见罔1 9 。同时,蛋白质的共同进化似 乎也会导致组织内的蛋白质同时缺失,在这种情况下就可以采用系统发育剖面来 预测。因此,系统发育剖面实际上就是镜像树法的一种简单情况。与削面法相比 较,镜像树法将分支蛋白质的次序和长度都考虑在内了。 镜像树法的最大缺陷在于必须获得待测蛋自质的高质量的、完备的多序列联 配序列。在进行多序列联配时,必须包含同物种的序列,见图1 9 。 2 0 0 5 年i :海大学硕1 :学位论文 o r # f c 印f o r # , 蜘 o r ,# p r o t ap i n t b r o d u c o d m s a a n din p l l c l t t r c 撙s p r o t e i n d l s t a n c o m a t n 9 忙二 l r l 圈圜 r _ s i m i l a r i i y b e t 肭o n d a n d bt 憎 图1 9 、镜像树法o ”i 1 5 5 计算机辅助的双杂交预测方法 通过定量分析相互作用蛋白质残基对的协方差系数的程度发现蛋白质共同 进化的性质更加明显( 相关变异) 。这些残基所在的位置发生的突变,有可能使 得这些蛋白质能够适合于其目标蛋白质的变异。特别地,这些单个蛋白质的相关 变异信息可以用于预测近侧残基对 3 0 , 3 1 】、区分结构模型1 3 2 】和从头的折叠模拟1 3 3 1 。 对于某些蛋白质,相关突变法已经被证明可以正确地预测两条蛋白质的结构 排列顺序1 3 4 ,所积累下来的不同相关变异信息( 包括蛋白质之间的相关变异信 息和蛋白质内部柑关变异的信息) 可以用于预测柑互作用的蛋白质组,见图1 1 0 。 如同镜像树法一样,汁算机辅助的双杂交方法也有着同样的缺点,它同样要 求待测蛋白质已经获得了高质量的多序列联配资料。 沁 2 0 0 5 年上海火学硕,l 学位论文 m s a 9 r e d u c e d m s , a s 螂f a 曹罩 口曹, c 憎 o 冒s i n t r a p r o t e t n 甜1 di n t o r p m t e l n c o n 奄l a t e d m u t a t i o n s c o 【f r o l a t l o n v 日l u 0 删s t f l l :x j h o n s prot矗ptotb 虱茎琵 三三三三三封三三三三麟 三三三三三三三年牟三三三三三三三研; i n t o r a c t i o ni n d e 0 ( b 。t w e e nm aa n dp r c tb 图1 1 0 、计算机辅助的双杂交法”i 9 2 0 0 5 年上海入学硕l 学位沧文 1 6 本文的工作及安排 e w p r o h o f s k y i ”l 的基于固体物理学试验,非常成功地预言了d n a 的大频率 跨度( 从无线电波到红外) 的电磁波谱的振动模。与生物学和基因表达有关的大部 分信息存在于长程力所引起的低频振动,这种振动使得牛物分子序列之问能进行 长距离的对话,从一端可以了解另一端发生了什么情况,也就是说生物分子之间 能够通过共鸣振动来传递信息。基于这个试验,c o s i c i 建立了共鸣识别模型 ( r e s o n a n tr e c o g n i t i o nm o d e l ,r r m ) 。 本文在原有的共鸣识别模型的基础上,引进了小波变换( w a v e l e t t r a n s f o r m ) 针对蛋自质相互作用的预测,提出了改进的共鸣识别模型( m o d i f i e dr e s o n a n t r e c o g n i t i o nm o d e l ,m r r m ) ,同时为该模型设计了一个蛋白质相互作用预测的 软件包m r r m p p i p 。通过大量的数值实验洲练该模型,使该模型可以用于蛋白 质相互作用的预测,为分子生物学家进行生物试验提供帮助。 论文的安排如下: 奉章,阐述了生物信息学的背最,简要地介绍了蛋白质相互作朋的相关背景 阐述了本文的研究日的和意义,井介绍了日前幽内外住这方而的研究进展。 第二章,介绍了本文所采用的两种信号处理算法,即离散傅立叶变换和离散 小波变换的理论背景以及它们的实现的算法。 第三章,介绍了共鸣识别模型的相关理论,以及优缺点。在此基础上引入了 改进的共鸣识别模型,并且详细地分析了数值试验的结果,这也是本文的关键所 在。 第四章,介绍了m r r m p p i p 预测软件的主要结构、实现方法和功能。 第五章,对本文作了总结并指出今后的工作方向。 o 2 0 0 5q :i :海人学硕i 撑位论史 第二章数字信号处理 在共鸣识别模型( r e s o n a n t r e c o g n i t i o nm o d e l ,r r m ) 当中,我们采j f j 了数 字信号处理( d i g i t a ls i g n a lp r o c e s s ,d s p ) 的技术,这些处理数值信号的算法就 是r r m 模型的关键所存,在原始的共鸣识别模型中我们采用的是离散傅市叶 变换( d i s c r e t ef o u r i e rt r a n s f o r m ,d f t ) ,而在改进的共鸣识别模型( m o d i f i e d r e s o n a n tr e c o g n i t i o nm o d e l ) 中除了应用了离散傅立叶变换,我们还引入了最新 的信号处理技术一小波变换( w a v e l e t t r a n s f o r m ,w t ) 。在本文r i ,我们采用了基 于双币交小波( b i o r t h o r g o n a lw a v e l e t ) 的离散小波变换( d i s c r e t ew a v e l e t q y a n s f o r m ,d w t ) 进行蛋白质序列的分 ! l i _ 利相互作用的预测。本章将详细地介 绍这两种数字信号的处理方法。 2 i 离散傅立叶变换( o f t ) 离散傅立叶变换1 3 6 其实就是连续傅立叶变换的离散形式,由于在实际上程 应用之中,很多的信号都是经过信号采样而获得的离散信号,因此在处理实际的 信号的过程中,采用的部是离敞傅立叶变换。随藉快速傅立叶变换算法的出现, 傅立叶变换在信号处理当中的地位越来越重要,而在共鸣识别模型当中我们正是 采用离散傅寺l l l - 变换来对蛋白质序列进行频谱分析从而从纷繁复杂的蛋白质序 列当中提取哼其生物功能相关的谱信息。因此。对于共鸣识别模型而亩,离散傅 立叶变换足这个模型的一个核心算法。 2 1 i 序列信号的采样 对于原始的信号首先必须在时域上进行抽样,进行这样一个过程主要是为了 解决信号的离散化问题,通过时域抽样连续信号的离散化使得信号的频谱被周期 性地延拓。 在时域抽样后还必须进行时域截断,由于我们不能处理时间上无穷的信号, 凼此一般通过窗口( 一般用矩形萄) 对信号进行透段截取。 然后对时域上的信号进行周期性地延拓,将采样获得的数字信号变成周期信 号。延拓后的波形在数学上可以表示为原始波形与冲激串序列的卷积。这样使得 周期延拓后的周期函数具有离散谱。因此,经抽样、截断和延拓后,信号的时域 2 0 0 5 年上海人学颂士学位论文 和频域都是离散、周期的。由于共鸣识别模型在进行蛋白质序列分析时假定了蛋 白质序列的能量分布都是周期的而且蛋白质序列本身就是离散的信号,因此对信 号采样的过程对于r r m 就省去了,但是,在对蛋白质进行信号分析时,对信号 的截断和延拓是必须进行的。 2 i 2 连续傅立叶变换 首先介绍预处理信号的连续时间傅立叶变换3 6 1 ,见式( 2 1 1 ) 。 疗( - 厂) = ei ( ”i ) e 12 “旧,一瓴) ( 2 1 1 ) i - ih t o 其中,f l ( f ) 是离散函数,仅在离散频率点f = 帆= k r o = 女t 处存在冲激, 强度为a k ,其余各点为0 。同时疗( 力也是周期函数,周期为 峨= n t o = n n t ,= i t ,每个周期内有n 个不同的幅值。时域的离散时间间 隔( 或周期) 与频域的周期( 或离散间隔) 互为倒数。 2 1 3 离散傅立叶变换的定义 离散傅立叶变换其实就是连续傅立叶变换的连续形式。以下是离散傅立叶变 换的定义i 弘i 。 d f t 定义:设五=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论