已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 蛋白质是生物体中最重要的功能分子。蛋白质间的相互作用构成生命活动的 基础,了解蛋白质问的相互作用可以使我们更深刻地理解生命活动的机理。 传统上,生命科学的研究是以实验为基础的。但是,生物学实验技术的快速 发展,产生了海量的实验数据,而计算机计算能力的提高,则为生物学数据的高 速处理提供了崭新的研究平台,这一切都有力地推动了生物信息学研究的进一步 发展。如何高效地挖掘出隐藏在这些数据中的信息,是现今生物信息学中一个十 分热点的问题。虽然,所有与生命科学有关的理论或结果,都必须回到实验室进 行验证,但相比于实验,在计算机上分析数据或者实验模拟,可以大量地节省人 力、物力以及时间,来获取信息,进一步提高生命科学研究的效率。 目前已经有了很多的现有数学工具可以用到蛋白质相互作用研究的问题上, 如,支持向量机、隐马氏模型、神经网络、小波变换等。 蛋白质的一级结构可以简单地认为是一字符序列,将里面的字符赋予与之对 应的数值后可以认为这是一个蛋白质信号。在共鸣识别模型中,分析蛋白质信号, 得到相互作用蛋白质的特性。再加入离散小波变换的改进共鸣识别模型利用这个 特性直接来分析和预测蛋白质问的相互作用。 不同物种的蛋白质有不同特性,从而有必要引入不同的判别参数来分析不同 种类蛋白质内的相互作用。本文中,大量地引入酵母阳性蛋白质相互作用对,经 分析,发现改用信噪比作为判别参数后,预测的效率得到了提高。为了说明这个 方法在改用信噪比后的有效性,我们使用大量的随机数据与阳性数据进行比对, 提出比对准则,得到了两类数据的明显差异。所以,将信噪比作为判别改进共鸣 模型中的参数,具有一定参考意义。 关键词:蛋白质相互作用;共鸣识别模型;离散小波变换;信噪比;随机比对 上海大学硕士学位论文 a b s t r a c t p r o t e i ni st h em o s ti m p o r t a n tf u n c t i o nm o l e c u l e ,t h ei n t e r a c t i o n sb e t w e e nw h i c h c o n s t r u c tt h eb a s i so fm o v e m e n ti nt h el i v i n gb e i n g i tc a nh e l pu st ok n o wt h e m e c h a n i s mo fl i f em o r ed e e p l yt ou n d e r s t a n dt h ep r i n c i p l eo fp r o t e i n - p r o t e i n i n t e r a c t i o n s t h et r a d i t i o n a lw a yt os t u d yt h el i f es c i e n c ew a so nt h eb a s eo fe x p e r i m e n t h o w e v e r , a st h er a p i dd e v e l o p m e n to ft h ee x p e r i m e n t st e c h n o l o g y , t h o u s a n d sa n d t e n so ft h o u s a n d sb i o l o g i cd a t ah a v eb e e np r o d u c e d ,m e a n w h i l et h ei m p r o v e m e n to f t h ec o m p u t e r sp o w e ri nc o m p u t a t i o nh a sa l s op r o v i d e dab r a n dn e wr e s e a r c h i n g p l a t f o r mt od e a lw i t ht h o s ed a t aa tah i g hs p e e d b o t ho ft h e mh a v ep r o m o t e dt h e b i o i n f o r m a t i c sf u r t h e r h o wt od i go u ts o m ev a l u a b l ei n f o r m a t i o nc o v e r e db yt h o s e d a t ae f f i c i e n t l yi so n eo ft h eh o tr e s e a r c hd i r e c t i o n si nb i o i n f o r m a t i c s a sw ek n o w , a l lo ft h er e s u l t sa n dt h e o r i e sa b o u tt h el i f es c i e n c e sm u s tb eb a c kt ot h el a bt ob et e s t h o w e v e r , c o m p a r et ot h ee x p e r i m e n t ,m u c ht i m e ,m a t e r i a la n dw o r k l o a dw i l lb e s a v e da n dm u c hi n f o r m a t i o nw i l lb ea c h i e v e d ,i ft h o s ed a t ai sa n a l y z e do rm o d e l e d o nt h ec o m p u t e r , s ot h a tt h ee f f i c i e n c yo ft h er e s e a r c hw i l lb ei m p r o v e d a tp r e s e n t , t h e r ea r em a n ym a t h e m a t i c a lt o o l su t i l i z e di nt h er e s e a r c ho f p r o t e i n - p r o t e i ni n t e r a c t i o n s ,s u c ha ss u p p o r tv e c t o rm a c h i n e ,h i d d e nm a r k o vm o d e l , n e u r a ln e t w o r k s ,a n dw a v e l e ta n ds oo n t h ep r i m a r ys t r u c t u r eo fp r o t e i nc a nb et h o u g ha sal e t t e rs e q u e n c ei nb r i e f a n d e a c ha m i n oa c i do ft h es e q u e n c ei sa s s i g n e da p a r a m e t e rw h i c hi sc o r r e s p o n d i n gt o t h es p e c i a la m i n oa c i da sap r o t e i ns i g n a l t h r o u g ha n a l y z i n gt h ep r o t e i ns i g n a li n t h er e s o n a n tr e c o g n i t i o nm o d e l ( r r m ) ,t h ec h a r a c t e r i s t i co ft h ep r o t e i n - p r o t e i n i n t e r a c t i o n si sg o t t e n a f t e rt h ep r e s e n to fw a v e l e ti nr r m ,t h ec h a r a c t e r i s t i ci s m o d i f i e da n du s e dt op r e d i c tt h ep r o t e i n p r o t e i ni n t e r a c t i o n sd i r e c t l y t h ep r o t e i n sf r o md i f f e r e n ts p e c i e sh a v ev a r i a n tc h a r a c t e r i s t i c ,s oi t sn e c e s s a r y t oi n t r o d u c es o m en e wj u d g m e n tp a r a m e t e rt oa n a l y z et h e i n t e r a c t i o nb e t w e e n p r o t e i n si nd i f f e r e n ts p e c i e s i nt h i sp a p e r , an u m b e ro fp o s i t i v ey e a s tp r o t e i n 上海人学硕士学位论文 i n t e r a c t i o nd a t aa r ou s e d a f t e ra n a l y z i n g , w ef i n dt h a tt h ea c c u r a c yo fp r e d i c t i o n w i l lb ei m p r o v e dw h e nu s i n gt h es i g n a lt on o i s ea st h ej u d g m e n tp a r a m e t e r a tt h e s a m et i m e ,an u m b e ro fr a n d o md a t e sa r ea l s oe m p l o y e dt oc o m p a r e aj u d g m e n t p r i n c i p l ei sa l s op r o p o s e d a n dw eg e tt h ec l e a rd i f f e r e n c eb e t w e e n t h et w ok i n d so f d a t a t h e r e f o r e , i t 8s i g n i f i c a n tt oc o n s i d e rt h es i g n a l t on o i s ea saj u d g m e n t p a r a m e t e ri nr r m k e yw o r d :p r o t e i n p r o t e i ni n t e r a c t i o n s ;r e s o n a n tr e c o g n i t i o nm o d e l ;d i s c r e t e w a v e l e tt r a n s f o r m ;s i g n a lt on o i s e ;r a n d o mc o m p a r e i l l 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:趱日期:脚笸:广 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:燃翩虢趟醐翘:笸 i i 上海大学硕士学位论文 1 1 生物信息学 第一章绪论 生物信息学,本质上就是从信息的角度来对生物体及相关的生命现象进行研 究和分析。它的产生和发展主要是源于生命科学本身以及计算机科学的发展。随 着生命科学的发展,实验技术的进步,产出了海量的生物学数据,如果仅仅用人 工来对这些数据进行分析和研究的话显然已不可能了。同时,随着计算机科学的 发展,特别是计算机运行速度的不断加快,又为海量数据的分析提供了一个崭新 的硬件平台。生物信息学主要是以生物学、计算机科学、数学、物理学、化学, 信息学等为基础的一门综合学科。目前,其主要的工作就是对实验中产生的生物 学数据进行收集、管理、分析、注释、加工、处理、回馈等以获取隐含在实验数 据中的信息。从宏观来说这些工作主要可以分为两类,一类是资料的管理,包括 数据的收集、整理与服务( 如网上数据库的建立和维护) ;另一类就是数据的使 用,包括数据的分析、处理、回馈等( 如生物数据分析的算法和软件) 。两类工 作相辅相成,数据库为数据的分析提供材料,而资料的分析则可以挖掘出数据背 后的信息,之后,再将这些被挖掘的信息反馈到实验中,这样在一定程度上可减 少实验的工作量,并为数据库的更新提供必要的技术支持( 见图1 1 ) 。本文中主 要所涉及的工作是算法设计。 l 海夫学学位论文 翌 f胖1 - k 一 圈11 生物信息学的研究内容硬结构 1 2 生物信息数据库 生物信息数据库种类繁多,但归纳起来大体可以分为4 大类,即基因组数据 库、核酸和蛋白质序列数据库、生物大分子数据库( 主要是蛋白质) 的三维空间 结构数据库、以上述3 种数据库和文献数据为基础构建的高层次数据库( 特别是 二次数据库) 。基因组数据库来自基因组作图,序列数据库来自序列测定,结构 数据库来自x 衍射和核磁共振的测定。这些数据库是分子生物信息学的基本数据 资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同 研究领域的实际需要对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献 等数据进行分折、整理、归纳、注释构建具有特殊生物学意义和专门用途的二 次数据库,是数据库开发的有效途径。近年来,世界各国的生物学家和计算机科 学家合作,已经开发了几百个二次数据库和复合数据库也称专门数据库或专业 数据库、专用数据库。 2 算法 引叫、 懑训墨 上海人学硕士学位论文 1 3 主要的蛋白质数据库 1 9 8 4 年,“蛋白质信息资源”( p r o t e i ni n f o r m a t i o nr e s o u r c e ,简称p i r ) 计划正式启动,蛋白质序列数据库p i r 也因此而诞生。与核酸序列数据库的国际 合作相呼应,1 9 8 8 年,美国华盛顿的乔治城大学全国生物医学研究基金会( n b r f ) 、 日本东京理科大学的日本国际蛋白质信息数据库( j a p a n e s ei n t e r n a t i o n a l p r o t e i ni n f o r m a t i o nd a t a b a s e ,简称j i p i d ) 和德国的慕尼黑蛋白质序列信息中 心( m u n i c hi n f o r m a t i o nc e n t e rf o rp r o t e i ns e q u e n c e s ,简称m i p s ) 三家实验 室合作成立了国际蛋白质信息中心( p i r - i n t e m a t i o n a l ) ,共同收集和维护蛋白质 序列数据库p i r ( h t t p :p i r g e o r g e t o w n e d u ) 。p i r 数据库按照数据的性质和注 释层次分四个不同部分,分别为p i r i 、p i r 2 、p i r 3 和p i r 4 。p i r i 中的序列已经验 证,注释最为详尽;p i r 2 中包含尚未确定的冗余序列;p i r 3 中的序列尚未加以检 验,也未加注释;而p i r 4 中则包括了其它各种管道获得的序列,既未验证,也无 注释。 s w i s s p r o t 蛋白质序列库是现在最为常用、注释最全、包含独立项最多的数 据库,它包括其它蛋白质序列库中经过验证的全部序列、其注释及蛋白质的功能、 结构域和活性位点、二级结构、四级结构、翻译后修饰、与其它蛋白质的相似性、 相关的疾病、处理的冲突等。数据库中的所有序列条目,都经过有经验的分子生 物学家和蛋白质化学家通过计算机工具并查阅有关文献数据仔细核实。s i b 和e b i 共有7 0 多人的研究队伍,专门从事蛋白质序列资料的搜集、整理、分析、注释、 发布,力图提供高质量的蛋白质序列和注释信息。s w i s s p r o t 数据库的每个条目 都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、 突变体等。该数据库中还包括了与核酸序列数据库e m b l 、g e n b a n k 、d d b j 、蛋白 质结构数据库p d b 以及p r o s i t e 、p r i n t i s 等十多个二次数据库的交叉引用代码 蛋白质结构数据库( p r o t e i nd a t ab a n k ,简称p d b ) 是美国纽约b r o o k h a v e n 国家实验室于1 9 7 1 年创建的。为适应结构基因组和生物信息学研究的需要,1 9 9 8 年1 0 月由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物 3 上海人学硕士学位论文 学合作研究协会( r e s e a r c hc o l l a b o r a t o r yf o rs t r u c t u r a lb i o i n f o r m a t i c s , 简称r c s b ) 。p d b 是目前最主要的收集生物大分子( 蛋白质、核酸和糖) 三维结构的 数据库,是通过x 射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、 多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改 进,结构测定的速度和精度也逐步提高。9 0 年代以来,随着多维核磁共振溶液构 象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质 分子结构数据库的数据量迅速上开。p d b 数据库以文本文件的方式存放数据,每 个分子各用一个独立的档。除了原子坐标外,还包括物种来源、化合物名称、数 据提交人以及有关文献等基本注释信息。此外,还给出分辨率、结构因子,温度 系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等 和结构有关的数据。因为p d b 数据库以文本文件格式存放,故可以用文字编辑软 件查看。此外,英国伦敦大学开发的 p d b s u m ( h t t p :w w w e b i a c u k t h o r n t o n s r v d a t a b a s e s p d b s u m ) 数据库是基于网络的p d b 注释信息综合数据库,用于对p d b 数据库的检索,使用十 分方便。它将r a s m o l 、c n 3 d 等分子图形软件综合在一起,同时具有分析和图形显 示功能。 美国国家生物信息技术中心( n c b i ) ,成立于1 9 8 8 年,其主要工作是生物信 息数据库的研发。该中心负责g e n b a n k 数据库的更新和维护工作,而g c n b a n k 几 乎收录了所有已知的核酸和蛋白质的序列,除了序列的信息之外,g c n b a n k 还储 存了相应的参考文献记录以及生物学注释,通过基因或者是蛋白质的序列号,就 可以获得所需数据的详细信息;除生物信息数据库的研发外,该中心还进行计算 生物学研究,致力于开发用于基因组数据挖掘的软件工具,这些软件都可以在 n c b i 的相关网页中直接使用;发布生物医学信息,并提供生物书籍和文献的下 载和链接地址,这也是该中心的有特色的工作。s w i s s p r o t 、p d b 以及p i r 数据库 都是独立于g e n b a n k 的与蛋白质相关的数据库。 4 上海大学硕士学位论文 1 4 蛋白质的分析和研究 认识蛋白质的第一个视角是蛋白质家族,蛋白质家族是根据同源性来定义 的,如果两条序列有一个共同的进化祖先,那么它们就是同源的,这里不存在同 源性( h o m o l o g y ) 的程度问题,两条序列要么是同源的,要么不是同源的,判定 蛋白质和蛋白质是否是同源的方法是双序列比对,根据序列间的相似性和相同性 的百分比来判定( 相同性:是指在序列比对时,比对处的氨基酸残基完全相同; 相似性:是指在序列比对时,比对处的氨基酸残基具有相似的属性) 。但是,在 实际中也有相似性和相同性的百分比很低,却是同源的例子。 在i n t e r p r o 数据库中对家族( f a m i l y ) 的定义如下:一组进化上相关的共享 一个或者多个结构域( 重复区域) 的蛋白为一个家族。i n t e r p r o 数据库中 “t y p e = f a m i l y 的登录条目也包括了那些代表一个家族的短的保守区域,并不 要求要覆盖整个蛋白质。但是,蛋白质的家族分类也仅仅是一个了解蛋白质的角 度,除了家族外,还有,如特征( s i g n a t u r e ) 、结构域( d o m a i n ) 、模块( m o d u l e ) 、 模块元件( m o d u l a re l e m e n t ) 、折叠子( f o l d ) 、模体( m o t i f ) 、模式( p a t t e r n ) 或重复( r e p e a t ) 等蛋白质特性。 这些术语虽然有所不同,但都和多条进化上相关的蛋白质序列所共有的区域 有关。实际上,在不同的数据库中,对于相同的东西往往有着不同的名称,所以 在用到相关概念和数据的时候最好标明其来源的数据库。 视角2 ,从蛋白质的物理性质来看。蛋白质有很多固有的物理属性,这些物 理性质可能是由蛋白质本身的氨基酸序列造成的,也有可能是大量翻译后修饰 ( 如磷脂化和糖基化等) 造成的。目前拥有大量的基于网络的在线服务可以用于 预测和评价蛋白质的物理性质,这些与蛋白质物理性质有关的参考信息可以为我 们提供一些结构上的信息,这将有益于蛋白质的结构预测。 视角3 ,蛋白质定位。细胞定位是一个蛋白质的基本性质之一,很多蛋白质 不能被单一地确定存在于细胞的一个固定位置上,如果蛋白质在细胞中都有合适 的定位,那就是因为它们的一级结构中有固定的细胞定位信息。例如,k d e l ( 1 y s a s p g l u l e u ) 序列段如果出现在一个可溶性蛋白质的羧基末端,那么这 个蛋白质将被定位在内质网内。目前许多基于网络的信息可以用来预测单个蛋白 5 上海大学硕士学位论文 质序列的细胞定位。知道蛋白质在细胞中的位置,可以帮助我们迸一步了解它的 功能。 视角4 ,蛋白质的功能,它被定义为蛋白质在细胞中起的作用。每一个蛋白 质都是基因的产物,它们以不同的方式与细胞环境接触以促进细胞的生长和行使 它们的功能。蛋白质的功能多种多样,我们可以从如下的几个方面来考虑功能这 个概念: 1 ) 每一个蛋白质都有生化功能,生化功能和蛋白质的分子功能的内在含义 是一致的。对于酶来说,它就是一个催化物,结构蛋白就是影响细胞的形状, 转运蛋白将一个配体由一个地方转移到另一个地方,不过,对于那些从基因 组序列中预测出来的尚未被证实的蛋白质,它的生化功能是未知的。虽然它 们功能未知,但一般来说,细胞中不存在没有任何功能的蛋白。 2 ) 通常可以利用搜索同源蛋白的方法预测一个蛋白质的功能。如果一个预 测出来的蛋白质有一个同源的蛋白,且同源蛋白是一个酶,那么预测出的蛋 白质也会被注释上具有酶的功能。不过这个只是一个参考,需要进一步实验 验证。 3 ) 也可以在结构的基础上预测一个蛋白质的功能。如果蛋白质的三维结构 与一个功能已知的蛋白质的三维结构采取了相同的折叠方式,它们的功能可 以也是类似的。不过结构相似和同源可能没有关系。 4 ) 所有的蛋白质都是在其它蛋白质或分子存在的环境下行使功能的,因此, 一个蛋白质功能的定义应该还包括它的配体( 若该蛋白质是一个受体蛋白 质) 、底物( 如果该蛋白是酶) 和它接触的脂质( 如果该蛋白和膜有联系) 5 ) 很多蛋白质只在一个生化路径的某一步中起作用。 6 ) 很多蛋白质功能执行过程充当了一个很大的生物过程的一部分。 7 ) 还可以在整个基因组编码的所有蛋白质蛋白质组水平上来考虑一个 蛋白质的功能。 传统的分析蛋白质的方法是对单个的蛋白质的功能进行实验分析( 如酶活性 以及它对细胞过程的影响) 。这些实验分析是建立在蛋白质纯化技术之上的,分 析之前必须将要研究的蛋白质从它所在的环境中提取出来。目前,通过这种方法 已经对数千种蛋白质进行了单独的分析和研究。除了能单独研究一个蛋白质外, 6 上海大学硕士学位论文 同时对数干个蛋白质进行高通量的分析方法现在也已经出现了,如二维凝胶电泳 ( 蛋白质测序) 、亲和层析串联质谱( 蛋白质测序) 、酵母双杂交系统( 确定千 对蛋白质之间的相互作用) 以及基于基因组d n a 序列分析的,称为“r o s e t t a s t o n e 的计算方法( 分析已知序列,预测蛋白质的功能) 等。高通量技术虽然 提高了实验的效率,但是不可避免的是,其间会存在很多与假阳性和假阴性结果 有关的问题( 如可信度和覆盖率) 。如何较优地分析和处理这些高通量技术所得 到的海量数据信息是生物信息重要的研究方向,它涉及了现有的统计知识、优化 理论、数据处理算法等,是从另一个高效的角度总结出不同的规律和结果,它们 往往具有重要的参考价值。 1 5 生物信息学中分析和研究蛋白质相互作用的现有方法 蛋白质在生命活动中扮演了一个重要的角色,其不仅数量庞大,而且种类极 其繁多,功能极其复杂,无论是低等的单细胞生物,还是高等的生物人类一 一都是靠这些种类繁多的蛋白质问的相互作用来完成生物体各自的生物功能。因 此,如果能够建立这些蛋白质间的相互作用网络,对生命的机理有着十分重要的 意义。这是一项十分巨大的工程,需要判断大量的蛋白质问是否发生相互作用。 如果只是单纯地依赖实验的方法,非常地耗时耗力。因此,如何更好地设计出新 的算法,在现今计算机强大的计算能力上,利用已经知道的数据信息,找出其中 的规律,更准确地预测出蛋白质问的相互作用,建立更具有参考价值的蛋白质相 互作用网络,帮助我们理解细胞的工作机理,最终了解生命的奥秘。这将是一个 非常有意义的研究方向。 目前,已经有了一些研究蛋白质相互作用的生物信息方法。如同源预测、比 较基因组、基于结构域、机器学习、信号谱等方法1 1 】嘲。 1 ) 同源预测:同源预测的理论基础是进化保守的蛋白质之间倾向与具有保 守的蛋白质相互作用。由于不同物种间许多相互作用是保守的,具体来说就 是,将模式生物的蛋白质相互作用网络储存在一个参考数据集中,然后在目 标蛋白质集合中依据直系同源关系搜索同源蛋白质相互作用。该预测方法的 7 上海大学硕上学位论文 准确性依赖于同源蛋白质的判断标准以及模式生物蛋白质相互作用数据的 准确度。 2 ) 比较基因组:基因在基因组中的排列是有规律的,功能相近或者相关的 基因往往具有特定的上下文关系。因此,通过基因组比较可预测蛋白质问的 相互作用。基于基因组信息的预测方法包括系统发育谱,基因邻接、基因融 合等。功能相关基因的物种分布相同或相似,同时存在或者不存在某一基因 组中的模式,称之为系统发育谱。系统发育谱的依据是,如果一对基因在一 组基因组中的系统发育谱相同,那么,在功能上,这对基因在功能上是相关 的,由此预测它们编码的2 个蛋白质之间存在相互作用。基因邻接基于的 假设是,在原核生物基因组中,功能相关的基因倾向于紧密连在一起存在于 一个特定区域,构成一个操纵子。这种基因间的邻接关系具有保守性,可以 作为基因产物( 蛋白质) 的功能提示。如果基因邻接关系在多基因组中仍上 保守的,就可以用来预测蛋白质的相互作用。在基因进化的过程中可以会发 生基因融合现象,即一个物种的2 个或多个基因,在另外一个物种中融合 成一个基因,发生融合的基因必然存在功能上的联系。利用基因融合预测蛋 白质相互作用的根据是,一些( 2 个或多个) 相互作用的蛋白质在另一个物 种中可能会融合形成一条蛋白质多肽链的事实。因此,基因融合可以作为蛋 白质功能相关或相互作用的指示。 3 ) 基于结构域的方法:蛋白质的相互作用并不需要整条蛋白质完全参与到 其中,而是通过蛋白质结构域来完成的,因此,从已知的蛋白质相互作用数 据归纳得到的结构域相互作用规律,也可以成为预测另一种生物的蛋白质相 互作用的图谱。此外这种方法还可以作为蛋白质问相互作用的旁证。数据库 i n t e r d o m ( h t t p :i n t c r d o m 1 i t o r g s g ) 收录了大量相互作用蛋白质结构域的 信息。 4 ) 信号谱方法:不同氨基酸有着不同的理化性质,利用数据处理的方法来 分析蛋白质的理化数值序列可以获取有用的信息,从而建立预测蛋白质相互 作用的方法。 5 ) 机器学习的方法:机器学习的方法来自统计,统计方法可以找出每个事 物在数字上或是分布上各自的特点,通过这些特点来对这些不同的事物进行 8 上海大学硕士学位论文 学习,从而挖掘出有用的信息。不过,随着研究的深入,单凭借初等的统计 手段是不能够解决好研究过程中出现的新问题的,必须研究出一些新的方法 来处理这些问题,如支持向量机、神经网络等。目前,支持向量机可以用于 蛋白质的相互作用的预测以及作用位点的预测,其最大的优点是可以直接从 蛋白质的一级结构来进行预测工作。利用已经确定的相互作用蛋白质对( 阳 性数据) ,学习到它们的特征。不过,除了学习阳性数据的特点外,还要学 习不相互作用蛋白质对的特征( 阴性数据) 。之后再得到两种数据的“分界 线,并以此来预测未知的蛋白质对是否相互作用。神经网络,它是由大量 的处理单元( 神经元神经网络的基本处理单位) 相互连接而成的复杂网 络。神经网络的信息处理是由神经元之间的相互作用来实现的,知识与信息 的储存表现为网络元件互联分布式的物理联系,它的学习和识别取决于每个 神经元间的动态演化过程。除了单元特性外,整个网络的拓扑结构也是神经 网络的重要特性。神经网络同样也是通过学习找到事物的特征。现在,神经 网络方法可以用来预测蛋白质的作用位点,以及蛋白质的结构等。 研究蛋白质相互作用的生物信息方法多种多样,由于方法的出发点和侧重点 不同,使得研究和分析的视角也不同,譬如,其中一些蛋白质序列的处理方法可 以找出相互作用蛋白质对的数字特征,而另外一些方法则可以学习这些特征而非 简单的统计处理,从而得到一个较好的“预测器 。如何利用不同方法的特点整 合出较为理想的“预测器将是一个具有挑战性的问题。 9 上海大学硕士学位论文 2 1 简介 第二章数据处理方法 蛋白质是有机大分子,它由氨基酸以链状的方式连接而成。每一个氨基酸都 有自己的理化性质,通过对不同的氨基酸赋予对应的理化参数( 可以反映其理化 性质) ,于是就获得了可以刻画蛋白质序列理化性质的数值序列,这就是一个蛋 白质信号序列,分析这个序列可以从中获得必要的信息。例如,我们可以将组成 蛋白质序列中的每一个氨基酸对应地赋予反映其疏水亲水特性的参数。对球蛋 白来说,疏水性较高的氨基酸一般是在蛋白质分子的内部,反之,亲水性较高的 则在蛋白质分子的表面。通过对蛋白质中氨基酸疏水亲水的特性的作图分析, 可以得到蛋白质的结构相关信息。 c b a n f i n s c n 根据自己的实验结果提出“蛋白质的一级结构决定其立体结 构一的理论,并因此获得了1 9 7 2 年的诺贝尔化学奖。这个理论说明了蛋白质的 一级结构蛋白质序列中隐藏了大量蛋白质性质的信息。目前已经有不少 生物序列分析工具可以用来分析蛋白质序列信号,并获得了许多有意义的成果 7 1 f 8 1 【9 】。 2 2 傅立叶变换与小波变换 过去很长的一段时间里,在各种信号数据处理方面,特别是在频率分析和各 种滤波方法中最基本的数学工具就是傅立叶变换。虽然这方面已经有了非常丰富 的内容与许多行之有效的方法。但是,傅立叶变换反映的是信号的整体特征,在 许多实际问题中我们所关心的却是信号在局部范围内的特征。譬如,在蛋白质信 号中,我们很想知道其中一些变化剧烈的位置,因为这些位置很有可能就是使得 这个蛋白质具有不同于其它蛋白质的特性。为了弥补傅立叶变换在这方面的不 1 0 上海大学硕士学位论文 足,1 9 4 6 年g a b o r , d ,引进了窗口傅立叶变换的概念。他用一个在有限区间( 称 为窗口) 外恒等于0 光滑函数( 这个有限区间的位置可以随一个参数而变化) 去 乘以所要研究的信号函数,然后对它进行傅立叶变换。这种变换的确可以反映函 数在窗口部分的频谱信息,所以在实际的研究信号局部性质的问题中还是起到了 一定的作用。但是,虽然g a b o r 引进这种傅立叶变换的窗口的位置可以随参数的 变化而变化,然而,其窗口的大小和形状却与频率无关而是固定不变的。这与高 频信号的分辨率应该比低频信号高,因而频率越高窗口应该越小这一要求不符。 显然,只有窗口足够的小,才可以将高频信号的信息有效地反映出来。加上g a b o r 变换的其它一些缺点,使得它未能得到广泛的应用和发展。 小波变换继承和发展了g a b o r 变换的局部化思想,但小波变换的窗口却可以 随信号频率的增高而缩小,使之符合上面所说的要求。而且小波变换在经过适当 的离散化之后可以构成标准正交系,这在理论和实际的运用中是一个十分重要的 性质。 本文所涉及到的傅立叶变换和小波变换的数学公式及相关定理。 傅立叶变换: ( ft ) ( ( - o ) 于fp p 矿“h ,国r ,( 2 1 ) 太 离散傅立叶变化及其逆变换: g a b o r 变换: 工( 后) = x ( j ) e 。2 州埘。1m 一,( 2 2 ) ,= 1 工( ) = ( 1 n ) x ( 七) e 2 州。1 舭一,( 2 3 ) ( 6 旷) ( 6 ,c o ) = ,f ( t ) g ( t - b ) e d t ,( 2 4 ) g ( t ) 为窗口函数,其定义为:非平凡函数g ( t ) 口( 尺) ,k t g ( t ) 口( r ) ,则 称g ( t ) 为一个窗函数。 h e i d e n b e r g 测不准定理:窗口函数g ( f ) 在时间域的面积g 和它在频率域的 面积譬。的乘积要大于等于1 2 ,即: 上海大学硕士学位论文 a 譬g 1 2 ,( 2 5 ) 因此,要想选择一个窗口的面积很小以达到时频的局部化是不可能的,而小 波变换可以进行时频窗口大小的调节。 对于函数g t ( t ) 口( 尺) ,如果 ,y ( f ) 出= o ,( 2 6 ) 矗 则称y ( f ) 为一个小波。 实际上,为了可以重构原来的信号函数f ( t ) r ( r ) ,需要y ( f ) 满足容许性 条件: c o = j 彩i - 1i 少( 缈) 1 2d 缈 o o ,( 2 7 ) y ( 缈) 为y ( f ) 的傅立叶变换,显然式( 2 7 ) 的条件要比( 2 6 ) 更严格。 小波变换: ( ,6 ) = i 口l - 抛j 置f ( f ) 虬,a ( 等妙,( 2 8 ) 小波逆变换( 函数的小波重构) : 饨) 2 寿巧【( 似啪) k ) 幽抛( 2 9 ) 离散化的小波: 嘣r ) = a o - 2 少( 印,( 2 1 0 ) 本文中所用到的小波变换都是指离散小波变换,其中口o = 2 ,6 0 = 1 。 傅立叶变换与小波变换的最大区别在于前者不能反映所研究信号局部的信 息,后者则可以有效地反映局部信息,具体例子如图2 1 。 1 2 上海大学硕:l 学位论文 上海大学硕士学位论文 ( c ) 上海大学硕士学位论文 使用d b 2 小波分5 层:s = a 5 + d 5 + d 4 + d 3 + d 2 + d l ( d ) 图2 1 傅立叶变换和小波变换的局部化性质比较 图2 1 ( a ) 是一个信号的图像,图2 1 ( b ) 是这个信号傅立叶变换处理后 的图像,得到了信号s 在频率域上的信息,实际上由于傅立叶变换的模对称性, 作图的时候可以只画出其前半部分即可,这可以从图2 1 ( b ) 中看出。 由信号s 的原图像我们可以看出,其有一个细微的突变点。所谓突变点就是 在此点的附近有剧烈的变化发生。很明显我们将之做傅立叶变换之后,这个变化 点并没有在其频率域中体现出来,甚至是将这个突变点的信息掩盖掉了,图2 1 ( c ) 是一个y = 】【函数傅立叶变换的图像,其和图2 1 ( b ) 基本没有区别。接着, 我们用小波变换来对之进行处理,图2 1 ( d ) 。这里我们选取d a u b e c h i e s2 ( d b 2 ) 小波来对上面的函数进行处理,通过小波变换不同“分辨率 的处理之后,我们 不仅知道了这个函数有突变点,还知道了其突变点大概的位置。上图中s 为原来 1 5 上海大学硕士学位论文 的信号图像,而a 5 表示原信号分解5 次后的低频图像,d l ,d 5 则是各次分 解后的高频图像。一般来说,低频部分是原来函数简略的信息,而高频部分则是 细节信息,见图2 2 。 通过2 1 ( b ) 和2 1 ( c ) 的比较,我们可以看到它们基本是一样的,这清楚 地说明了傅立叶变换不能够揭示函数或信号局部性质的缺陷。 在图2 2 中,我们将原来的函数或者说是信号8 通过高频和低频的分解,得 到了其两部分的信息,每一次的分解都是可以说是对应一个不同的分辨率,即在 不同的分辨率下来对原来的函数s 进行分析和研究。对于蛋白质来说,其数值化 后的信号肯定不是一个稳定的信号,即从整体来看,它的变化比较频繁和剧烈。 虽然,从整体上来说可以用傅立叶变换进行分析和研究,但是,如果就细节的信 息而言,引入小波变换对蛋白质信号进行分析可以更好地找出蛋白质的局部信 息,更准确地判定这个蛋白质的特性。 r, a 3d 3 图2 2 信号s 的小波分解示意图:a l a 6 表示信号分解后的低频信息,d 1 d 6 表示信 号分解后的高频信息。 1 6 上海人学硕士学位论文 2 3 共鸣识别模型( r r m ) 和改进共鸣识别模型( m 删) 蛋白质是由氨基酸以成链状的方式构成的,从结构的层次来分的话,大体可 以分为四个层次。一级结构是指组成蛋白质的2 0 种不同的氨基酸的排列顺序。 蛋白质分子的一级结构是蛋白质分子结构的基础,包含着结构的全部信息,影响 蛋白质分子构象的所有层次。二级结构,即多肽链形成的一些规则的结构单元, 主要有3 类:螺旋结构( h e l i x ) ,结构( s t r u c t u r e ) ,回折( r e v e r s et u r n ) 在 二级结构和三级结构之间还有一个超二级结构,超二级结构是相邻二级结构单元 组成的结构单位,常为蛋白质三级结构的构件。三级结构是由二级结构和超二级 结构进一步进行折叠成紧密的球状,蛋白质的三级结构就是具有二级结构的多肽 链以及超二级结构的空间排布,是蛋白质基本的功能单位。分子质量较大的球蛋 白分子,往往包含两条或更多的多肽链。这些多肽链本身就具有三级结构,彼此 以次级键( 包括氢键、疏水相互作用和盐键等) 相连成一个相当稳定的结构。这 些独立的肽链就是蛋白质分子的亚基( s u b u n i t ) 。而蛋白质的四级结构是指寡聚 体蛋白中亚基的种类、数目、空间排布以及亚基之间的相互作用。不过从广义的 角度来说,蛋白质的四级结构还包括相同或不同球蛋白分子所构成的聚合体。 虽然蛋白质序列可以在一定程度上决定其高级结构,即一级结构决定高级结 构。但是蛋白质的一级结构本身并不能明确地表达其生物学功能,只有当它产生 一定的结构才可以参与到生命体的活动之中。由于现在蛋白质一级结构的检测速 度大大快于高级结构的测定速度,这样就产生了许多只知道其一级结构而不知道 其高级结构的蛋白质。 共鸣识别模型本质上就是对蛋白质和d n a 序列进行分析和研究。直接对蛋 白质或者是d n a 的一级结构进行分析,来获取它们的信息,可以说是共鸣识别 模型最大的优点,并且具有广泛的应用。譬如,可以用来定义蛋白质或者d n a 的特定功能片断,从功能来预测蛋白质序列中重要的氨基酸块( b l o c k ) ,从而找 出重要的突变位点,分析和预测蛋白质间或者是和d n a 的相互作用,利用已分 析得到的生物功能谱设计出所要求的生物序列。 在蛋白质分析研究问题中,共鸣识别模型的理论基础是:相同生物功能或者 1 7 上海大学硕士学位论文 相互作用的蛋白质,它们主链上移位电子( d e l o c a l i z e de l e c t r o n ) 的能量分布具有 相同的周期。简要的步骤为:先将蛋白质的字符序列数值化( 对不同的氨基酸赋 予对应的理化参数) ,这称为信息化( i s m ) ,之后再将数值序列转换在频域中( 通 过离散傅立叶变化( d f t ) ) ,得到序列的能量谱信息,再对能量谱进行分析,获 取相互作用蛋白质的数字特征。在大量的实验中发现,蛋白质与它的靶有着相同 的特征频率,这就是所谓的共鸣识别。利用多交叉谱函数,可以得到一组具有相 同生物功能的蛋白质的特征频率。通过对3 0 多个功能组中1 0 0 0 多个蛋白质的分 析,得到每一个功能都可以对应一个特征频率。进一步的研究发现,蛋白质和它 的受体不仅具有相同的特征频率,并且在特征频率的位置处的相位值相差1 8 0 度。这说明这个特征频率对于反映蛋白质的功能和相互作用间的关系是一个重要 的参数。 研究一组蛋白质是否有相同的生物功能,或者研究蛋白质问的相互作用,都 需要特征频率的信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下半年吉林省国华资产管理限责任公司所属企业吉林省东风化工限责任公司公开招聘1人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林市事业单位招考工作人员(76名)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林公主岭市事业单位招聘28人(1号)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉安市吉安县环保局招考编外聘用人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年合肥市滨湖新区建设投资限公司招聘人16易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年台州市椒江旅游开发限公司招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年台州市临海市事业单位招考考试(118人)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年厦门市心血管病医院招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年南充营山县水务局直属事业单位招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年北华大学专项招聘工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 学校体育发展五年规划(2025.9-2030.9)
- 2025年陇南市人民检察院司法警察辅助人员招聘考试笔试试题
- 2025北京市顺义区卫生健康委员会所属事业单位招聘额度人员14人笔试考试参考题库及答案解析
- 2025年全国共青团“新团员入团”应知应会知识考试试卷及完整答案详解【必刷】
- 2025年高等数学第一学期期中考试试题
- 单位大门施工合同5篇
- 人工智能行业现状与未来展望
- Unit3+Sports+and+fitness+一轮词汇复习+课件+-2026届高三英语人教版必修第一册
- 思想道德与法治(2023年版)电子版教材第一章 领悟人生真谛 把握人生方向
- 卖身合同范例
- 第七章-金属基复合材料界面-表界面课件
评论
0/150
提交评论