(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf_第1页
(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf_第2页
(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf_第3页
(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf_第4页
(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(分析化学专业论文)用生物统计方法预测蛋白质相互作用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 蛋白质是生命活动的主要物质承担者,一切生命活动都离不开蛋白质的参 与。预测蛋白质的功能和作用机理已经成为当今生命科学界非常热门的课题。 许多蛋白质通过与其他蛋白质的相互作用来表达它们的生物学功能,而且蛋白 质之间的相互作用在细胞生物学水平上起着十分关键的作用:首先,遗传上的 相互功能常常与相应的蛋白质问相互作用有关;其次,在信号传递途径中也需 要蛋白质的相互作用;再次,蛋白酶蛋白质底物问的相互作用与生物的催化反 应密切相关:最后,蛋白质的相互作用对于整合如r n a 多聚酶或对多成分酶促 反应也有至关重要的影响。因此研究蛋白质的相互作用,识别与特定蛋白质相 互作用的蛋白质,对于了解蛋白质的功能有着非常重要的意义。 本文首先从d i p 数据库中下载得到蛋白质相互作用的数据,并从中筛选出 实验所需的正集数据,再结合m i p s 数据库中提供的亚细胞定位的分类信息构建 负集。我们基于蛋白质的一级结构信息,先采用文献中的c t d 编码方法对蛋白 质序列进行编码,提取出序列中蕴含的统计特征,用支持向量机( s v m ) 算法进行 建模和预报,平均准确率为7 9 以上,再采用不同的策略进行变量选择,优化 编码后用5 - f o l d 交叉验证进行检验,准确率达到了8 2 4 3 ,比文献的交叉验证 结果( 7 6 9 ) 高出了5 以上。接着,本文采用了另外四种编码方法,从不同 的角度对序列进行编码,提取变量,再结合s v m 进行预报,结果都比文献值要 好。其中预报结果最好的氨基酸双编码的5 f o l d 交叉验证的准确率达到了 8 5 9 1 ,高出了文献值9 个百分点。值得一提的是,在另外的这四种编码方法 中,氨基酸单编码、氨基酸双编码和伪氨基酸编码以前只用在其他的生物识别 问题上。g a u s s 函数分布编码方法是我们提出的新型编码方法,这种编码方法合 理的利用了更多有效信息,预报的效果与氨基酸双编码的结果相近,准确率也 达到了8 5 以上。最后,本文将共识模型引入蛋白质相互作用的预测,选取不 同的编码方法建立多个成员子模型,再构建双层结构的s v m 融合网络,充分发 挥不同编码思想的优点,利用不同模型之间的优势互补关系,从而迸一步提高 了预测性能,准确率最高达到了8 6 8 0 ,这是目前据我们所知国际上达到的最 佳分类效果。 本文主要分为四个部分: 摘要 第一部分系统地介绍蛋白质相互作用的原理、相关的数据库以及目前鉴别 蛋白质相互作用的主要的研究方法。 第二部分介绍了本文的实验数据来源、特点和实验数据的分析、预处理以 及结果的评价方法。 第三部分首先简单介绍支持向量机( s v m ) 的相关知识,再提出了基于蛋 白质序列的五种不同的编码方法,分别是c t d 编码、氨基酸单编码、氨基酸双 编码、g a u s s 函数分布编码方法和伪氨基酸编码。并结合s v m 进行建模和预报, 进一步优化改进这些编码方法,分析预报结果以及编码思想之间的联系。 第四部分提出了双层s v m 的概念。利用不同的特征和分类器之间的互补, 形成两层的s v m 融合网络模型,将多个子分类器进行组合,再用s v m 进行预 测。 在本文的末尾,我们对预测工作进行了总结,对工作中的不足之处进行了 探讨,并提出了一些改进的设想。 关键词:生物统计学,蛋白质相互作用的预测,蛋白质相互作用数据库, 支持向量机,融合刚络,双层s v m h a b s t t a c t a b s t r a c t p r o t e i n sa r et h ep r i m a r yc o m p o n e n mo ft h ec e l l u l a r m a c h i n e r ya n di t i s i m p o s s i b l ef o rb o d yt ow o r kw i t h o u tp r o t e i n s n o w a d a y s ,t h ep r e d i c t i o no ff u n c t i o n a n dp r i n e i p l eo fp r o t e i n si so n eo ft h em o s ti m p o r t a n tt o p i c si nt h ea r e ao fl i f e s c i e n c e s m a n yp r o t e i n sm e d i a t et h e i rb i o l o g i c a lf u n c t i o nt h r o u g hp r o t e i ni n t e r a c t i o n s , a n dp r o t e i ni n t e r a c t i o n sa r ec r u c i a lf o rm a n ya s p e c t so fc e l l u l a r b i o l o g y f i r s t l y , g e n e t i c i n t e r a c t i o n so f t e nc o r r e l a t ew i t h p h y s i c a l i n t e r a c t i o n sb e t w e e nt h e c o r r e s p o n d i n gg e n ep r o d u c t s s e c o n d l y , p r o t e i ni n t e r a c t i o n sa r er e q u i r e dt ot e t h e rt h e c o m p o n e n t so fs i g n a l - t r a n s d u c t i o np a t h w a y sp h y s i c a l l y t h i r d l y ,e n z y m e p r o t e i n s u b s t r a t ei n t e r a c t i o n sa r ei m p o r t a n tf o rc a t a l y s i s ,a n da r eo f t e nf o u n dt ob em o r e s t a b l et h a nt h o s ep r e s u m e d l a s t ,p r o t e i ni n t e r a c t i o n sa r ec r u c i a lf o rt h ei n t e g r i t yo f m u l t i c o m p o n e n te n z y m a t i c m a c h i n e ss u c ha sr n ap o l y m e r a s e sa n dt h e s p l i c e o s o m e t h u s c o m p u t a t i o n a lp r e d i c t i o no fp r o t e i ni n t e r a c t i o n sh a sb e e n i n i t i a t e du n d e rt h ea s s u m p t i o nt h a ti d e n t i f i c a t i o no fi n t e r a c t i o np a r t n e r sf o rp r o t e i n so f u n k n o w nf u n c t i o nc a np r o v i d ei n s i g h ti n t ot h e i rb i o l o g i c a lf u n c t i o n h e r ei nm yw o r k , t h ep o s i t i v ed a t a s e ti sd o w n l o a d e df r o ms a e c h a r o m y c e s c e r e v i s i a ec o r es u b s e to fd i pd a t a b a s e s i n c ean o n i n t e r a c t i n gp r o t e i nd a t a s e ti sn o t r e a d i l ya v a i l a b l e ,ah y p o t h e t i c a ln o n i n t e r a c t i n gp r o t e i nd a t a s e ti sg e n e r a t e db a s e do n s u b c e l l u l a rl o c a l i z a t i o ni n f o r m a t i o nw h i c hi sr e t r i e v e df o r mm i p sd a t a b a s ea n d c o n s i s t so fp r o t e i np a i r st h a td on o tc o l o c a l i z et o g e t h e r a tf i r s t ,w i t ht h ek n o w l e d g e o ft h ea m i n oa c i ds e q u e n c ee a c hp r o t e i ns e q u e n c ei sc o n v e r t e di n t oaf e a t u r ev e c t o r u s i n gc t de n c o d i n ga p p r o a c h as e to fs v m sw a st r a i n e dt op r e d i c tt h ep r o t e i n i n t e r a c t i o n sa n dt h ep r e d i c t i o na c c u r a c ya v e r a g e d7 9 f o rt h ee n s e m b l eo fs t a t i s t i c a l e x p e r i m e n t s a f t e ro p t i m i z i n gt h es e to fp a r a m e t e rv e c t o r sb yd i f f e r e n ts t r a t e g i e s ,t h e p r e d i c t i v ea c c u r a c yo b t a i nt h r o u g h5 - f o l dc r o s s - v a l i d a t i o nt e s t si s8 2 4 3 a b o u t5 h i g h e rt h a nt h el i t e r a t u r e t h e nw ep r e d i c tp r o t e i ni n t e r a c t i o n sw i t ht h eo t h e rf o u r e n c o d i n ga p p r o a c h s a l lt h er e s e ta r eb e t t e rt h a nt h el i t e r a t u r e t h ep r e d i c t i v e 1 1 1 a b s t r a c t a c c u r a c yo ft h eb e s ti n d i v i d u a lc l a s s i f i e ri s8 5 9 1 i n c r e a s e db y9 i nc o m p a r i s o n w i t ht h ev a l u eo fl i t e r a t u r e i nt h i sa r t i c l e ,an o v e lc o n s e n s u sm o d e l i n gf o rp r e d i c t i n g p r o t e i nh a sb e e np r e s e n t e d i ns v mf i r s tl a y e r , f i v ec l a s s i f i e r sa r ec o n s t r u c t e dw i t h v a r i o u ss t a t i s t i c sa si n p u t s 1 1 1 ec o m p u t a t i o n a lv a l u e sa l et h ec o m b i n e da n di n p u tt o t h es e c o n dl a y e rt of u s e ,w h e r et h ef i n a ld e c i s i o n sa l em a d e i ng e n e r a l ,t h es u c c e s s r a t ei s8 6 8 0 ,w h i c hi sb e t t e rt h a nt h eb e s ti n d i v i d u a lc l a s s i f e r m o r e o v e r , i tc a nb e a n t i c i p a t e dt h a tt h ef u s i o nn e t w o r ke a r ls i g n i f i c a n t l yi m p r o v et h ep r e d i c t i v ea c c u r a c y 1 1 1 ew h o l ep a p e ro sc o m p r i s e do ff o u rs e c t i o n s : t h ef i r s ts e c t i o nm a i n l yd e s c r i b e st h eb a s i cp r i n c i p l e ,d a t a b a s e sa n dt h er e s e a r c h m e t h o d so fi d e n t i f y i n gp r o t e i ni n t e r a c t i o n s t h es e c o n ds e c t i o ni n t r o d u c e st h ew a yo b t a i n e dt h ed a t aa n dt h ec h a r a c t e r i s t i c o f t h ed a t aa sw e l la st h ee v a l u a t em e t h o d so f r e s u l t s i nt h et h i r ds e c t i o nf i v ed i f f e r e n te n c o d i n ga p p r o a c h e sa r ed i s c u s s e d ,i n c l u d i n g c t de n c o d i n gm e t h o d ,t h ea m i n oa c i dc o m p o s i t i o n ,a m i n oa c i dp a i r s ,g a u s se n c o d i n g m e t h o da n dp s e u d o - a m i n oa c i dc o m p o s i t i o n n l ef o u r t hs e c t i o np r e s e n t sad u a l l a y e rs u p p o r tv e c t o rm a c h i n e ( s v m ) f u s i o n n e t w o r kt h a ti sf e a t u r e db yu s i n gd i f f e r e n tp a r a m e t e rv e c t o r s a tt h ee n do ft h i sp a p e r , w es u m m a r i z e do u rr e c e n tw o r ka n dd i s c u s s e dt h e d i s a d v a n t a g eo fi t a l t h o u g ht h ep r e d i c t i o nm e t h o dp r o p o s e di nt h i sp a p e rh a sg a i n e d s a t i s f a c t o r yr e s u l t s ,m u c hi m p r o v e m e n ti sr a i s e df u r t h e r k e yw o r d s :b i o s t a t i s t i c s ,p r o t e i n p r o t e i ni n t e r a c t i o np r e d i c t i o n , d a t a b a s e o f i n t e r a c t i n gp r o t e i n ,s u p p o r tv e c t o rm a c h i n e ,f u s i o nn e t w o r k ,a t w o s t a g es v m 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供1 7 1 录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:乏a 钮 2 0 订年弓月2 6 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原刨性声明的法律责任 由本人承担。 签名:;a 位 2 - 7 年3 月2 - 6e l 第1 章前言 1 1 生物统计学简介 第1 章前言 生物统计学( b i o s t a t i s t i c s ) 是数理统计( m a t l l e m a t i c f ls t a t i s t i c s ) 在生物学研究中 的应用,它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调 查资料的科学,属于应用统计学的一个分支。随着生物学研究的不断发展,统 计学方法已经越来越广泛地运用于认识、推断和解释生命过程中的各种现象。 尽管生物统计在应用过程中曾经受到过一些批评,但绝大多数生物学家、农学 家、园艺学家、育种学家、畜牧学家、医学工作者以及人口学家还是在自己的 研究领域越来越普遍地应用生物统计分析方法,并把它作为学科自身发展的需 要。 生物学研究的对象是生物有机体,与非生物相比,它具有更加特殊的复杂 性。生物有机体的生长发育、生理活动、生长变化及有机体受外界各种随机因 素的影响等,都使生物学研究的试验结果有较大的差异性,这种差异性往往会 掩盖生物体本身的特殊规律。在生物学研究中,大量试验数据内在的规律性, 也容易被杂乱无章的现象所迷惑,从而被人们忽视。因此,在生物学研究中, 应用生物统计学就显得特别重要。生物学研究的实践证明,只有正确地应用生 物统计原理和分析方法对生物学试验进行合理设计,对数据进行客观分析,才 能得出科学的结论。 在对事物的研究过程中,人们往往是通过某事物的一部分( 样本) 。来估计 事物全部( 总体) 的特征,目的是为了以样本的特征对未知总体进行推断,从 特殊推导一般,对所研究的总体做出合乎逻辑的推断,得到对客观事物的本质 和规律性的认识。在生物学研究中,我们所期望的是总体,而不是样本。但是 在具体的试验过程中,我们所得到的却是样本而不是总体。因此,从某种意义 上讲,生物统计学是研究生命过程中以样本来推断总体的一门学科。 生物统计学是在生物学研究过程中,逐渐与数学的发展相结合所形成的, 它是应用数学的一个分支,属于生物数学的范畴。生物统计学的过程就是把数 学的语言引入具体的生命科学领域,把具体生命科学领域中亟待研究的问题抽 1 第1 章前言 象为数学问题的过程。它是以数学的概率论和数理统计为基础,这其中要涉及 到数列、排列、组合、矩阵、微积分等知识。作为一门工具课,生物统计学一 般不过多讨论数学原理,而主要偏重于统计原理的介绍和具体分析方法的应用 【1 1 。 生物统计能发现生物序列里面潜在的规律。与生物体功能和进化相关的链 状分子具有一种基本特性,即它们能够以数字化符号序列的形式表示。d n a 、 r n a 以及蛋白质分子中的核苷酸和氨基酸单体是确定的。虽然它们在生理环境 中常常会经历复杂的化学修饰,仍然可以使用很少的字符表示其分子链的组成。 因此,通过实验得到的生物序列在原则上是完全确定的。在某一序列的特定位 置上,我们只能发现一种确定的单体或“字符”,而不是几种可能性的组合。遗传 数据的数字化特征使它们明显不同于其他许多科学实验数据。在其他科学实验 中,物理学基本定律和实验技术的复杂性决定了实验结果或多或少有不确定性。 与此相对照的是,在经济能力和其他资源允许的条件下,我们完全可以确定基 因组d n a 的核苷酸序列以及与之相关的蛋白质的氨基酸序列。 另外,生物序列数据的数字化特征对算法的类型产生了深刻的影响,这些 算法用于计算分析并发展成熟。使用这些算法不仅能研究特定的序列及其分子 结构和功能,还能常常用于对一组序列的综合研究,包括:特定序列在不同物 种中的不同形式,以及在具有多态性的情况下,相同物种中序列的不同形式。 为了更好地对不同物种的序列模型进行比较研究,还必须考虑到生物序列的内 在“噪声”,这种噪声表现为序列片断的多样性,这种多样性部分地来自被进化放 大了的随机事件。由于具有特定功能和结构的d n a 和氨基酸序列存在一些不确 定的差异,序列模型必然是基于概率理论的模型【2 l 。 1 2 蛋白质问相互作用的预测 蛋白质组学是后基因时代出现的一个新兴研究领域,而蛋白质间相互作用 的研究是蛋白质组学研究的一个重要方面。有人预言下一个热门研究领域将是 蛋白质相互作用组学。研究蛋白质间相互作用的最终目标是建立模式细胞系统 中全部蛋白质相互作用网络,即蛋白质相互作用组( i n t e r a c t o m e ) ,这将为研究蛋 白质的其它功能及细胞的全局特征构筑一个框架,同时蛋白质相互作用网络的 2 第1 章前言 建立有助于发展网络动态模型,寻找合适的药物作用靶点,将为新药开发提供 理论依据,从而揭示一切生命活动的规律1 3 】。 新技术的产生为蛋白质的研究提供了强有力的手段。继电泳、层析等技术 以后,一些新的技术如x 光衍射、质谱、核磁共振等在蛋白质研究中的重要作 用日益显现1 4 】。接着,为了在更短的时间里鉴定出更多的蛋白质及相互作用关系, 一些高通量的技术也相继出现,如酵母双杂交系统( y e a s tt w o h y b r i ds y s t e m ) 、蛋 白质芯片( p r o t e i nc h i p ) 、以质谱为基础的蛋白质复合物纯化技术、m r n a 表达相 关分析、免疫共沉淀等技术。 另一方面,随着计算机、网络以及由此引出的信息科学的快速发展,利用 信息技术剖析生命现象的本质就成为生命科学研究工作者关注的焦点。一些计 算机预测蛋白质相互作用的方法应运而生,这些方法有的依据基因组信息,有 的依据进化关系,有的依据蛋白质残基,有的依据现有的蛋白质三维结构信息 等等,研究挖掘那些相互作用产生的数据,进而预测蛋白质问可能存在的所有 的联接【”。与传统的实验方法相比,这些方法不仅要快得多,花费更少,而且 可以对实验方法进行有价值的补充,能够扩展实验方法的预测范围。 1 3 课题的来源和意义 生物学家在鉴定一种新蛋白质的时候,总会面对一个相似的问题:它和其 它蛋白质相互作用吗? 如果是,需要哪些条件? 研究人员发现,很难通过实验 去回答蛋白质研究中的这些问题。蛋白质是生命活动的体现者,每一种蛋白质 不是孤立存在于细胞中,而是与其它蛋白质一起进行相互作用来行使其功能, 从而使得细胞中所有蛋白质形成一个相互作用的网络,同时功能相同和相似的 蛋白质在一起组成相关的功能模块,以完成相关的生理功能。因此对每个蛋白 质都得小心处理,分别鉴定它的相互作用配体蛋白。虽然这些工作比自动基因 序列分析或者转录物分析更烦琐,但蛋白质间特有的相互作用关系很重要,因 为他们不仅参与和调控基因转录、细胞分裂增殖、信号传导、代谢等重要生命 活动,同时还与疾病的发生、发展密切相关。阐明和了解这些相互作用的完整 网状结构是功能基因组学和蛋白质组学的重点【6 j 【7 j 。 目前,许多实验技术已经被用来检测大范围的蛋白质相互作用的网络,如 第1 章前言 酵母双杂交系统,质谱仪方法和蛋白质芯片等。然而传统的实验方法,对蛋白 质相互作用的研究相对较慢,而且花费很贵。另外有学者研究发现,即使在同 物种中,用不同的高通量实验方法得到的蛋白质相互作用数据之间彼此的覆 盖率很低。因此我们有必要应用数理统计知识和现代计算机技术,对目前基于 实验数据的蛋白质相互作用数据库进行有效的数据挖掘,找到一些有用的规律。 进而能够通过这些规律的引入,提高目前计算机预测蛋白质是否相互作用的准 确率,从而能够与实验方法更女了地结合,补充并扫展实验方法的预测范围,挖 掘网络中更多的相互作用的节点,尤其重要的是能够更完整地描述生物学过程, 深刻理解细胞的全局特征。 1 4 论文的主要内容 本文首先从d i p 数据库中下载得到蛋白质相互作用的数据,并从中筛选出 实验所需的正集数据,再结合m i p s 数据库中提供的亚细胞定位的分类信息构建 负集。我们基于蛋白质的一级结构信息,先采用文献1 8 j 中的c t d 编码方法对蛋 白质序列进行编码,提取出序列中蕴含的统计特征,用s v m 算法进行建模和预 报,准确率平均为7 9 以上,再采用不同的策略进行变量选择,优化编码后用 5 一f o l d 交叉验证进行检验,准确率达到了8 2 4 3 ,比文献【8 】的交叉验证结果 ( 7 6 9 ) 高出了5 以上。接着,本文采用了另外四种编码方法,从不同的角 度对序列进行编码,提取变量,再结合s v m 进行预报,结果都比文献值要好。 其中预报结果最好的氨基酸双编码的5 - f o l d 交叉验证的准确率达到了8 5 9 1 , 高出了文献值9 个百分点。值得一提的是,在另外的这四种编码中,氨基酸单 编码、氨基酸双编码和伪氨基酸编码以前只用在其他的生物识别问题上。g a u s s 函数分布编码方法是我们提出的新型编码方法,这种编码方法合理的利用了更 多有效信息,预报的效果跟最好氨基酸双编码的结果差不多,准确率也达到了 8 5 以上。最后,本文将共识模型引入蛋白质相互作用的预测,选取不同的编码 方法建立多个成员子模型,再构建双层结构的s v m 融合网络,充分发挥不同编 码思想的优点,利用不同模型之间的优势互补关系,从而进一步提高了预测性 能,准确率最高达到了8 6 8 0 ,这是目前我们所达到的最佳分类效果,其明显 比文献值要好。 4 第1 章前言 本文主要分为四个部分: 第一部分系统地介绍蛋白质相互作用的原理、相关的数据库以及目前鉴别 蛋白质相互作用的主要的研究方法。 第二部分介绍了本文的实验数据来源、特点和实验数据的分析、预处理以 及结果的评价方法。 第三部分首先简单介绍支持向量机( s v m ) 的相关知识,再提出了基于蛋 白质序列的五种不同的编码方法,分别是c t d 编码、氨基酸单编码、氨基酸双 编码、g a u s s 函数分布编码方法和伪氨基酸编码,并结合s v m 进行建模和预报, 进一步优化改进这些编码方法,分析预报结果以及编码思想之间的联系。 第四部分提出了双层s v m 的概念。利用不同的特征和分类器之间的互补, 形成两层的s v m 融合网络模型,将多个子分类器进行组合,再用s v m 进行预 测。 在本文的末尾,我们对预测工作进行了总结,对工作中的不足之处进行了 探讨,并提出了一些改进的设想。 第2 章蛋白质及蛋白质间相互作用 第2 章蛋白质及蛋白质问相互作用 2 1 蛋白质的氨基酸组成 蛋白质是组成生物有机体的大分子之一,其基本组成单位是氨基酸。组成 蛋白质的氨基酸有2 0 种,除了脯氨酸外,均为氨基酸。每个氨基酸的a 一碳上 连接一个羧基,一个氨基,一个氢原子和一个侧链r 基团。2 0 种氨基酸结构的 差别就在于它们的r 基团结构的不同。蛋白质中出现的2 0 种氨基酸的常见的性 质见表2 1 。 表2 1 构成蛋白质的2 0 种氨摹酸的一蝤件质 中文名称缩写 分子量分子体积疏水性参极性【1 0 j极化度】 d a| 持 数b 丙氨酸 a l aa7 1 0 83 l 0 6 1 68 10 0 4 6 精氨酸 a r g r1 5 6 2 01 2 40 0 0 01 0 50 2 9 1 天冬酰胺a s i in1 1 4 1 l5 60 2 3 61 1 60 1 3 4 天冬氨酸 a s p d 1 1 5 0 95 40 0 2 81 3 00 1 0 5 半胱氨酸 c y s c1 0 3 1 35 5 0 6 8 05 5o 1 2 8 谷酰胺 g i n q 1 2 8 1 48 5o 2 5 l1 0 5o 1 8 0 谷氨酸g i ue1 2 9 ,1 28 30 0 4 31 2 30 1 5 l 甘氨酸 g l vg5 7 0 63o 5 0 19 00 o 组氨酸h i sh1 3 7 1 59 60 1 6 51 0 40 2 3 0 异亮氨酸i l ei3 1 7l l lo 9 4 35 2o 1 8 6 亮氨酸 l e ul1 1 3 1 71 1 l 0 ,9 4 34 9o 1 8 6 赖氨酸l y s k1 2 8 1 81 1 9 0 2 8 31 1 30 2 1 9 甲硫氨酸 m e tm1 3 1 2 11 0 50 7 3 8 5 7o 2 2 l 苯丙氨酸p h ef1 4 7 1 81 3 21 0 05 20 2 9 0 脯氨酸 p r op9 7 1 2 3 2 5o 7 l l8 0o 1 2 8 丝氨酸 s e rs8 7 0 83 2 0 3 5 99 20 0 6 2 苏氨酸 1 1 1 rt1 0 1 1 l6 10 4 5 08 6 o 1 0 8 6 笫2 章蛋白质及蛋白质间相可作用 色氨酸 t ww 1 8 6 2 l1 7 00 8 7 85 40 4 0 9 酪氨酸 v y r y 1 6 3 1 8 1 3 60 8 8 06 20 2 9 8 缬氧酸 v a lv9 9 1 48 40 8 2 55 901 4 0 a :i d = 1 0 7 l o 。飞;b :2 0 种氨基酸残基疏水性参数【1 2 1 ,因为不同实验室制定参数时所用 的依据有所不同,所得到的参数也相差甚大,但是各残基疏水性的相对情况还是大体上一致的。 本表所列出的是d r s h a t m d b l a c k ( u n i v e r s i t y o f t e x a s h e a l t h c e n t e r a t t y l e r ) 测定的数据。 表2 i 所列的2 0 种氨基酸不仅是蛋白质的最基本组成,也是分析蛋白质肽 链一级结构的基本单位。一个氨基酸的0 1 羧基与另一个氨基酸的a 氨基缩合, 通过形成的酰胺键将两个氨基酸连接在一起,这个酰胺键称之肽键,氨基酸缩 合生成的产物称之肽。蛋白质的一级结构一般是指构成蛋白质肽链的氨基酸残 基的排列顺序,有时也称为残基或氨基酸的序列。蛋白质的一级结构决定蛋白 质的空间结构。尽管氨基酸的种类有限,但由于氨基酸的结构和性质相去甚远, 且在蛋白质中连接的次序以及氨基酸数目的不同,所以可以组装成几乎无限的 不同种类的蛋白质,产生蛋白质分子的多种多样的相互作用方式。 2 2 蛋白质相互作用的原理 蛋白质相互作用从相互作用双方组成上可分为以下三类:蛋白质与蛋白质 相互作用,蛋白质d n a 相互作用,以及大的蛋白复合物之间的相互作用。如果 作用对方都是蛋白质的话,又可以分成以下四种:同聚体蛋白,异聚体蛋白, 酶与阻遏物复合物,以及抗体与蛋白复合物。 j o n e s 等人曾以上述后四种蛋白相互作用出发,对蛋白相互作用的原理作了 较为深入的研究【l ”。本实验室d o c k i n g 组也已经对蛋白对接( d o c k i n g ) ,蛋白相互 作用的结构属性,如疏水性,可接触表面积,形状及残基的偏向性作了研究。 结合d o c k i n g 组的工作,在这里我们把蛋白质相互作用的一些属性特征分成以下 几个方面。 1 作用层面( i n t e r f a c e s ) 的大小及形状 蛋白作用层面的尺寸及形状可由绝对尺寸简单地衡量,或者更精确一点, 由聚合成复合物时的a s a ( a c c e s s i b l es u r f a c ea r e a ) 来表示。这里用计算a s a 来 衡量的原因是,蛋白质在从极性到疏水环境的转变过程中,其疏水自由能可及 7 第2 章蛋白质及蛋白质问相瓦作用 的a s a 之间存在着一定的相关性。这样,a s a 的计算便能作为结合能的一个参 数。 2 作用表面的互补性( 锁钥学说) 分予对接( d o c k i n g ) 的最初思想起源于e m i lf i s h e r 在1 9 世纪提出的著名的锁 钥学说。该学说认为机体内受体或酶等生物大分子犹如要开启的锁,药物或其 配体作为钥匙应精确地与锁匹配,方能将锁开启,即产生药理效应。锁钥学说 直到2 0 世纪5 0 年代,一直用来阐述药物的作用。锁钥学说视受体和配体分子 为刚性结构,很好地解释了互相结合的分子之间的静电及形状的互补性,结合 前后三维结构和构象变化较小的过程,但结合前后构象变化较大时,则难以解 释。 3 复合物结合的作用层面残基的倾向性 在复合物亚单位的作用位点上,也即作用层面上的氨基酸残基相对于其它 地方的残基要重要,这一点使我们很容易想到,作用层面上的残基可能较为保 守,而且可能存在着疏水性,事实确实如此。通过作用层面及整个复合物其它 残基的统计对比还可以发现,除了甲硫氨酸以外,这些疏水残基更偏向于在同 聚体作用层面而非异聚体。 4 疏水性及氢键 以前人们认为蛋白是通过表面的疏水互补而结合起来的。然而,在亚基间 的极性相互作用也是很普遍的,而且,在驱动它们形成复合物过程中,这些作 用有其相应的贡献:同时,大的复合物中亚基间很多相互作用也可能形成氢键。 对每个复合物相互作用层面的所有残基计算了标准疏水值( m e a nh y d r o p h o b i c i t y v a l u e ) 后发现,在各种复合物中,相互作用层面的标准疏水值介于复合物内部及 表面( 亲水) 之间,而且同聚体比异聚体的疏水性更强。 5 区段及二级结构 参与作用层面的多肽链的不连续片段数量是很重要的,因为用多肽及小分 子来部分模拟相互作用关系就是以此为依据的。通常认为作用层面的残基如果 被5 个以上的残基分开就可独立成为一个区段,这是不同片段的区分标准。不 同的蛋白复合物可以分成不同的独立片段,在j o n e s 分析的5 9 个复合物中,片 段数从1 到1 1 不等。 大部分的相互作用层面都是几种二级结构的混合体,而且几种二级结构的 残基数量差不多,如螺旋、折叠及卷曲的数量差不多。 r 第2 章蛋白质及蛋白质间相互作用 6 复合物在形成时的构象变化 现在还不清楚是什么原因使复合物形成时产生构象变化,而且现在还很少 有蛋白在形成复合物前后其结构都被鉴定( 如通过结晶的x 一衍射或核磁共振) 。但 是,要分辨不同水平的构象变化却是完全可行的,即把它们分成以下几类:没 有变化、仅有拉链的运动、主链区段的运动、或者功能域的运动。功能域运动 的机制与酶复合物特异相关,因为这些复合物在与底物结合时常有功能域的移 位。对于抗体蛋白的识别,在结合过程中有很多的变化。总之,在不同环境下, 我们都能发现一些既严谨又松弛的对接过程。 上述几点是蛋白质在相互作用过程中的几点功能属性及其变化的特征,同 时,研究蛋白质相互作用还可以对它进行片段( p a t c h ) 分析【1 4 】【,每个p a t c h 残基 又可对它的六个参数进行分析:溶解f 1 ( s o l v a t i o np o t e n t i a l ) ,表面残基的倾向性 ( r e s i d u ei n t e r f a c ep r o p e n s i t y l ,疏水性( h y d r o p h o b i c i t y ) ,极性( p o l a r i t y ) ,突出性及 可及表面面积( p r o t r u s i o na n d a c c e s s i b l es u r f a c ea r e a ) 。由于p a t c h 的这些特性在蛋 白质相互作用的位点有特异的变化,可以据此来预测蛋白质相互作用的位点。 2 3 蛋白质相互作用的数据库 随着科学技术的发展,生物信息学在现代生物研究工作中显得越来越重要, 而数据库是一切生物信息学工作的出发点,很多生物软件的开发和应用都需要 数据库的支撑,计算机科学家和生物信息学家通过数据库的构建和维护为生物 学家提供服务。随着实验数据的积累和实验手段的快速发展,蛋白质相互作用 的数据不断增加,以及对整个基因组的蛋白质相互作用的网络分析的需求越来 越大,蛋白质相互作用的数据库应运而生,如d i p 、b i n d 等。蛋白质相互作用 的数据库不仅仅是相互作用的蛋白质对的列表,而且包括了一些相关的注释信 息和附加证据等。在蛋白质相互作用研究中常见的一些数据库见表2 2 1 16 】。 关于表2 2 各数据库的数据描述和收集方法及开发工具等在相关的网站都 有详尽的描述,用户可以根据自己的不同需要选择相关的数据。随着蛋白质相 互作用实验数据的积累和相关数据库的不断发展。这些数据提供了用于表达、 储存、查询和浏览蛋白质相互作用信息的机制,并且还包括了部分的相互作用 的实验条件和过程的信息。这些资源将为开发新的算法和验证已有的算法提供 9 第2 章蛋白质及蛋白质问相互作用 材料。 表2 2 丰要的蛋白质数据库和蛋白质相可作用数据库 2 4 鉴别蛋白质相互作用的研究方法 蛋白质一蛋白质的相互作用是细胞生命活动的基础和特征。这种千变万化的 1 0 第2 章蛋白质及蛋白质问相互作用 相互作用以及由此形成的纷繁复杂的蛋白质联系网络同样也是蛋白质组学的研 究内容,相应的工作也已经开展。目前,应用于蛋白质相互作用的研究方法有很 多,主要包括生物实验方法“7 1 1 8 】和计算机分析( i ns i l i e o ) 方澍。下面就从这 两个方面对国内外的发展状况做一个综述。 2 4 1 鉴别蛋白质相互作用的实验方法 应用于蛋白质相互作用的实验研究方法主要有如下几种: 1 酵母双杂交技术 2 0 1 酵母双杂交系统( y e a s tt w o h y b r i ds y s t e m ) 自建立以来已经成为分析蛋白质相 互作用的强有力的方法之一。其原理是当靶蛋白和诱饵蛋白特异结合后,诱饵 蛋白结合于报道基因的启动子,启动报道基因在酵母细胞内的表达,如果检测 到报道基因的表达产物,则说明两者之间有相互作用,反之则两者之间没有相 互作用。将这种技术微量化、阵列化后则可用于大规模蛋白质之间相互作用的 研究。在实际工作中,人们根据需要发展了单杂交系统、三杂交系统和反向杂 交系统等。a n g e r m a y r 等设计了一个s o s 蛋白介导的双杂交系统。可以研究膜 蛋白的功能,丰富了酵母双杂交系统的功能。此外,酵母双杂交系统的作用也 已扩展至对蛋白质的鉴定【2 l 】。 2 噬茵体展示技术 在编码噬菌体外壳蛋白基因上连接一单克隆抗体的d n a 序列,当噬菌体生 长时,表面就表达出相应的单抗,再将噬菌体过柱,柱上若含目的蛋白,就会 与相应抗体特异性结合,这被称为噬菌体展示技术。此技术也主要用于研究蛋 白质之间的相互作用,不仅有高通量及简便的特点,还具有直接得到基因、高 选择性的筛选复杂混合物、在筛选过程中通过适当改变条件可以直接评价相互 结合的特异性等优点。目前,用优化的噬菌体展示技术,已经展示了人和鼠的 两种特殊细胞系的e d n a 文库,并分离出了人上皮生长因子信号传导途径中的 信号分子 2 2 1 “。 3 等离子共振技术 表面等离子共振技术( s u r f a c ep l a s m o nr e s o n a n c e ,s p r ) 已成为蛋白质相互作 用研究中的新手段。它的原理是利用一种纳米级的薄膜吸附上“诱饵蛋白”,当待 测蛋白与诱饵蛋白结合后,薄膜的共振性质会发生改变,通过检测便可知这两 第2 章蛋白质发蛋白质问相互作用 种蛋白的结合情况。s p r 技术的优点是不需标记物或染料,反应过程可实时监 控。测定快速且安全,还可用于检测蛋白一核酸及其它生物大分子之间的相互 作用【2 4 】【2 5 】。 4 荧光能量转移技术 荧光共振能量转移( f r e t ) 广泛用于研究分子间的距离及其相互作用,与荧 光显微镜结合,可定量获取有关生物活体内蛋白质、脂类、d n a 和r n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论