(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf_第1页
(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf_第2页
(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf_第3页
(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf_第4页
(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算数学专业论文)基于svm的蛋白质相互作用位点的预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学碗十学位论文 摘要 预测蛋白质相互作用的位点在理论和实践上都具有重要的意义。蛋白质问 的相互作用在许多生物过程中扮演着重要的角色,例如,免疫反应、酶的催化、 信号传导等。理解一个蛋白质的生物功能的一个重要环节就是识别与其相互作 用的蛋白质或者配体。蛋白质相互作用位点的预测对于突变设计和蛋白质相互 作用网络的重构都是至关重要的。蛋白质科学的重要目标之一是理解蛋白质相 互作用的机制和预测蛋白质表面的相互作用位点。 由于实验确定的蛋白质化合物及蛋白质配体化合物的结构依然相当少,而 且生物学实验的方法过于费时费力,所以预测蛋白质相互作用位点的计算方法 就日益重要起来。特别是近年来,许多具有优良性能的智能算法的提出,使得 计算方法预测蛋白质相互作用位点的工作取得了很大的进展。 在生物信息学中,支持向量机己经成为解决模式识别问题的重要工具。在 本文中,我们首先对蛋白质相互作用位点预测的发展历程进行了回顾;并对支 持向量机及其在生物信息中的应用作了简单的介绍;最后,针对现有的低效率 预测问题,我们提出了一种以支持向量机为分类器,以邻近残基的序列谱和可 及表面积为输入数据来预测蛋白质相互作用位点的方法。我们从2 6 个蛋白质复 合物中提取出3 5 个蛋白质分子作为训练和测试的数据集s v m d a t a 。为了检验 方法的预测效果,我们运用两种方法( 输入数据为序列谱+ a s a 的方法和输入 数据只有序列谱的方法) ,分别对数据集s v m d a t a 中的每个蛋白质进行计算。 计算结果显示我们提出的方法比输入数据仅有序列谱的方法更能有效地预测出 蛋白质相互作用的位点。 关键词:蛋白质相互作用位点;支持向量机;序列谱:可及表面积 上海大学顾:i = 学位论文 a b s t r a c t t h ep r e d i c t i o no fp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e si s i m p o r t a n ti nt h e o r ya n d p r a c t i c e p r o t e i n p r o t e i ni n t e r a c t i o n sp l a yap i v o t a lr o l ei nan u m b e ro fb i o l o g i c a l p r o c e s s e ss u c ha si m m u n er e s p o n s e ,e n z y m ec a t a l y s i sa n ds i g n a lt r a n s d u c t i o n a c r i t i c a l s t e p i n u n d e r s t a n d i n gt h ep h y s i o l o g i c a lf u n c t i o no fap r o t e i ni st h e i d e n t i f i c a t i o no t h e rp r o t e i n sa n d o rl i g a n d sw i t hw h i c hi ti n t e r a c t s t h ep r e d i c t i o no f p r o t e i n 。p r o t e i ni n t e r a c t i o ns i t e si si m p o r t a n tf o rm u t a n td e s i g na n dr e c o n s t r u c t i o no f p r o t e i ni n t e m c t i o nn e t w o r k s i m p o r t a n tg o a l so fp r o t e i ns c i e n c ea r et ou n d e r s t a n dt h e m e c h a n i s m so fp r o t e i n p r o t e i ni n t e r a c t i o na n dt op r e d i c tt h ei n t e r a c t i o ns i t e so nt h e p r o t e i ns u r f a c e s b e c a u s et h en u m b e ro fe x p e r i m e n t a l l yd e t e r m i n e ds t r u c t u r e sf o rp r o t e i n p r o t e i n a n dp r o t e i nl i g a n dc o m p l e x e si ss t i l lq u i t es m a l la n db i o l o g i c a le x p e r i m e n t a t i o n sa r e a l s ot e d i o u sa n d l a b o r i n t e n s i v e ,m e t h o d s f o r c o m p u t a t i o n a l l yp r e d i c t i n g p r o t e i n p r o t e i ni n t e r a c t i o ns i t e sa r eb e c o m i n gi n c r e a s i n g l yi m p o r t a n t e s p e c i a l l y , m a n yp r o p o s e de f f i c i e n ta n de f f e c t i v ei n t e l l i g e n t a l g o r i t h m sa c h i e v e do b v i o u s p r o g r e s s e si nt h ew o r ko f p r e d i c t i n gp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e si nr e c e n ty e a r s r e c e n t l y ,s u p p o r tv e c t o rm a c h i n e ( s v m ) h a sb e c o m ea ni m p o r t a n tt o o l i n s o l v i n gp a t t e mr e c o g n i t i o np r o b l e m s i nb i o i n f o r m a t i c s i nt h i s p a p e r ,w ef i r s t r e v i e w e dt h ed e v e l o p m e n tp r o c e s so fp r e d i c t i o no fp r o t e i n p r o t e i ni n t e r a c t i o r i s i t e s , a n dt h e ng a v eab r i e fi n t r o d u c t i o no fs v ma n di t sa p p l i c a t i o ni nb i o i n f o r m a t i c sa r e a a tl a s t ,a c c o r d i n gt ot h ee x i s t i n gl o we f f e c t i v ep r e d i c t i o np r o b l e m s ,w ed e v e l o p e da m e t h o do fp r e d i c t i n gp r o t e i n p r o t e i ni n t e r a c t i o ns i t e su s i n gs v mw i t ha l li n p u tv e c t o r c o m p o s e db ys e q u e n c ep r o f i l e so fn e i g h b o r i n gr e s i d u e sa n da c c e s s i b l es u r f a c ea r e & w ea c h i e v e d3 5p r o t e i n sw h i c hc a m ef r o m2 6p r o t e i nc o m p l e x e sa sd a t af o rt r a i n i n g a n dt e s t i n g i no r d e rt ov a l i d a t et h ep r o p o s e dm e t h o d ,w ec o m p a r e dt h ep e r f o r m a n c e s o ft h em e t h o du s i n go n l y s e q u e n c ep r o f i l ef o r t h ef e a t u r ev e c t o r si ns v mf o r p r e d i c t i n gp r o t e i ni n t e r a c t i o ns i t e s t h ec o m p u t a t i o n a lr e s u l t ss h o w e dt h em e t h o dw e i i 上海大学硕士学位论文 d e v e l o p e di sb e t t e rt h a nt h em e t h o du s i n go n l ys e q u e n c ep r o f i l ef o r t h ef e a t u r ev e c t o r s f o rs v m k e y w o r d s :p r o t e i n p r o t e i ni n t e r a c t i o ns i t e s ;s u p p o r tv e c t o rm a c h i n e ;s e q u e n c e p r o f i l e ;a c c e s s i b l es u r f a c ea r e a ( a s a ) 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:日期: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名: 铆签名雄隰 上海大学硕:t 学位论文 1 1 生物信息学简介 第一章绪论 随着人类基因组计划的实施,我们获得了大量的原始生物序列数据和注释 信息。研究人员需要利用现代计算技术对这些数据进行收集、整理、存储、注 释、搜索、建模和使用,这就促成了一门新兴的交叉学科生物信息学【1 。1 3 】 的诞生。可以说,生物信息学是一门综合运用生物学、数学、物理学、信 息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。1 9 9 5 年,在人 类基因组计划的第一个五年总结报告中【l4 1 ,对生物信息学作了如下定义,生物 信息学是一1 3 交叉学科,它包含了生物信息的获取、处理、存储、分发、分析 和解释等方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和 理解大量生物序列数据所包含的生物学意义。从生物信息学研究的具体内容上 看,生物信息学应包括3 个主要部分,即新算法的研究;各类数据的分析和解 释;研制有效利用和管理数据的新工具。 生物信息学已经与众多的数学分支紧密地融合在一起3 , 7 , j 2 , 1 5 - 2 2 ,其中统计 学是生物信息学的最坚实的数学基础之一。在蛋白质结构预测和分子对接的研 究中,最优化理论及其算法发挥着重要的指导作用。计算数学,如常微分方程 数值解法是解决分子动力学问题的基本工具;而微分方程和动力系统则在模拟 基因或蛋白质问的相互作用方面发挥着重要的作用。在生物信息学的研究中, 支持向量机已被成功地应用于基因微阵列表达模式的分类、蛋白质高级结构预 测、蛋白质亚细胞定位、转录起始位点识别、药物设计等方面、蛋白质相互作 用及蛋白质相互作用位点的预测等方面。作为一种监督学习的方法,支持向量 机还在蛋白质同源性,m r n a 剪接位点识别、蛋白质折叠识别等方面得到了广 泛的应用。同时,随着生物信息学研究的深入,又提出了更多新的数学问题。 这为数学科学的进一步发展提供了一个全新的机遇和舞台。 上海大学硕1 :学位论文 1 2 蛋白质的重要地位 无论是低等的单细胞生物,还是高等的生物人类,都有许许多多种物 质参与了生命活动,其中包含有机分子,无机离子,也有各种各样的生物大分 子,但最基本的物质是水、蛋白质和核酸。水是生物体内的溶剂,含量最大。 核酸的含量最少,但它携带着生命活动的一切必要的遗传信息。在生物体中的 蛋白质,其含量不能和水相比,但比核酸的含量大得多,不仅量大,而且种类 极其繁多,生物体就是靠种类繁多的蛋白质来完成生物体各自的生物功能的2 3 1 。 自从1 9 9 5 年s a n g e r 完成胰岛素的一级结构测定以来,越来越多的蛋白质 的一级结构得以阐明,其数量之大,己经不能用一般的出版物汇集它们,人们 把这些不断扩大的结构数据贮存在数据库中,供科学家们查找和研究。另外, 通过x 射线衍射分析和n m r 方法,已经阐明了近6 0 0 种蛋白质的立体结构, 人们可以看到蛋白质的精确的立体图像,可以立足于精巧的立体结构之上来理 解蛋白质的功能。 可以理解,由于蛋白质领域的研究发展,人们对生命过程和本质的认识已 大大提高。科学家们不断地解决问题,同时也有更多更深刻的问题提出来等待 解决。显然,蛋白质领域的每一个重大问题的解决都推动着生物化学和分子生 物学的发展和进步。 1 3 预测蛋白质相互作用位点的意义 预测蛋白质相互作用的位点在理论和实践上都具有重要的意义。在许多生 物过程中,蛋白质相互作用扮演着重要的角色,例如,免疫反应,酶的催化和 信号传导等【川。实际上,所有细胞内的过程都是依赖于蛋白质间精密的相互作 用。理解一个蛋白质的生物功能的一个重要环节就是t 别与其相互作用的蛋白 质或者配体。蛋白质相互作用的描述,在药物设计,突变设计,新陈代谢的分 析和信号传导网络中都具有重要的意义。 蛋白质科学的重要目标之一是理解蛋白质相互作用的机制和预测蛋白质表 面的相互作用位点。理解相互作用位点( 界面残基) 的特性是理解分子识别过程 上海大学硕= l 学位论文 的必要条件。蛋白质相互作用位点的预测对于突变设计和蛋白质相互作用网络 的重构都是至关重要的。 在蛋白质功能中,蛋白质相互作用起着关键性的作用。因此,计算识别蛋 白质相互作用位点的能力和识别特殊界面残基( 对蛋白质相互作用的特异性和 亲和力起着重要作用的界面残基) 的能力,对于广泛的i 晦床和工业用途有着重 要的意义口5 1 。对界面残基的预测,可以直接用于指导实验研究。例如,在研究 蛋白质相互作用时,可以指导实验朝着蛋白质表面的一个特定区域努力。通过 大量减少待搜寻结构空间的数量,它还可以用来帮助解决对接问题,进而为蛋 白质复合物建立结构模型。 由于实验确定的蛋白质复合物及蛋白质配体化合物的结构依然相当少,而 且生物学实验的方法又过于费时费力,所以预测蛋白质相互作用位点的计算方 法的研究就日益重要起来。 1 4 论文工作与安排 在生物信息学中,支持向量机已经成为解决模式识别问题的重要工具。我 们发展了一种以支持向量机为分类器,以邻近残基的序列谱和可及表面积为输 入数据来预测蛋白质相互作用位点的方法。 论文具体安排如下: 本章,阐述了生物信息学的背景,介绍了蛋白质的重要地位,并介绍了预 测蛋白质相互作用位点的意义。 第二章,介绍蛋白质相互作用的分类,形式和作用力,以及预测蛋白质相 互作用的方法,介绍蛋白质相互作用位点的定义以及蛋白质相互作用位点预测 的研究进展,介绍相互作用的界面的性质,并对p s i b l a s t 和d s s p 等作简单 的介绍。 第三章,对支持向量机( s v m ) 给予简单的介绍。首先,介绍统计学习理 论的背景,最优分类超平面,线性和非线性支持向量机:其次,介绍常用的支 持向量机实现软件及下载地址;最后,介绍支持向量机在生物信息学中的应用。 第四章,主要介绍我们发展的基于s v m 的蛋白质相互作用位点的预测。 上海大学硕士学位论义 首先,介绍所用的数据集;其次,详细介绍基于s v m 的蛋白质相互作用位点 的预测方法;最后,介绍对模型的评价。 第五章,对全文作总结,并对未来工作进行了展望。 l 海大学硕士学位论文 第二章蛋白质相互作用位点的预测 2 1 蛋白质相互作用 越来越多的研究显示:细胞中绝大多数的酶学和调控过程是以蛋白质复合 体或多蛋白质网络协同作用实现的。另外,一些细胞问信息的传递及病原体感 染和免疫过程等都是蛋白质相互识别和相互作用的结果。随着从分子水平上对 基因调控、病毒感染与免疫、细胞因子和多肽激素与受体等研究的深入,人们 不仅认识了它们的共同本质就是蛋白质问相互作用,同时也提示这种相互作用 在生命过程中具有重要的作用【2 。 2 1 1 蛋白质相互作用的分类 蛋白质间的相互作用在生物体内扮演不同的角色,我们可以根据蛋白质复合 物的种类、作用力和结合时问的长短来对蛋白质相互作用进行分类 2 7 1 。大致可以 按照以下的三个标准来对蛋白质的相互作用分类。 1 ) 同源和异源低聚体复合物。如果蛋白质相互作用是发生在两条相同的蛋 白质之间,称这种相互作用是同源的;反之,如果参加反应的蛋白质是不相同的, 那么就称这种相互作用是异源的。一般同源相互作用形成的复合物具有结构上的 对称性,见图2 1 。 图2 1a r cr e p r e s s o r t 2 7 1图22 细胞内的信号复合2 7 + 海大学残尘学垃论文 圈2 3 酶及其: | f 割子圈2 。4 纲照溶瓣酶【2 7 1 2 ) 专性和非专性复合物。对于专性的蛋白质相互作用,在体内情形下原聚 髂的结稳劳不稳定。这释娄鍪懿蛋鑫蔗相互孛警蠲茬 主燕有功链主翡专注,锎翅霾 2 ,1 中的a r er e p r e s s o r - 聚体对于d n a 的结合是非常重臻的。在p d b 数据库中许多 髯源的相互作用都是非专性的,往往都是独立存在的;例如细胞内的信号复合物 ( 见圈2 ,2 ) 、拭藤拭髂复舍、受俸配露复合以及酶帮其季枣铡予( 觅髫2 3 ) 懿复合。 参与非专性相互作用的豫白质一般具有独立的稳定性。不过也有一魑例外,些 菲同源低聚体也可敬进行菲专髋的装辩( 铡翔细匏溶解酶,见图2 4 ) 3 ) 短暂和永久复合甥。蛋自质樱豆作用嗣糕可以根据复合物的持续时阀进 行分类。对于永久的相甄作用,其复合物的结构是非常稳定的,并鼠在体内只会 以复台秘豁形态密琥。翱反,缀暂蛋鑫覆相互悸麓蕊产生豹笺舍携在俸疼霹以分 解也可以重组,如图2 4 。一般的,专性蛋白质相互作用是永久相互作用,而非 专性的相互作用既可以是短暂的也可以是永久的。 篷褥注意款跫菜一缀蛋鑫壤缒媚夏 乍用霹戮按照上述强穗一耱分类标准进 行分类,例如对某个特定的蛋白质相互作用它既可以是同源的也可以是专性的。 舅舞,许多条梓键是可阻转纯鸯勺,橱如,虽然菜些蛋囱质相互彳乍瑶在体内怒短暂 的,可是在某些条件下这种镧互作用又可以转化成永久性的。 2 1 2 蛋白质分子闻撑甄作鼹的形式和作用力 、蛋自质分子闻相互作用的彤式瞳6 】 在生命体中,蛋白质不仅怒基本结构成分,而且它们通过各种形式的网络式 上海大学硕士学位论文 相互作用确保生命活动的正常进行。蛋白质问的相互作用归纳起来可以分为以下 5 种形式。 1 ) 分子或亚基的聚合。不少蛋白质,其分子或亚基能够聚合成聚合体。这 种聚合的方式不同,产生的聚合体的形状也不同,如线性聚合体、环状聚合体、 螺旋状聚合体以及球状聚合体等。蛋白质分子或亚基之问的聚合不是任意的,其 聚合部位必须能相嵌互补。有时为了满足相嵌互补,还要引起某种程度的构象变 化。 2 ) 分子杂交。对于某些具有四级结构的酶分子,在同工酶的不同纯聚体之 间,或者在不同种属来源的同一种酶分子之间,可以发生亚基交叉聚合,产生有 活性的杂交分子,这就是所谓的分子杂交( m o l e c u l a r h y b r i d i z a t i o n ) 。例如:乳酸 脱氢酶有两种不同的纯聚体:一种是l d h ( 鼠) ,由四个相同的b 亚基构成;另一 种是l d h s ( 以) 。在适当的条件下,这两种亚基可以重新聚合,产生下列具有乳 酸脱氢酶活性的5 种分子形式:l d h ( 目) 、上d 风( 4 ) 、l d h 2 ( b 3 a ) 、l d h 3 ( 县爿:) 和l d h 4 ( b a 3 ) 。其中,后三种是杂交分子。 3 ) 分子识别。在不同的生物大分子之间,普遍存在着一种专一性结合现象, 蛋白质分子之间也是如此。例如:抗原与抗体的专一结合,蛋白质类激素、植物 凝集素、外源凝集素或药物与受体的专一结合,蛋白酶与蛋白质底物的专一结合 等。生物大分子之间的这种专一性结合,就是分子识别( m o l e c u l a rr e c o g n i t i o n ) 。 分子识别是通过两种蛋白质分子各自的结合部位来实现的。要实现分子识别,就 必须具备下列两个条件:一是在两种蛋白质分子的结合部位之间,其微区构象要 能够相嵌互补,造成相当大的接触面积,或者经过构象变化达到这一目的;二是 两个结合部位各有相应的化学基团,相互之间能产生足够的结合力,使两种蛋白 质分子结合起来。 4 ) 分子自我装配。分子自我装l 配( m o l e c u l a ra u t o a s s e m b l y ) 是近年来出现的 一个概念,其实质就是生物大分子之间的相互识别和相互作用,也是一种特殊的 聚合现象。细胞器( 如核糖体、细菌鞭毛) 、细胞器碎片( 如线粒体碎片) 以及 病毒( 如烟草花叶病毒) ,在拆散成蛋白质、核酸、糖以及其它组分之后,在特 上海人学坝士学位论文 定的条件下,又能够自动地装配成具有原来生物功能的细胞器、细胞器碎片以及 病毒。这种过程称为自我装配。 5 ) 多酶复合体。有很多的多酶体系,体系中的各种酶彼此有机地结合在 起,精巧地镶嵌成一定的结构,形成多酶复合体。目前,有两个典型例子最能说 明这类多酶体系的结构特点。一个是细菌及动物组织中的丙酮酸脱氢酶复合体; 另一个是酵母及动物组织中的脂肪酸合成酶复合体。例如丙酮酸脱氢酶复合体就 是丙酮酸脱氢酶( e 1 ) 、二氢硫辛酸转乙酰基酶( e 2 ) 和二氢硫辛酸脱氢酶( e 3 ) 3 种酶有机地组成,催化3 个连续的化学反应。 二、蛋白质问相互作用的作用力 2 6 1 蛋白质之间相互作用主要是依赖一些所谓弱的非共价键或次级键,包括氢 键、范德华力、疏水作用和盐桥等。 1 ) 氢键由电负性原子与氢形成的基团如n h 和o h 具有很大的偶极矩, 成键电子云分布偏向负电性大的原子,因此氢原子核周围的电子分布就少,正电 荷的氢核( 质子) 就在外侧裸露。这一正电荷氢核遇到另一个电负性强的原子时, 就产生静电吸引,即所谓氢键。 x h - y 这里x 、y 是电负性强的原子( n 、o 、s 等) ,x h 是共价键,h y 是氢 键。x h 是氢( 质子) 供体,y 是氢( 质子) 受体。氢键具有两个重要特征, 一个是方向性,相互吸引的方向沿氢受体y 的孤电子对轨道轴,受体y 与供体 x h 之间的角度接近1 8 0 。;另一个是饱和性,表现在一般情况下x h 只能 和一个y 原子相结合。饱和性是由于h 原子非常小,而供体x h 中的x 和受体y 的原子都相当大,这样它们将排斥另一个受体原子再与氢结合。 氢键在维持蛋白质本身的结构中起着极其重要的作用,除此之外,氢键存 在于蛋白质与蛋白质的氨基酸侧链之问。蛋白质的大部分能形成氢键的残基处于 分子的表面,因此,氢键是蛋白质之间相互作用中主要的作用力之一。 2 1 范德华力范德华力包括三种较弱的作用力,即发生在极性分子或极性 海夭掌磷士学位论文 基团之阅的定向效应,发生在极性物质和非极性物质之间的诱露效应和非极性分 子或基溺问的分敬效应等。分散效应( d i s p e r s i o n e f f e c t ) 是在多数情况下起主要 作用的范德华力;它魁非极性分子或撼团间仅有的一种范德华力即狭义的范德华 力,也弥为l o n d o n 分数力,逯掌范德毕力就指这举孛作用力。这怒瞬时偶极阂的相 互彳乍用,偶极方向是瓣时变化的。瞬时偶极是幽予所在分子或蘩团中电子电蘅密 度的波动即电子运动的不对称性造成的。瞬时偶极可以诱导周围的分子或基网产 生诱导偶极,诱导偶极反过来又稳定了原来豹偶搬,嚣此在它们之阉产生了蝴互 作用。狭义范德华力怒种狠弱的作用力,而且随菲共价键合灏子或分子间距离 ( r ) 的6 次方倒数即1 r 。而变化。当非共价键合原子或分子相互挨得太近时, 麦子瞧予云重叠,逮产生莛德华斥力。实嚣主蕊德华宠包括骧萼| 力帮斥力嚣秘稳 互作用。因此范德华力( 吸引力) 只有当两个非键合原子处于一定距离时才能达 到最大,这个距离称为接触距离( c o n t a c td i s t a n c e ) 或范德华距离,它等于两个 蒙子戆藏德华半径之秘。虽然裁其令裂寒专璺莲撼华力是擐弱赘,毽是蓬德华力籀 互作用数量太并且具材加和效应,因此是蛋白质相互作用的一种不可忽视的作用 力。 3 ) 筑隶槎互 睾麓在承分褒哮l 簿凌蛋白蒺懿援叠总是趋囱予整藏求残蒸包 埋在分子内部,这一现象被称为疏水相互作用。疏水作用其实并不是疏水基团之 问有什么吸引力的缘故,而是疏水熬团或疏水侧链出自避开水的需要而被追接 近。蛋爨臻溶滚系统懿簿增是蔬零藤互 睾蔫豹主黉动力。楚增烹要涉及分矮永静 有序度改变,因为疏水旗团的聚集( 相互作用) 本身是有序化过程( 造成熵减) 。 疏水相互作用在生理濑度范围内随辫温度升高而增加,但超过一定温度 ( 5 0 墨6 0 ,困瘸键褥异) 轰,又开始减弱。 4 ) 赫桥又称离子键、盐键或静电作用力,它是正电荷与负电荷之间的种 静电相互 乍曩。在生毽p h 下,蛋自艨中的酸性氮蘩酸( a s p 莘霹g l u ) 的侧链可解 离成负搿予,碱径氨瑟酸( l y s 、a r g 和h i s ) 的侧链可解离成正离子。在多数情 况下这些基团都分布在球状蛋白质分子表面,因此在蛋白质问糊互作用中盐桥也 是一魏主要戆作羁力。麓辏受溶液中蕊浓度的影响,盐度手 惑,麓撬强度降低, 而当两个电离纯的基闰闻无水分子存在时盐桥强度将加大。这避由于水分子具有 9 上海大学硕| :学位论文 较高的介电常数的缘故。 三、残基间的相互作用及埋藏1 8 】 1 ) 蛋白质的核心部位是紧密堆积的。埋藏在内部的蛋白质核心主要由疏水 的残基及形成氢键或盐桥的极性残基所组成。未形成氢键或盐桥的带电残基完全 埋藏在蛋白质内部的几率极小。 2 ) 暴露的蛋白质表面由大约三分之一的非极性残基构成,占主要部分的极 性残基彼此间或与溶剂分子间形成氢键。 3 ) 大约有三分之一的带电残基间形成盐桥,其中有2 0 出现在蛋白质结构 内部。 4 ) 侧链一侧链间堆积( 特别是带电残基或芳香环) 有特定的方式。 2 2 蛋白质相互作用位点 2 2 1 蛋白质相互作用位点的定义 在蛋白质的许多功能中,蛋白质相互作用起着关键性的作用。我们不但要 研究蛋白质问是否能相互作用,更要预测哪些残基存在于相互作用的两个蛋白 质的界面处。这些残基就定义为蛋白质相互作用的位点,也可称为界面残基。 在以往的蛋白质相互作用位点的研究中,有几种蛋白质相互作用位点的定 义方法 2 4 , 2 8 - 3 2 1 。基本上可以归纳为两种类型:第一种是基于未结合分子和复合 物中残基的可及表面积( a c c e s s i b l es u r f a c ea r e a ,a s a ) 的差值,第二种是基于 复合物中两个分子的残基( 或原子) 间的距离。在第一种定义类型中,一个残 基被定义为界面残基,当且仅当它在未结合分子中的a s a 与复合物中的a s a 的差值大于一个阈值【2 8 , 3 0 l 。在第二种定义类型中,一个分子中的一个残基被定 义为界面残基,当且仅当在另一个分子中存在一个残基( 或原子) 与这个残基 的距离小于某个阈值 2 4 , 2 9 , 3 1 , 3 2 1 。在一定范围上,这两种方法定义的界面残基有很 多重叠的部分。第一种方法通常能产生一些连续的界面,第二种方法通常捕捉 到的界面残基的集合比第一种要稍微小一点。 上海大学硕士学位论文 2 2 2 蛋白质相互作用位点的预测及其研究现状 到目前为止,对蛋白质相互作用位点的研究:主要是采用神经网络或支持 向量机作为工具。基于氨基酸序列信息或者基于序列和结构的组合信息,有几 种用于预测蛋白质相互作用位点的方法。例如,k i n i 和e v a n 通过观察发现脯 氨酸经常出现在相互作用位点附近,所以,他们通过探测存在的“脯氨酸弧” 来预测潜在的蛋白质相互作用位点口”。基于对相互作用位点斑块( p a t c h ) 的系 统分析,j o n e s 和t h o r n t o n 运用一个含有6 个参数的得分函数,在一个含有5 9 个结构的集合中成功地预测出了界面 3 4 , 3 s l 。g a l l e t 等基于e i s e n b e r g 提出的用于 探测蛋白质膜斑块和表面斑块方法,通过对序列疏水性的分析来识别相互作用 残基口“。除了以上几种方法以外,还有几种方法是依赖多序列比对,使用保守 残基或相关的突变来探测蛋白质相互作用位点 3 7 _ 3 9 1 。z h o u ,s h a h 和f a r i s e l l i 使 用的神经网络方法,部分地基于空间临近残基的信息来预测一个残基是否为界 面残基【j 1 1 。 在先前的研究中,好几个小组发表了他们尝试用序列信息预测蛋白质相互 作用位点的结果。例如,p a z o s 等【3 9 1 提出了一种假设:在进化过程中,相互作 用区域以一种相互关联的方式趋向于发生突变。基于这种假设,他们提出了一 种预测相互作用位点的方法,并运用这种方法对热激蛋白h s p 7 0 进行了成功的 预测。通过分析序列中疏水残基的分布,g a l l e t 等发展了用于探测“受体结合 域”的方法。c h a n g h u iy a n 等发展了一种可以预测蛋白质相互作用位点的计算 方法,浚方法是以s v m 为分类器,基于目标残基和其相邻的1 0 个临近残基的 特性,经过训练后的s v m 可以预测一个表面残基是否位于界面处。他们提出 的方法为仅用序列信息计算预测蛋白质结合位点奠定了基础。 很多人都在关注d o c k i n g 算法【4 5 】,在这种算法中,须给定两个相互作用的 蛋白质的未结合的单体结构,然后模拟定位相互作用的位点,并建立蛋白质复 合物的模型。基于蛋白质的结构信息,在预测蛋白质相互作用位点方面取得了 重大的进步【2 4 , 3 1 , 3 5 , 4 0 , 4 2 4 4 , 4 6 1 。但是,复合物形成时产生的构象变化严重地影响了 这种方法的预测精度。而且,目前已知的蛋白质三级结构要远远少于已知的蛋 白质序列,这也阻碍了这种方法的发展【4 0 州1 。此外,产生复合物的分子模型需 上海大学硕士学位论文 要大量的计算。当蛋白质很大时,目前的d o c k i n g 算法将变得不切实际4 7 1 。 2 3 相互作用的界面的性质 众所周知,蛋白质表面的相互作用位点处存在着大量的疏水残基。也曾有 人认为两个蛋白质的结合能来源于疏水表面面积的埋藏过程【4 ”。一般来讲, l e u ,i l e ,v a l ,p h e ,t y r ,m e t 经常出现在界面处,而l y s ,a s p ,g l u ,和其它极性残基( a r g 除外) 很少出现在界面处【4 9 。在许多界面处,一个疏水核心周围环绕着很多极性 残基乳1 。在早期的界面预测中,j o n e s 和t h o m t o n p 4 , 3 5 根据斑块( p a t c h ) 来分 析蛋白质表面,并指出通过计算溶合潜力、残基界面倾向性、疏水性、表面突起 程度和可及表面积几种参数的得分,来预测一个表面斑块是否为相互作用的界 面。 研究蛋白质相互作用的界面的性质是为了洞察蛋白质界面处具有预示性的 信息口8 - 3 0 , 4 8 , 5 0 - 5 7 。相互作用界面的许多性质,如疏水性、残基倾向性、大小、形 状、溶剂可及性和残基的配对参数等都曾被研究过。尽管每一种性质都能提供 一些预示性的信息,但没有一种能够完全正确区分出所有的相互作用位点。不 同类型的蛋白质复合物( 如同源二聚体和异源二聚体) 的界面有着不同的特性 2 8 , 2 9 , 3 4 1 。与那些稳定的同源复合物相比,蛋白质异源复合物中的界面更小,且 包含更多的极性残基 2 8 , 5 8 , 5 9 1 。由此,我们可以得出一个重要的结论:不同的界 面类型有着不同的性质,只有综合考虑相互作用界面的各种性质,设计有效的 得分函数,才能有效地预测蛋白质相互作用界面【”j 。 2 4 p s i b l a s t 简介 2 4 1p s i b l a s t b l a s t 是一种常用的数据库搜索程序,它是b a s i cl o c a la l i g n m e n ts e a r c h t o o l 的缩写,意为“基本局部相似性比对搜索工具”。它的基本思路是首先找出 检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以 找出尽可能长的相似序列片段。 2 上海大学硕= b 学位论文 b l a s t 软件包实际上是综合在一起的一组程序,不仅可用于直接对蛋白质 序列数据库和核酸序列数据库进行搜索,而且可以将d n a 序列翻译成蛋白质 序列后再进行搜索,以提高搜索结果的灵敏度( 见表2 1 ) 。 表2 1b l a s t 程序检测序列和数据库类型 其中,b l a s t p 是用蛋白质序列搜索蛋白质序列数据库的程序,在我们的研 究中,使用的就是这个程序。 p s i b l a s t ( p o s i t i o ns p e c i f i ci t e r a t e db l a st ,位置特异性迭代b l a s t ) 是 b l a s t 程序的强化版。p s i b l a s t 从提交的单个序列( 起始序列) 开始,利用含 空位罚分的b l a s t 在数据库中进行搜索,通过局部比对方法产生与起始序列长度 相同的多序列比对( a l i g n m e n t ) 结果,并生成序列谱( s e q u e n c ep r o f i l e ) 。这 个过程可以迭代多次。 p s i b l a s t 是一种将双序列比对和多序列比对结合在一起的数据库搜索方 法,它的基本思路是根据最初搜索结果,依照预先定义的相似性阈值将序列分 成不同组,构建一个位点特异性序列谱,并通过多次迭代不断改进这一序列谱 以提高搜索的灵敏度。其主要思想是通过多次迭代找出最佳结果。具体做法是 利用第一次搜索结果建立位置特异性计分矩阵,并用于第二次的搜索,第二次 搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果1 8 】。 2 4 2 在线b l a s t b l a s t 是运行速度很快的数据库搜索程序,许多生物信息中心都有专门运 行b l a s t 的服务器。主要的b l a s t 服务器网址如表2 2 。其中e b i 所使用的 b l a s t 版本是w u b l a s t ,由华盛顿大学开发,功能和运行效率与n c b i 的 b l a s t 相似。 上海大学硕士学位论文 表2 2 主要的生物信息中心的b l a s t 服务网站 n c b i ( 美国国家生物技术信息中心) c b l ( 北京大学生物信息中心) e b i ( 欧洲生物信息研究所) d d i ! j ( 日本d n a 数据库) m d :w w wn c b i n l m n i h g o v b l a s t i n d e x s h m l l h r t p :b l a s t c b i o k u e d u , e n h t t p 删a c u k b l a s t 2 h t t p :w w w d d b j n i g a c j p s e a r c h b l a s t - e h t m l 需要说明的是,各生物信息中心b l s t 用户界面有所不同,所提供的数 据库也可能不完全相同。表2 3 列出了n c b i 的b l a s t 程序使用的几种主要的 蛋白质序列数据库。 表2 3n c b i 上的b l a s t 蛋白质序列数据库 数据库描述 m o n t h s w i s s p rq 0 t p d b y e a s t e c o l i g s s 汇合了s w i s s - p r o t ,p i r ,p r f 以及g e n b a i l k 的编码序列中得 到的蛋白质和p d b 中拥有原子坐标的蛋白质。很少冗余。 n r 的子集,搜集过去3 0 天中的最新序列 s w i s s , - p r o t 数据库 拥有三维空间结构的原子坐标的氨基酸序列库 酵母基因组中基因编码的全套蛋白质 大肠杆菌基因组中基因编码的全套蛋白质 g e n b a n k 中的g s s 部分 对于需要查询的序列,可以通过查询序列输入文本框提交,允许同时提交 多个序列,要求需要查询的序列必须以f a s t a 格式输入。f a s t a 格式以“ ” 开头,每行不超过8 0 个字符( 包括说明行) ,最好每行低于6 0 个字符。 2 4 3 本地b l a s t 除在线b l a s t 搜索外,还可以将b l a s t 下载到本地计算机上运行。在本 地做b l a s t 可以加快速度和保证安全。我们选择本地做b l a s t ,而非在线提 交。首先需要从n c b i 上下载一个单机用的d o s 版b l a s t 程序,下载地址为 :r p :n c b i n l m n i h g o v b l a s t 。在安装完b l a s t 后,需要在操作系统安装目录下 创建一个名为n c b i i n i 的配置文件。在这个文件中写入下面两行代码: n ( b i 】 3 a l a = p a t h d a t a 上海大学硕士学位论文 比如,本研究中的n c b i i n i 文件内容如下: i n c b i d a t a 2 d :y l i u w o r k p r o t e i n d a t a d a t a ” 本地做b l a s t 所需的数据库必须为f a s t a 格式,在做b l a s t 之前,需 要将数据库进行格式化。因为应用对象是蛋白质,所以只考虑应用于蛋白质序 列的命令,如下: f o r m a t d b ii n p u t _ p t _ o t 其中一些主要参数的含义见表2 4 。 表2 4f o r m a t d b 命令的参数 参数含义 一t 数据库文件的题目 一i 需格式化的文件名( 必须设置) 1 记录文件名,缺省值为f o r m m d b 1 0 9 p 文件类型,t 为蛋白质,f 为核酸,缺省值为t o 语法选项,t 为真,创建序列号和索引:f 为假,不创建序列号和索引。 缺省值为f 将数据库格式化以后,就可以利用b l a s t p g p 命令进行序列比对和查询了。 具体语法格式为: b l a s t p g p is e q l qa l i g n l j3 一dn r 这里s e q l 是查询序列,a l i g n l 是比对文件。n r 代表所查询的数据库。3 代 表迭代次数。 b l a s t p g p 命令的部分参数列在表2 5 中。 表2 5b l a s t p g p 命令的参数 参数含义 _ j - d i - q 迭代的最大次数 数据库名 查询文件 结果输出文件 上海大学硕士学位论文 2 4 4 序列谱 序列谱( s e q u e n c ep r o f i l e ) 方法是利用多序列比对结果的全部信息构造每 一个位点的残基替代、插入、删除分数表。从序列谱可以看出,哪些残基可以 出现在某个特定位点,哪些位点是高度保守的,哪些位点突变可能性较大,哪 些位点或区域可以插入空位等。 蛋白质序列谱数据库则以全序列比对为基础,包括了蛋白质序列中所有残 基的信息。所谓序列谱,是指利用权重矩阵方法,列出序列中各个位置2 0 种氨 基酸残基替换分数矩阵,以及允许插入或缺失的位置。这种以权重矩阵方式表 示序列谱,为检测序列之间距离关系提供了一种新方法,特别当序列中仅有个 别保守残基时,具有较高的灵敏度【9 】o 序列中的基序是序列中局部的保守区域,或者是一组序列中共有的- d , 段 序列模式。基序这个术语更多的时候是指有可能具有分子功能、结构性质或家 族成员相关的任何序列模式。基序在蛋白质、d n a 、r n a 序列中都存在。 序列谱是一种定量或者定性地描述基序的方法。序列谱可以用它最基本的 形式来表现,即基序中每一个位置出现的氨基酸的列表。早期的序列谱方法是 使用这种简单的方式,而现在的序列谱方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论