(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf_第1页
(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf_第2页
(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf_第3页
(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf_第4页
(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(系统分析与集成专业论文)基于支持向量机的蛋白质相互作用位点的预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 蛋白质科学的重要目标之一是理解蛋白质相互作用的机制和预测蛋白质表 面的相互作用位点。蛋白质问的相互作用在许多生物过程中扮演着重要的角色, 例如,免疫反应、酶的催化、信号传导等。理解一个蛋白质的生物功能的一个重 要环节就是识别与其相互作用的蛋白质或者配体,因此预测蛋白质相互作用的位 点在理论和实践上都具有重要的意义。蛋白质相互作用位点的预测对于突变设计 和蛋白质相互作用网络的重构都是至关重要的。 由于实验确定的蛋白质化合物及蛋白质配体化合物的结构依然相当少,而且 生物学实验的方法过于费时费力,所以预测蛋白质相互作用位点的计算方法就日 益重要起来。特别是近年来,许多具有优良性能的智能算法的提出,使得计算方 法预测蛋白质相互作用位点的研究取得了很大的进展。 在生物信息学中,支持向量机已经成为解决模式识别问题的重要工具。在本 文中,我们首先对蛋白质相互作用位点预测的发展历程进行了回顾;并对支持向 量机及其在生物信息中的应用作了简单的介绍;最后,我们提出了一种以支持向 量机为分类器,以邻近残基的序列信息、可及表面积和进化率信息为输入数据来 预测蛋白质相互作用位点的方法。我们从4 0 个蛋白质复合物中提取出6 6 个蛋白 质分子作为训练和测试的数据集。为了检验方法的预测效果,我们运用两种方法 ( 输入数据为序列信息+ 进化率+ 可及表面积的方法和输入数据只有序列信息和 进化率信息的方法) 分别对数据集中的蛋白质进行十倍交叉验证计算。计算结果 显示,我们提出的方法比输入数据仅有序列剖面和进化率的方法更能有效地预测 出蛋白质相互作用的位点。 关键词:蛋白质相互作用位点;支持向量机;序列剖面;可及表面积;进化率 v i 上海大学硕士学位论文 a b s t r a c t o n eo ft h ei m p o r t a n tg o a l so ft h ep r o t e i ns c i e n c ei st ou n d e r s t a n dt h e m e c h a n i s m so fp r o t e i n p r o t e i ni n t e r a c t i o na n dp r e d i c tt h ei n t e r a c t i o ns i t e so nt h e p r o t e i ns u r f a c e s p r o t e i n - p r o t e i ni n t e r a c t i o n sp l a yap i v o t a lr o l ei nal a r g en u m b e ro f b i o l o g i c a lp r o c e s s e s s u c ha si n l m u n er e s p o n s e ,e n z y m ec a t a l y s i sa n ds i g n a l t r a n s d u c t i o n ac r i t i c a ls t e pi nu n d e r s t a n d i n gt h ep h y s i o l o g i c a lf u n c t i o no fap r o t e i ni s t h ei d e n t i f i c a t i o no fo t h e rp r o t e i n sa n d o rl i g a n d sw i t l lw h i c hi ti n t e r a c t s s ot h e p r e d i c t i o no fp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e si si m p o r t a n ti nt h e o r ya n dp r a c t i c e t h e p r e d i c t i o no fp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e si si m p o r t a n tf o rm u t a n td e s i g na n d r e c o n s t r u c t i o no fp r o t e i ni n t e r a c t i o nn e t w o r k s b e c a u s et h en u m b e ro fe x p e r i m e n t a l l yd e t e r m i n e ds t r u c t u r e sf o rp r o t e i n - p r o t e i n a n dp r o t e i nl i g a n dc o m p l e x e si ss t i l lq u i t es m a l la n dt h eb i o l o g i c a le x p e r i m e n t a t i o n s a r ea l s ot e d i o u sa n dl a b o r - i n t e n s i v e , m e t h o d sf o rc o m p u t a t i o n a l l yp r e d i c t i n g p r o t e i n - p r o t e i ni n t e r a c t i o ns i t e sa t eb e c o m i n gm o r ea n dm o r ei m p o r t a n t e s p e c i a l l y , m a n yp r o p o s e de f f i c i e n t a n de f f e c t i v e i n t e l l i g e n ta l g o r i t h m sa c h i e v e d o b v i o u s p r o g r e s s e si ns t u d y i n gt h ep r e d i c t i o n so fp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e si nr e c e n t y e a r s r e c e n t l y , s u p p o r tv e c t o rm a c h i n e ( s v m ) h a sb e c o m ea ni m p o r t a n tt o o li n s o l v i n gp a t t e r nr e c o g n i t i o np r o b l e m si nb i o i n f o r m a t i c s i nt h i sa r t i c l e , w e f i r s t r e v i e w e dt h ed e v e l o p m e n tp r o c e s so fp r e d i c t i o no fp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e s , a n dt h e ng a v eab r i e fi n t r o d u c t i o no fs v ma n di t sa p p l i c a t i o ni nb i o i n f o r m a t i c sa r e a a tl a s t , w ed e v e l o p e dam e t h o do fp r e d i c t i n gp r o t e i n - p r o t e i ni n t e r a c t i o ns i t e su s i n g s v mw i ma l li n p u tv e c t o rc o m p o s e db ys e q u e n c ep r o f i l e so fn e i g h b o r i n gr e s i d u e s 、 e v o l u t i o nr a t ea n da c c e s s i b l es u r f a c ea r e a w ea c h i e v e d6 6p r o t e i n sw h i c hc a m ef r o m 4 0p r o t e i nc o m p l e x e sa sd a t af o rt r a i n i n ga n dt e s t i n g i no r d e rt ov a l i d a t et h ep r o p o s e d m e t h o d ,w ec o m p a r e dt h ep e r f o r m a n c e so ft h em e t h o du s i n go n l ys e q u e n c ep r o f i l e a n de v o l u t i o nr a t ef o rt h ef e a t u r ev e c t o r si ns v mf o rp r e d i c t i n gp r o t e i ni n t e r a c t i o n s i t e sb y10 一f o l dc r o s s - v a l i d a t i o n t h ec o m p u t a t i o n a lr e s u l t ss h o w e dt h em e t h o dw e d e v e l o p e di sb e t t e rt h a nt h em e t h o du s i n go n l ys e q u e n c ep r o f i l ea n de v o l u t i o nr a t ef o r v i i 上海大学硕士学位论文 t h ef e a t u r ev e c t o r sf o rs v m k e y w o r d s :p r o t e i n - p r o t e i ni n t e r a c t i o ns i t e s ;s u p p o r t v e c t o rm a c h i n e ;s e q u e n c e p r o f i l e ;a c c e s s i b l es u r f a c ea r e a ( a s a ) ;e v o l u t i o nr a t e ;10 - f o l dg r o s s - v a l i d a t i o n v i i i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 埠 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名: 牛导师签名秘日迸:笸尘 上海大学硕士学位论文 1 1 生物信息学概论 第一章绪论 生物信息学( b i o i n f o r m a t i c s ) 是- f - j 新兴的交叉学科,它所研究的材料是生 物学的数据,而它进行研究所采用的方法,则是从各种计算机技术衍生出来的。 生物信息学这一术语在各种不同的场合往往被赋予不同的含义。而且,随着生命 科学研究的不断深入,生物信息学所涉及的研究范畴也在不断地得到扩充。由人 类基因组计划牵头而兴起的基因组学研究产出了海量的生物序列数据,如何有效 地管理和利用海量的生物序列数据,从中挖掘出有用的生物信息是人类在探索生 命奥秘的征途上面临的巨大问题,这无疑需要计算机技术和数学技术的支撑。于 是,一门以分子生物学数据库为主要对象,以数学技术和计算机技术为主要手段, 以计算机、应用软件和计算机网络为主要工具的,通过对海量的原始序列数据进 行收集、存储、管理、分析、注释、加工和处理而获取生物学新知识的学问就应 运而生了。这个新兴的交叉学科就被定名为生物信息学。因此,在原来的意义上, 生物信息学就是从事基因组研究产出的生物序列数据的获取、加工、储存、分配、 分析、解释和传播。这一定义实际上包括了两层含义,一是对海量序列数据的收 集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用 好这些数据。具体地说,生物信息学就是以基因组d n a 序列信息分析作为源头, 设法破译d n a 序列中隐藏的遗传语言规律,这就是生物信息学的基本工作内容 【l 】 o 随着生物技术的进展,特别是生物芯片技术、蛋白质质谱技术和蛋白质结构 测定技术的快速发展,不断产出新形式的实验数据。现在,对这类新形的生物学 实验数据的信息挖掘也已纳入了生物信息学的研究范畴,从而大大扩展了生物信 息学的工作内容。生物信息学是由基因组学研究孕育的一门新学科,但是,由于 学科的自身发展,现在基因组学的研究已离不开生物信息学的支撑。生物信息学 的突飞猛进正在引发生物学研究方式的一场革命,它必将影响到2 l 世纪的农林 医药和人类生产与生活的许多方面【2 。 1 2 生物信息学研究的意义 上海大学硕士学位论文 生物信息学的研究是从理论上认识生物本质的必要途径,通过生物信息学研 究和探索,可以更为全面和深刻地认识生命科学中的本质问题,了解生物分子信 息的组织和结构,破译基因组信息,阐明生物信息之间的关系。破译和阐明生物 信息的本质将使得人类对生物界的认识跨越一个新台阶。 生物信息学的出现将改变生物学的研究方式。传统的生物学是一门实验科 学,传统的分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手工 分析完全能够胜任。然而,随着分子生物学技术的发展,已经出现一些高通量的 实验方法,如基因芯片,利用基因芯片一次可以获取上万个基因的表达数据。生 物学已经从一次只分析一个生物分子的时代跃迁到同时分析成千上万个生物分 子的时代。对于高通量的实验结果,必须利用计算机进行自动分析。因而,在高 通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。再者,从 生物分子数据本身来看,各种数据之间存在着密切的关系,如d n a 序列与蛋白 质序列、基因突变与疾病等,这些关系反映了生物学的规律。但是,这些关系可 能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析的。对于这些 复杂的关系,必须运用现代信息学的方法去分析,去研究。因而,随着分子生物 学研究的深入,必然需要生物信息学。另外,现在全世界每天都会产生大量的核 酸和蛋白质序列数据,不可能用实验的方法去详细研究每一条序列,必须首先进 行信息处理和分析,去粗取精,去伪存真。通过预处理,发现有用的线索,在此 基础上进行有针对性、有明确目的的分子生物学实验。因而,生物信息学在指导 实验、精心设计实验方面将会发挥重要的作用【6 】。 生物信息学研究在医学上也有重要的意义。通过生物信息学分析,可以了解 基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据。研究 生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用的目标 和作用的方式,从而为设计新药提供依据,揭示人类及重要动植物种类的基因的 信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在迅速发展的 自然科学领域最重大的课题之一。这方面的研究不仅对认识生物的起源及对认识 生物遗传、发育与进化的本质有重要意义,而且将为人类疾病的科学诊断和合理 治疗开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础【7 1 。 1 3 蛋白质的重要地位 2 上海大学硕士学位论文 生物体是由多种复杂成分组成的。其中有许多的有机分子和金属、非金属离 子,也有各种各样的生物大分子,如多糖、脂质、蛋白质、核酸和生物膜。但是 蛋白质和核酸的作用最重要。蛋白质在生物体的生命活动中起着重要的作用,可 以说几乎在所有的生物过程中都起着关键的作用【引。 无论是低等的单细胞生物,还是高等的生物人类,都有许许多多种物质 参与了生命活动,其中包含有机分子,无机离子,也有各种各样的生物大分子, 但最基本的物质是水、蛋白质和核酸。水是生物体内的溶剂,含量最大。核酸的 含量最少,但它携带着生命活动的一切必要的遗传信息。在生物体中的蛋白质, 其含量不能和水相比,但比核酸的含量大得多,不仅量大,而且种类极其繁多, 生物体就是靠种类繁多的蛋白质来完成生物体各自的生物功能的。 自从1 9 9 5 年s a n g e r 完成胰岛素的一级结构测定以来,越来越多的蛋白质的 一级结构得以阐明,其数量之大,已经不能用一般的出版物汇集它们,人们把这 些不断扩大的结构数据贮存在数据库中,供科学家们查找和研究。另外,通过x 射线衍射分析和n m r 方法,到目前为止,蛋白质数据库中已经包括了5 0 6 2 3 种 蛋白质的立体结构,人们可以看到蛋白质的精确的立体图像,可以立足于精巧的 立体结构之上来理解蛋白质的功能【9 】。 可以理解,由于蛋白质领域的研究发展,人们对生命过程和本质的认识已大 大提高。科学家们不断地解决问题,同时也有更多更深刻的问题提出来等待解决。 显然,蛋白质领域的每一个重大问题的解决都推动着生物化学和分子生物学的发 展和进步。 1 4 预测蛋白质相互作用位点的意义 预测蛋白质相互作用的位点在理论和实践上都具有重要的意义。在许多生物 过程中,蛋白质相互作用扮演着重要的角色,例如,免疫反应,酶的催化和信号 传导等【1 0 】。实际上,所有细胞内的过程都是依赖于蛋白质间精密的相互作用。 理解一个蛋白质的生物功能的一个重要环节就是识别与其相互作用的蛋白质或 者配体。蛋白质相互作用的描述,在药物设计、突变设计、新陈代谢的分析和信 号传导网络中都具有重要的意义。 蛋白质科学的重要目标之一是理解蛋白质相互作用的机制和预测蛋白质表 3 上海大学硕士学位论文 面的相互作用位点。理解相互作用位点( 界面残基) 的特性是理解分子识别过程 的必要条件。蛋白质相互作用位点的预测对于突变设计和蛋白质相互作用网络的 重构都是至关重要的【l l 】。 在蛋白质功能中,蛋白质相互作用起着关键性的作用。因此,计算识别蛋白 质相互作用位点的能力和识别特殊界面残基( 对蛋白质相互作用的特异性和亲和 力起着重要作用的界面残基) 的能力,对于广泛的临床和工业用途有着重要的意 义【脚。对界面残基的预测,可以直接用于指导实验研究。例如,在研究蛋白质 相互作用时,可以指导实验朝着蛋白质表面的一个特定区域努力。通过大量减少 待搜寻结构空间的数量,它还可以用来帮助解决对接问题,进而为蛋白质复合物 建立结构模型【1 3 】。 由于实验确定的蛋白质复合物及蛋白质配体化合物的结构依然相当少,而且 生物学实验的方法又过于费时费力,所以预测蛋白质相互作用位点的计算方法的 研究就日益重要起来。 1 5 论文工作与安排 随着生物信息学研究领域的不断深入,蛋白质相互作用的研究已引起广泛的 关注,目前解决这些模式识别问题的一种重要工具是支持向量机。本文主要是以 支持向量机为工具,利用蛋白质邻近残基的序列信息、可及表面积和蛋白质残基 的进化率信息对蛋白质的相互作用位点进行预测。 本论文共分为六章,具体安排如下: 本章,阐述了生物信息学的背景及意义,简要介绍了蛋白质的重要地位及预 测蛋白质相互作用位点的意义。 第二章,介绍蛋白质的相关知识,包括蛋白质的组成、蛋白质的分类以及蛋 白质相互作用的分类、形式和作用力;介绍蛋白质相互作用位点的定义以及蛋白 质相互作用位点预测的研究现状,最后介绍了蛋白质相互作用的界面的性质,包 括残基的序列剖面和可及表面积。 第三章,对支持向量机作了简单的介绍。首先介绍统计学习理论背景中的机 器学习理论与经验风险最小化以及统计学习理论的核心内容,然后介绍了支持向 量机理论中的最优分类超平面、线性和非线性支持向量机、支持向量机常用的核 4 上海大学硕士学位论文 函数以及常用软件,最后简单介绍了支持向量机在生物信息学中的应用。 第四章,主要介绍我们利用支持向量机所作的蛋白质相互作用位点预测的研 究工作,主要包括数据来源、预测全过程、模型评价以及结果与讨论四部分。 第五章,主要介绍数据与处理过程中相关程序的实现,主要包括b l a s t 和 d s s p 两种程序的介绍和应用。 第六章,对全文进行总结,并对今后的研究工作进行展望。 5 上海大学硕士学位论文 第二章蛋白质及蛋白质相互作用概述 2 1 蛋白质相关知识 生物体的基因组能够提供构建机体所需的全部信息,但其本身在建造机体时 不担任任何主动角色。而蛋白质则有的参与形成组织的部分结构,有的被赋予构 建组织结构的能力,有的负责执行生命必须的新陈代谢反应。可以说,蛋白质几 乎在所有生物过程中起关键性作用,是生命的主要基础物质。蛋白质由氨基酸组 成,有着复杂的空间结构。而在蛋白质功能中,蛋白质相互作用起着关键性的作 用,因此,理解蛋白质相互作用的机制和预测蛋白质表面的相互作用位点不仅是 生物学实验研究的重要课题,也是生物信息学研究的重要课题。 2 1 1 蛋白质的组成 蛋白质是含氮的有机化合物,是由氨基酸构成的生物大分子。通过分析各种 不同来源的蛋白质的氨基酸组成,发现构成蛋白质的氨基酸共有2 0 种。这些氨 基酸在结构上都有一个共同的特点,即在与羧基相连的q 一碳原子上含有一个氨 基,故把这些氨基酸称为q 一氨基酸,其一般结构如图2 1 所示。这些氨基酸之 间的差别仅在侧链r 基上,不同的r 基决定了氨基酸的不同的理化性质。这2 0 种氨基酸都由相应的遗传密码子编码,因此常把这些氨基酸称为“标准”氨基酸, 表2 1 给出了2 0 种氨基酸的符号表示【1 4 】f 1 5 】【l6 】 表2 1 氨基酸的三字母简写与单字母符号 名称三社翳午号单字嘴名称三字嘴单字嘴 丙氨酸( a l a n t n e ) a ha亮氨酸( 1 e u c i n o ) l e al 精氨酸( a r 豇i n e ) a 唱 r 赖氨酸( 1 y s i n e ) l y s k 甲硫氨酸 天冬酰胺( a s p a r a g i n e ) a mn融m ( m e t h i o n i n e ) 天冬氨酸 苯丙氨酸 a s p dn f ( a s p a r t i ca c i d ) ( p h e n y l a l a n i n e ) 6 上海大学硕士学位论文 半胱氨酸( c y s t c i n c ) q b c 晡氯酸( p r o l i n e ) n d p 谷酰胺( g l u m m i n e ) g h q 丝胺酸( s c r l n e )鼯 s 谷氨酸( g l u t a m i ca c i d ) o e 苏氮酸( t h r e o n i n e ) 1 h t 甘氨酸( g l v c i n e ) o 廿 。 色氪酸( t i y p t o p h a n ) 伽w 组氯酸( h i s t i d i n e )h 酪氢酸( t y r o s i n e ) 1 计 y 异亮氩酸( i s o l c u c i n e )k i 顷氨酸( v a l m e ) v 2 1 2 蛋白质的分类 n j h 图2 1 氨基酸结构 按化学组成的不同,将蛋白质分成简单蛋白质和结合蛋白质二大类。前者全 部由氨基酸组成,后者由简单蛋白质和非蛋白质的其他物质构成。简单蛋白质分 为清蛋白类、球蛋白类、组蛋白类、精蛋白类、谷虽白类、醇溶蛋白和硬蛋白类 七种;依据分子中非蛋白成分的不同,结合蛋白又可分为糖蛋白类、核蛋白类、 脂蛋白类、磷蛋白类、金属蛋白类、血红素蛋白类和黄素蛋白类七种【8 】。 2 2 蛋白质相互作用 越来越多的研究显示;细胞中绝大多数的酶学和调控过程是以蛋白质复合体 或多蛋白质网络拂同作用实现的。另外,一些细胞问信息的传递及病原体感染和 免疫过程等都足蛋白质相互识别和相互作用的结果。随着从分子水平上对基因调 控、病毒感染与免疫、细胞因子和多肚激素与受体等研究的深入,人们不仅认识 了它们的共同本质就是蛋白质问相互作用,同时也提示这种相互作用在生命过程 上簿大学硕士学位论文 中具有重要的作用【9 】 2 2 1 蛋白质相互作用的分类 蛋白质间的相互作用在生物体内扮演不同的角色,我们可以根据蛋白质复合 物的种类、作用力和结合时问的长短来对蛋白质相互作用进行分类m 。大致可 以按照以下的三个标准柬对蛋白质的相互作用分类。 1 、同源和异源低聚体复合物。如果蛋白质相互作用是艟生在两条相同的蛋 白质之间称这种相互作用是同源的:反之,如果参加反应的蛋白质是不相同的, 那么就称这种相互作用是异源的。一般同源相互作用形成的复合物具有结构上的 对称性。如图22 图2 2 a r c 岬s o f 川 图2 j 细胞内的信号复合 2 、专一性和非专一性复合物。对于专一性的蛋白质相互作用,在体内情形 下原聚体的结构并不稳定。这种类型的蛋自质相互作用往往具有功能上的专一 性,例如图22 中的a r cr e p r c s s o r 二聚体对:j :d n a 的结合是非常重要的。在p d b 数 据库中许多异源的相互作用都是非专一性的往往都是独立存在的:例如细胞内 的信号复合物( 见图23 ) 、抗原抗体复合、受体配体复合以及酶和其抑制子( 见 图24 ) 的复合。参与非专一性相互作用的蛋白质一般具有独立的稳定性。不过 也有一些例外,一些非同源低聚体也可以进行非专一性的装配。 上海大学硕十学位论文 糕够 图2 4 酶发其抑制子 图25 细胞溶解酶 3 、短暂和永久复合物。蛋白质相互作用同样可以根据复合物的持续时间进 行分类。对于永久的相互作用,其复合物的结构是非常稳定的,并且在体内只会 以复合物的形态出现。相反,短暂蛋白质相互作用所产生的复合物在体内可以分 解也可以重组,一般的,专一性蛋白质相瓦作用是永久相瓦作用,而非专一性的 相互作用既可以是短暂的也可以是永久的。 值得注意的是某一组蛋白质的相互作用可以按照上述任何一种分类标准进 行分类,例如对某个特定的蛋白质相互作用它既可以是同源的也可以是专一性 的。另外,许多条件也是可以转化的,例如,虽然菜些蛋白质相互作用在体内是 短暂的,可是在某些条件下这种相互作用又可以转化成永久性的p 】。 2 2 2 蛋白质相互作用的形式 在生物体内相同或不同的蛋白质分子之间存在着相互作用,如抗体与抗原结 合,产生免疫反应;蛋白质抑制剂与酶结合,抑制酶活性等等,这些相互作用, 对于机体的生理与健康,具有重要的意义。 1 、分子或亚基的聚合 不少蛋白质,其分子或亚基能够聚台成聚合体,蛋白质分子或亚基采取不同 的聚合方式就会产生不同形状的聚合体,如线性聚合体、环状聚合体、螺旋聚合 体、球状聚合体等。蛋白质分子或亚基之间的聚合不是任意的,其聚合部位必须 能相互嵌补,有时为了满足相互嵌朴,还要引起某种程度的构象变化。除此之外, 许多蛋白质分子的聚合与解离( 解粲) 是与生物功能有关的。 上海大学硕士学位论文 2 、分子杂交( m o l e c u l a rh y b r i d i z a t i o n ) 对于某些具有四级结构的酶分子,在同工酶的不同纯聚体之间,或者在不同 种属来源的同一种酶分子之间,可以发生亚基交叉聚合,产生有活性的杂交分子, 这就是所谓的分子杂交。例如乳酸脱氢酶有两种不同的纯聚体:种是l d h 。( b 4 ) 、 由4 个相同的b 亚基构成;另一种是l d h 。( a 4 ) ,由4 个相同的a 亚基构成。b 4 和 凡虽然结构和性质有些不同,但是在适当的条件下,这两种亚基可以重新聚合产 生具有乳酸脱氢酶活性的另外五种分子形式。 3 、分子识别( r e c o g n i t i o n ) 在不同的大分子之间,普遍存在一种专一性结合现象。生物大分子之间的这 种专一性结合就是分子识别。分子识别是通过两种蛋白质分子各自的结合部位来 实现的。要实现分子识别,就必须具备下列两个条件: 在两种蛋白质分子的结合部位之间,其微区构象要能够相互嵌补,造成 相当大的接触面积,或者经过构象变化达到这一目的。 两个结合部位各有相应的化学基团,相互之间能产生足够的结合力,使 两种蛋白质分子结合起来。 当这两个条件都具备时,两种蛋白质分子就能完成专一性结合。 4 、分子自我装配 分子自我装配是近年来出现的概念。细胞器、细胞器碎片以及病毒在拆散成 蛋白质、核酸、糖以及其他组分之后,在特定的条件下又能够自动地装配成具有 原来生物功能的细胞器、细胞器碎片以及病毒,这种过程称为自我装配。自我装 配的实质就是大分子之间的相互识别、相互作用,这是一种特殊的聚合现象。 5 、多酶复合体 有不少的多酶体系,体系中的各种酶彼此有机地结合在一起,精巧地镶嵌成 一定的结构,形成多酶复合体。目前,有两个例子最能说明这类多酶体系的结构 特点。一个是细菌及动物组织中的丙酮酸脱氢复合体;另一个是酵母及动物组织 中的脂肪酸合成酶复合体【9 】。 2 2 3 蛋白质相互作用的作用力 l 、静电作用 1 0 上海大学硕士学位论文 组成蛋白质的氨基酸中的多种可解离的侧链基团,在正常的生理条件下,又 带正电荷的,也有带负电荷的。这些解离后的带电侧链,相互之间可能产生静电 作用,习惯上也称之为盐键。蛋白质中的一些极性的集团,在分子内其他原子或 基团的作用下,也可能诱导成为有一定稳定性的永久偶极。不仅侧链的基团间可 能有这种偶极间的静电作用,在肽链骨架中的已形成肽键的羟基间也有这种方式 的相互作用。 2 、氢键 在蛋白质肽链骨架中存在着大量的羟基和亚胺基团,氨基酸残基的侧链中有 许多是带有极性基团的。这些基团中某些可以作为氢原子的供体,另一些则作为 氢原子的接受者,彼此相互作用,这种作用被称为氢键。氢键可以用下面的通式 表示: 一d h - - a - 其中,d - h 是氢供体,a 是接受体。氢键在蛋白质的结构和功能中,尤其是二价 结构的形成中特别重要。 3 、范德华力 蛋白质中的所有原子都在不断地运动,原子中的电子也绕着原子核不停的运 动。为此,一些原子的正负电荷在一瞬间也可能有相对的偏移,造成了瞬间的偶 极。这些瞬间偶极之间也能发生相互作用,被称为色散力,也被称为范德华力。 尽管这种色散力很弱,只在很短的距离内有作用,但是由于蛋白质分子内的原子 数目是大量的,这种色散力也就不容忽视。 4 、残基的亲水性和疏水性 组成蛋白质的2 0 种氨基酸各自带有不同性质的侧链基团。有些是极性的, 它们很容易和水作用,或形成氢键,或是溶于水环境中;另一些残基的侧链却是 非极性的,不表现出和水或其他极性基团相互作用的能力和倾向。这些侧链有与 同类侧链相互接触的倾向,与此同时,将非极性侧链周围的多少有些规则的水分 子变成了可自由运动的有力的水分子,这种作用被称为疏水作用。 5 、二硫键 二硫键是一种共价键。多数蛋白质具有二硫键。然而,在蛋白质肽链生物合 成时,并不存在和二硫键有关的胱氨酸的密码。在新生肽链合成后,两个半胱氨 上海大学硕士学位论文 酸的侧链巯基氧化成胱氨酸,肽链中才出现二硫键,它是蛋白质翻译后加工的结 果【9 】。 2 3 蛋白质相互作用位点 2 3 1 蛋白质相互作用位点的定义 在蛋白质的许多功能中,蛋白质相互作用起着关键性的作用。我们不但要研 究蛋白质问是否能相互作用,更要预测哪些残基存在于相互作用的两个蛋白质的 界面处。这些残基就定义为蛋白质相互作用的位点,也可称为界面残基。 在以往的蛋白质相互作用位点的研究中,有几种蛋白质相互作用位点的定义 方法o o , l s - 2 2 。基本上可以归纳为两种类型:第一种是基于未结合分子和复合物中 残基的可及表面积( a c c e s s i b l es u r f a c ea r e a , a s a ) 的差值,第二种是基于复合 物中两个分子的残基( 或原子) 间的距离。在第一种定义类型中,一个残基被定 义为界面残基,当且仅当它在未结合分子中的a s a 与复合物中的a s a 的差值大 于一个阈值【1 8 2 0 1 。在第二种定义类型中,一个分子中的一个残基被定义为界面残 基,当且仅当在另一个分子中存在一个残基( 或原子) 与这个残基的距离小于某 个阈值 1 0 , 1 9 , 2 1 2 2 】。在一定范围内,这两种方法定义的界面残基有很多重叠的部分。 第一种方法通常能产生一些连续的界面,而第二种方法通常捕捉到的界面残基的 集合比第一种要稍微小一点。 2 3 2 蛋白质相互作用位点的预测及其研究现状 到目前为止,对蛋白质相互作用位点的研究主要是采用人工神经网络或支持 向量机作为工具。基于氨基酸序列信息或者基于序列和结构的组合信息,有几种 用于预测蛋白质相互作用位点的方法。例如,k i n i 和e v a n 通过观察发现脯氨酸 经常出现在相互作用位点附近,所以,他们通过探测存在的“脯氨酸弧来预测 潜在的蛋白质相互作用位点【2 3 】。基于对相互作用位点斑块( p a t c h ) 的系统分析, j o n e s 和t h o r n t o n 运用一个含有6 个参数的得分函数,在一个含有5 9 个结构的 集合中成功地预测出了界面【2 4 ,2 5 1 。g a l l e t 等基于e i s e n b e r g 提出的用于探测蛋白 质膜斑块和表面斑块方法,通过对序列疏水性的分析来识别相互作用残基【硐。 除了以上几种方法以外,还有几种方法是依赖多序列比对,使用保守残基或相关 1 2 上海大学硕士学位论文 的突变来探测蛋白质相互作用位点f 2 7 五9 】。z h o u ,s h a h 和f a r i s e l l i 使用的神经网络 方法,部分地基于空间临近残基的信息来预测一个残基是否为界面残型2 。 已有几个小组发表了他们尝试用序列信息预测蛋白质相互作用位点的结果。 例如,p 覆z o s 等提出了一种假设:在进化过程中,相互作用区域以一种相互关 联的方式发生突变。基于这种假设,他们提出了一种预测相互作用位点的方法, 并运用这种方法对热激蛋白h s p 7 0 进行了成功的预测。通过分析序列中疏水残 基的分布,g a l l e t 等发展了用于探测“受体结合域 的方法。c h a n g h u i y a h 等发 展了一种可以预测蛋白质相互作用位点的计算方法,该方法是以s v m 为分类器, 基于目标残基和其相邻的1 0 个临近残基的特性,经过训练后的s v m 可以预测 一个表面残基是否位于界面处。他们提出的方法为仅用序列信息计算预测蛋白质 结合位点奠定了基础。 很多人都在关注d o c k i n g 算法【3 0 】,在这种算法中,须给定两个相互作用的蛋 白质的未结合的单体结构,然后模拟定位相互作用的位点,并建立蛋白质复合物 的模型。基于蛋白质的结构信息,在预测蛋白质相互作用位点方面取得了重大的 进步【3 1 。3 4 】。但是,复合物形成时产生的构象变化严重地影响了这种方法的预测精 度。而且,目前已知的蛋白质三级结构要远远少于已知的蛋白质序列,这也阻碍 了这种方法的发展【3 3 3 5 1 。此外,产生复合物的分子模型需要大量的计算。当蛋白 质很大时,目前的d o c k i n g 算法将变得不切实耐3 6 1 。 最近,蛋白质相互作用位点预测的研究又有一些新的进展,如m i n g h u il i 等人通过分析蛋白质的结构信息、序列信息以及残基的可及表面积等特性,提出 了基于c r f ( c o n d i t i o n a lr a n d o mf i e l d s ) 的蛋白质相互作用位点的预测方法f 3 刀; j o l a nc h u n g 等人通过计算蛋白质接触面的一些补充信息的潜在规则,利用支持 向量机来确定两个粘合位点是否相互作用3 8 】等。 2 4 相互作用界面的性质 蛋白质表面的相互作用位点处存在着大量的疏水残基,也曾有人认为两个蛋 白质的结合能来源于疏水表面面积的埋藏过程3 9 1 。一般来讲,l e i l e ,v a l ,p h e , t y r , m e t 经常出现在界面处,而k s ,a s p ,g l u ,和其它极性残基( 心除外) 很少出 现在界面处【柏1 。在许多界面处,一个疏水核心周围环绕着很多极性残基【4 。在 1 3 上海大学硕士学位论文 早期的界面预测中,j o n e s 和t h o r n t o n 2 4 ,2 5 1 根据斑块( p a t c h ) 来分析蛋白质表面 并指出通过计算溶合潜力、残基界面倾向性、疏水性、表面突起程度和可及表面 积几种参数的得分,来预测一个表面斑块是否为相互作用的界面。 研究蛋白质相互作用的界面的性质是为了洞察蛋白质界面处具有预示性的 信尉4 7 】。相互作用界面的许多性质,如疏水性、残基倾向性、大小、形状、溶 剂可及性和残基的配对参数等都曾被研究过。尽管每一种性质都能提供一些预示 性的信息,但没有一种能够完全正确地区分出所有的相互作用位点。不同类型的 蛋白质复合物( 如同源二聚体和异源二聚体) 的界面有着不同的特性【2 8 御3 4 】。与 那些稳定的同源复合物相比,蛋白质异源复合物中的界面更小,且包含更多的极 性残基 4 9 , 5 0 。由此,我们可以得出一个重要的结论:不同的界面类型有着不同的 性质,只有综合考虑相互作用界面的各种性质,设计有效的得分函数,才能有效 地预测蛋白质相互作用界面。 2 4 1 序列剖面 序列剖面( s e q u e n c ep r o f i l e ) 方法是利用多序列比对结果的全部信息构造每 一个位点的残基替代、插入、删除分数表。从序列剖面可以看出,哪些残基可以 出现在某个特定位点,哪些位点是高度保守的,哪些位点突变可能性较大,哪些 位点或区域可以插入空位等。 蛋白质序列剖面数据库则以全序列比对为基础,包括了蛋白质序列中所有残 基的信息。所谓序列剖面,是指利用权重矩阵方法,列出序列中各个位置2 0 种 氨基酸残基替换分数矩阵,以及允许插入或缺失的位置。这种以权重矩阵方式表 示序列剖面,为检测序列之间距离关系提供了一种新方法,特别当序列中仅有个 别保守残基时,具有较高的灵敏度 5 1 。 序列中的基序是序列中局部的保守区域,或者是一组序列中共有的一小段序 列模式。基序这个术语更多的时候是指有可能具有分子功能、结构性质或家族成 员相关的任何序列模式。基序在蛋白质、d n a 、r n a 序列中都存在。 序列剖面是一种定量或者定性地描述基序的方法。序列剖面可以用它最基本 的形式来表现,即基序中每一个位置出现的氨基酸的列表。早期的序列剖面方法 是使用这种简单的方式,而现在的序列剖面方法通常根据在每个位置观察到的氨 1 4 上海大学硕士学位论文 基酸出现概率对氨基酸进行加权。譬如,与位置有关的得分矩阵( p o s i t i o n s p e c i f i c s c o r i n gm a t r i x ,p s s m ) ,就是一种代表基序的得分矩阵。矩阵的第一维是基序的 长度,第二维包括2 0 种氨基酸的概率。在矩阵的每一个位置是每一个氨基酸出 现的概率得分【5 l 】。从数据库h s s p 中也可以得到序列的剖面 ( h t t p :w w w e m b i k u n n l g v h s s p ) 。 2 4 2 蛋白质分子的可及表面积 蛋白质分子的可及表面积( a c c e s s i b l es u r f a c ea r e a ,缩写为a s a ) 最初由 l e e 和r i c h a r d s 引进的,他们用它来定量研究疏水埋藏。可及表面积( a s a ) 描述了蛋白质和溶剂相互接触的面积。最初,计算可及表面是为了研究蛋白质折 叠问题和疏水性。在蛋白质基团相互作用中,被埋藏的可及表面积的大小,可以 用来区分晶包和蛋白质问的功能性相互作用。 决定蛋白质如何与其它分子( 如化学底物、配体、其它蛋白质和受体) 相互 作用的通常是其表面的氨基酸。计算溶剂可及表面积可以帮助指出哪些化学基团 位于蛋白质的表面。蛋白质表面的化学基团能够反映出蛋白质的表面信息,利用 这些表面信息可以研究蛋白质间是如何相互作用的,以及蛋白质如何用其它方式 影响环境,或者解释为什么一个分子会与另一个分子结合,以及酶对特定底物的 专一性。 计算溶剂可及性的标准方法十分简单。分子结构中的每一个原子用球表示, 每一个特殊原子类型的球的半径都不同。围绕已知原子中心的球,通过收集数百 个离散点建模。为了确定蛋白质溶剂可及表面积,溶剂可及性计算模拟半径相当 于水分子半径( 1 4 埃) 的球“探针滚过原子球表面,探针中心的路径决定了 分子溶剂可及表面。因为探针( 此处为水分子) 不能插进分子表面的较小缝隙里, 计算出的溶剂可及性表面比实际的分子表面更光滑。它是一种扩张的范德华表面 【5 1 1 ,如图2 6 。 、 上海大学硕士学位论文 o 、 、 八 。l o c u so f l 叫o b ec e n t s e 2 5 本章小结 图2 6 可及表面积 v a i ld e rw a a l s 曩】疗a c e es p h e r e 本章主要对蛋白质及蛋白质相互作用的相关知识做了详细的介绍。首先,主 要介绍了蛋白质的组成和分类;其次介绍了蛋白质相互作用的分类情况、蛋白质 相互作用力的形式以及蛋白质相互作用位点的定义、预测及研究现状;最后主要 介绍蛋白质相互作用界面的一些性质,我们可以从这些性质中提取出具有预示性 的、能够帮助我们有效预测蛋白质相互作用位点的信息,进而发展更好的预测蛋 白质相互作用位点的方法。 1 6 上海大学硕士学位论文 第三章统计学习理论和支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是在统计学习理论基础上发展起 来的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论