(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf_第1页
(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf_第2页
(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf_第3页
(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf_第4页
(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于动态规划和支持向量机的蛋白结构域预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复h 火学硕士论文 摘要 本文提出了两个新的蛋白结构域预测系统,p p s a a d o m a i n 和 k e m a d o m ,这两个系统分别采用基于模板的预测方法和从头算的预测 方法。 首先,我们设计了一个新的基于模板的蛋白结构域预测系统 p p s a a d o m a i n 。该系统框架( f r a m e w o r k ) 包含三个主要步骤:第一, 用自己提出的p r o f i l e s t r u c t u r ea l i g n m e n t 方法( p p s a a ) 比较两个不同 蛋白之间的相似性;第二,用我们给出的p p s a a t e m p l a t e 算法在已知 蛋白结构域数据库中查找相似模板;第三,用我们提出的以贪心方法为 主要思想的g r c e d y c o m b i n a t i o n 算法对第二步得到的模板进行组合以达 到结构域预测。该系统框架解决了当前基于模板方法无法模拟低同源性 ( r e m o t eh o m o l o g y ) 结构域的问题。 其次,作为对基于模板方法的补充,我们设计了一个新的从头算预 测方法,k e m a d o m 。该方法利用基于子空间特征的s v m ( 支持向量机, s u p p o av e c t o rm a c h i n e ) 集成模拟氨基酸上下文信息( 1 0 c a lc o n t e x t ) , 这种集成方法可以增加预测的多样性。在特征抽取方面使用生物知识, 二级结构、氨基酸溶剂可及性和物理化学特性作为学习器的输入单元。 在c a t h 数据集和c a f a s p4 数据集上,实验结果表明我们的方法在 整体性能上要优于目前已有的从头算方法。最后,我们还将该方法做成 网页服务器,科研和商业用户都可以免费使用。 链接:h t t p :w w w i i p l f u d a n e d u c n - l s c h e n k e m a d o m h t m 。 【关键词】:生物信息学,结构基因组,蛋白结构,结构域,结构域 预测,支持向量机,动态规划,p p s a a d o m a i n ;k e m a d o m 。 复旦大学硕士论文 a b s t r a c t i nt h i sw o r k , w eh a v ed e v e l o p e dt w od o m a i n p r e d i c t i o ns y s t e m s , p p s s a d o m a i na n dk e m a d o m t h e ya r et e m p l a t e b a s e dp r e d i c t i o nm e t h o d a n da bi n i t i op r e d i c t i o nm e t h o d ,r e s p e c t i v e l y f i r s t l y , w ep r e s e n t an o v e lt e m p l a t e b a s e dd o m a i np r e d i c t i o ns y s t e m n a m e dp p s a a d o m a i n t h e r ea r em a i n l yt h r e es t e p si nt h ef r a m e w o r ko f t h e s y s t e m :1 ) an e wp r o f i l e s t r u c t u r ea l i g n m e n ta l g o r i t h m ,p p s a a ,i sp r o p o s e d t oc o m p a r et h es i m i l a r i t yo ft w op r o t e i n s ;2 1a l g o r i t h mp p s a a t e m p l a t ei s d e s i g n e dt os c a ns i m i l a rt e m p l a t eo ft h eq u e r yp r o t e i na g a i n s tk n o w nd o m a i n d a t a b a s e s ,s u c ha ss c o ec a t h a f t e rt h et e m p l a t e sr e t r i e v e d ,an u m b e ro f c a n d i d a t e sa l eg e n e r a t e d ;3 ) t og u e s st h ed o m a i nc o m p o s i t i o no ft h eq u e r y p r o t e i n ,a l g o r i t h mg r e e d y c o m b i n a t i o ni sd e s i g n e dt or e c o m b i n et h ed o m a i n c a n d i d a t e s t h ep p s a a d o m a i nu s e st h ea b o v ef r a m e w o r kt op r e d i c tt h e d o m a i n si np r o t e i n s i tc a nb ew e l l - s u i t a b l et ot h el o ws i m i l a r i t yp r o t e i n s t ob ec o m p l e m e n t a r yt ot h et e m p l a t e b a s e ds y s t e m s ,w ea l s od e s i g na n o v e la bi n i t i od o m a i np r e d i c t i o ns y s t e m ,k e m a d o m d i f f e r e n tf r o mp r e v i o u s w o r k ,k e m a d o ma d o p t ss v m a st h el e a r n i n gm e t h o da n df u r t h e re n s e m b l e t h r e ed i f f e r e n tm o d e l st oi n c r e a s et h ed i v e r s i t yo fp r e d i c t i o na n dm o d e ll o c a l c o n t e x ti n f o r m a t i o no fa m i n oa c i d s a st of e a t u r ee x t r a c t i o n a c c o r d i n gt o b i o l o g i c a lk n o w l e d g e ,s e c o n d a r ys t r u c t u r e ,r e l a t i v es o l v e n ta c c e s s i b i l i t ya n d p h y s i c c h e m i c a lp r o p e r t i e sa l eu s e dt ob ei n p u tu n i t s e x p e r i m e n t a lr e s u l t s h o w st h a tk e m a d o mc a l la c h i e v eas a t i s f a c t o r yr e s u l to nt h ec a t ha n d c a f a s p4d a t a s e t s w ea l s op r o v i d ea no n l i n ew e b s e r v e rw h i c hc a nb e a c c e s s i b l ef r o mi n t e r n a t i tj sf r e ef o rb o t hs c i e n t i f i cu s e r sa n dc o m m e n c i a i u s e r s a v a i l a b l el i n k :h t t p :w w w i i p l f u d a n e d u c n - l s c h e n k e m a d o m k e y w o r d s :b i o i n f o m a t i c s ,s t r u c t u r a lg e n o m i c s ,p r o t e i ns t r u c t u r e , d o m a i n ,d o m a i np r e d i c t i o n ,d y n a m i cp r o g r a m m i n g ,s u p p o r tv e c t o rm a c h i n e , p p s a a - d o m a i n ,k e m a d o m 1 1 复旦大学硕士论文 第一章绪论 1 1 生物信息学概述 1 1 1 生物信息学的发展 生物信息学( b i o i n f o r m a t i c s ) 是研究生物基因组中信息的获取、加工、储存、 分配、分析和解释的门新兴交叉学科。生物信息学把氨基酸序列、d n a 序列、 以及其它相关数据作为分析对象,力求解析蛋白质和r n a 基因的编码区,以及 基因组中非编码区的信息实质。生物信息学还利用基因组中编码区的信息进行蛋 白质空间结构的模拟和蛋白质功能的预测。借助强大的计算能力,生物信息学力 求在生物体的整体水平发现生命信息的传递和指导功能、认识生命现象,并将此 类信息与生物体和生命过程的生物物理和生物化学信息相结合,阐明其分子机 理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。 美国洛斯阿拉莫斯国家实验室1 9 7 9 年开始建立g e n e b a n k 数据库,随后基因组 信息出现了爆炸性增长 2 。根据国际数据库的统计,基因组数据大约每1 4 个月 翻一番。因此,迫切需要对海量生物信息进行处理。自1 9 9 5 年科学家破译了全长 为1 8 0 万核苷酸的嗜血流感杆菌基因组咀来,到目前已有1 7 1 种生物完成了基因组 的测序,如:酵母、线虫、果蝇、拟南芥、水稻,以及人类的基因组。表1 1 给 出了生物信息学研究领域中一些常用数据库的例子及其介绍。( ( n u c l e i ca c i d s r e s e a r c h ) ) 杂志每年在1 月份都要发表一个关于生物信息学数据库的专期,报道 各种实验验证或者从一级文献获取的数据信息。 牛物的基因组是指该生物所有遗传物质的总和。生物的遗传物质是类称为 脱氧核糖核酸( d n a ) 的生物大分子,它是由4 种核苷酸串接组成的,通常用字符 a 、t 、g 、c 代表。通俗地说,生物的遗传密码就是这4 个字符a 、t 、g 、c 连接 起来的线状长链。这条链往往很长,比如:人的遗传密码就含有3 2 亿个字符,将 它们堆起来就构成了一部1 0 0 多万页,每页有3 0 0 0 字符的“天书”。这本“天书” 包含了人体的结构和功能以及生命活动过程的所有信息。解析或读懂这本天书的 密码是目前所有计算生物学家和实验生物学家的目标。 从研究意义卜说,生物信息学对揭示人类基因的信息,继而开展生物大分子 结构模拟和药物设计具有重要的指导意义,是当今国际上正在迅速发展的自然科 学领域重大的课题之一。它不仅对认识生物体和生物信息的起源、遗传、发育与 进化的本质有重要意义,而且医药生物信息学将为人类疾患的诊治开辟全新的途 径,另外农业生物信息学还可为动植物的物种改良提供坚实的理论基础;生物信 复旦大学硕士论文 息学不仅具有重大的科学意义,而且具有巨大的经济效益;它既属于基础研究, 以探索生物学自然规律为己任;又属于应用研究,它的许多研究成果可以较快地 产业化,成为价值很高的产品。生物信息学的这些特点在现有的许多学科中几乎 是独一无二的。这些特性使得其应用领域十分广阔,会带动一些相关学科和产业 的发展,具有重要的现实意义和深远的战略意义。 表1 1 常用生物信息数据库 n c b i 这是由n i h ( 美国卫生院) 建立的全球首个生物信息数据库系统, 数据库包含有基因、蛋白、结构、文献等各种数据,是目前数据 库中最综合最全面最详细的数据库。 e m b l e m b l 核酸序列数据库由欧洲生物信息学研究所( e b i ) 维护的核酸 序列数据构成,由于与n c b ig e n b a n k 和d d b j 的数据合作交换, 它也是一个全面的核酸序列数据库。 s c o p 蛋白质结构分类( s c o p ) 数据库详细描述了已知的蛋白质结构之间 的关系。分类基于若干层次:家族,描述相近的进化关系:超家 族,描述远源的进化关系;折叠子( f o l d ) ,描述空问几何结构的关 系;折叠类,所有折叠子被归于全、全p 、“d 、d + p 和多结构域 等几个大类。s c o p 还提供一个非冗余的a s t r a i l 序列库,这个库 通常被用来评估各种序列比对算法。 k e g g 日本基因和基因组百科全书( k e g g ) 是系统分析基因功能,联系基 因纽信息和功能信息的知识库。基因组信息存储在g e n e s 数据库 里,包括完整和部分测序的基因组序列;更高级的功能信息存储 在p a t h w a y 数据库里,包括图解的细胞生化过程如代谢、膜转运、 信号传递、细胞周期,还包括同系保守的子通路等信息;k e g g 的 另一个数据库是l i g a n d ,包含关于化学物质、酶分子、酶反应等 信息。 g d b 基因组数据库( g d b ) 为人类基冈组计划( h g p ) 保存和处理基因组 图谱数据。g d b 的目标是构建关于人类基因组的百科全书+ 除了 构建基因组图谱之外,还开发了描述序列水平的基因组内容的方 法,包括序列变异和其它对功能和表型的描述。目前g d b 中有: 人类基因组区域( 包括基因、克隆、a m p l i m e r sp c r 标记、断点 b r e a k p o i n t s 、细胞遗传标记c y t o g e n e t i cm a r k e r s 、易碎位点f r a g i l e s i t e s 、e s t 序列、综合区域s y n d r o m i cr e g i o n s 、c o n t i g s 和重复序列) ; 人类基因纽图谱( 包括细胞遗传图潜、连接图谱、放射性杂交图谱、 c o n t e n tc o n t i g 图谱和综合图谱等) ;人类基因组内的变异( 包括突 复旦大学硕士论文 变和多态性,加上等位基因频率数据) 。 p d b 蛋白质数据仓库( p d b ) 是国际上唯一的生物大分子结构数据档案 库。p d b 收集了x 光晶体衍射和核磁共振( n m r ) 的试验数据。该数 据库目前由结构生物信息学研究合作组织( r c s b ) 维护。 d i p 蛋白蛋白相互作用的数据库( d i p ) 收集了由实验验证的蛋白质一 蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和 检测相互作用的实验技术三个部分。 t r r d 转录调控区数据库( t r r d ) 是在不断积累的真核生物基因调控区 结构一功能特性信息基础上构建的。每一个t r r d 的条目里包含 特定基因各种结构一功能特性:转录因子结合位点、启动子、增 强子、静默子、以及基因表达调控模式等。t r r d 包括五个相关 的数据表:t r r d g e n e s ( 包含所有t r r d 库基因的基本信息和调 控单元信息) ;t r r d s i t e s ( 包括调控因子结合位点的具体信息) ; t r r d f a c t o r s ( 包括t r r d 中与各个位点结合的调控因子的具 体信息) ;t r r d e x p ( 包括对基因表达模式的具体描述) ;t r r d b i b ( 包括所有注释涉及的参考文献) 。 t r a n s f a ct r a n s f a c 数据库是关于转录因子、它们在基因组上的结合位点 和d n a 结合序列的p s s m 的数据库。数据库i 由s i t e 、g e n e 、 f a c t o r 、c l a s s 、m a t r i x 、c e l l s 、m e t h o d 和r e f e r e n c e 等数据表构成。此外,还有几个与t r a n s f a c 密切相关的扩展库。 1 1 2 结构基因组学 2 0 0 0 年,美国国家卫生部( n i h ) 启动了以蛋白结构为研究计划( p r o t e i n s t r u c t u r ei n i t i a t i v e ) 的结构基因组计划,结构基因组( s t r u c t u r a lo e n o m i c s ) 计划 是项同际性的解析生物大分子三维形状的计划【3 】。初始目标是希望通过高通 量的方法来产生蛋臼并解析出它们的结构信息,而生物信息学列于该计划的主要 意义是希望能够降低解析结构的平均花费。结构基因组讨划从启动到现在总共的 花费大约6 亿美元,其中的多个子项目在国际问开展,包括日本、加拿大、以色 剜和欧洲【4 】。 随着研究的进展,尽管越来越多的实验结构数据被添加到结构数据存贮中 心,立f i p d b ( p r o t e i nd a t ab a n k ) 5 、s c o p ( s t r u c t u r ec l a s s i f i c a t i o no f p r o t e i n s ) j 6 1 、 c a t h 7 等,结构生物学家都承认去理解或者验证核糖体单元的“新”【n o v e l ) 的结构特别重要 8 ,9 】,因为知道家族的个蛋白结构可以用来帮助理解该蛋白 复且大学硕士论文 所在家族的生物功能和机制,推导出家族斗,其他成员的折叠子,对非常相似的蛋 白做详细的结构同源模型b o ,甚至证明未被定性的家族闻的进化关系【1 l 】。蛋 白结构以不同的构造或者不同的结合物形式出现,它们可以提供功能机制的信 息。当然,上面这些想法受限于蛋白结构的大小、复合物形式、结构质量( q u a l i t y ) 以及其他符种荇样的困难闻素。蛋白结构的生物意义已经被本文中大部分的参考 文献所阐述,其中【4 】分析了结构基因组的当前研究形势和研究方法,并阐述了 结构基因组对从整体水平认识基因组发生机制的重大影响。 尽管结构基因组各个目标在细节上存在着差别,但是有一点可以肯定的是在 近年来以及未来几年内蛋白三级结构数据将快速增加,如图1 1 给出了近年来 s c o p 中数据增长情况,同样图1 2 给出t p d b 数据的近年来的增长情况,报道 的结构是呈指数级增长。这个形势引发了个问题,“如何使用这些数据? ”。 实验生物学家对如何从这些数据中获取有意义的信息感到束手无策,它们同计算 生物学家们一样都希望从这些新的结构中获取最大信息,以帮助或者指导他们进 一步实验。 s c o p 数据库 图1 1s c o p 数据库近年来数据增长情况 复旦大学硕士论文 图i 2 p d b 数据库近年来数据增长情况,图片选自p r o t e i n d a t a b a n k 官方网站【l 】 纵观目前的研究形势和进展,这些数据可以提供以下几个用途:1 ) 理解数据 的意义和组织形式可以帮助我们设计计算方法或者模型;2 ) 数据可以作为一个 评估标准来测试这些方法的有用性;3 ) 从方法测试结果进一步让我们理解应该 如何建立更好的数学物理模型,能够进一步挖掘出新的知识。 显然,计算方法在结构基因组学中应用于各个不同的生物问题,这些问题主 要包含( 1 ) 蛋白问的结构关系;( 2 ) 序列和结构信息获得较远距离进化的蛋白之 间的关系;( 3 ) 蛋白结构的预测;( 4 ) 基于结构的蛋白功能鉴定。随着研究的深 入,如蛋白结构数据的增加和新算法的提出等,这些计算模型对于数据的处理越 来越有效。 1 1 3结构基因组学研究内容 1 1 3 1 保守模式的查找 保守模式的查找,或者称为多序列比对( m u l t i p l es e q u e n c ea l i g n m e n t ) ,是生 物信息学提出以来就产生的一个问题,该问题是给定多条功能相似的序列( 比如 同家族的蛋白序列) ,从中找出一个或者多个保守模式,使得对于每一个保守模 式每一条序列都有个片段和该模式“相似”。那么最后得到的这个( 砦) 保守 模式很有可能就和该功能有关。其中,基于动态规划( d y n a m i cp r o g r a m m i n g ) 算法醛j c l u s t a l x 1 2 ,1 3 】及其改进算法 1 4 ,1 5 】是较为成功的应用;【1 6 】是基于吉布 斯取样( g i b b ss a m p l e r ) 的方法,浚方法更多地应用于d n a 序列的问题【1 7 】;其 他的工具还有e m b o s s 等。 1 1 3 2 蛋白结构预测 一个蛋白是由一系列氨基酸以特定顺序按照穿线的方式组成,众所周知,蛋 白的i 级结构由该蛋白的氨基酸序列唯一决定 1 8 】。这就预示着我们可以由序列 到结构的关系来鉴别( 1 d e n t i f y ) 蛋白的些特性,比如预测结构。蛋白结构预 测是结构基因组中一个经典的问题,并且在近几年出现了多种方法。最成功的方 法就是利用已知结构的同源序列来预测查洵蛋白的结构 1 9 ,2 0 1 ,这种方法称作 同源方法或者比较建模。 同源方法通常将一个从序列到结构的问题分割为几个小的子问题:第一步是 找到和查询序列相近的已知结构序列:然后,将金询序列比对到模板结构上去; 最后,对构建,提炼的模型结构进行评估。目前有很多种的方法应用于序列序列 复旦大学硕士论文 比对,序列p r o f j i e 比对,j t f l b l a s t ,p s i - b l a s t 2 1 ,h m m e r 2 2 等。 除了同源方法之外,一些研究人员将该问题转化为一个三类分类问题 ( a h e l i x ,卢一s t r a n d ,c o i l ) ,基于这样的思想,机器学习方法在二级结构 预测领域也作出了巨大的贡献,如基于神经网络的预测方法有j p r e d 、p h d 、 s s p r o ,另外 2 3 ,2 4 1 是基于s v m 的预测方法。 1 1 3 3 蛋白结构域预测 折叠蛋白是由多个二级结构单元( s s e :s e c o n d a r ys t r u c t u r ee l e m e n t s ) 组成,这 些二级结构的变化组织形成各种不同的令人惊讶的三级结构模式 2 5 1 。简单一点 说,结构域是由多个二级结构单元组成的序列段。这和三级结构的说法有点类似, 不同于j 级结构的是,结构域的定义强调功能,这种功能通常在特定结构下执行, 蛋白的功能南组成它的结构域的功能体现,一个蛋白由一个或者多个结构域组 成,所以我们有时称结构域为二级半结构,当然这种称谓是模糊的,仅仅为了理 解的方便。蛋白结构的分类及这些分类之问的关系可以从s c o p 数据库中查看 【6 1 ,s c o p 将球蛋白按类( c l a s s ) ,折叠子( f o l d ) ,超家族( s u p e r f a m i l y ) 和家 族( f a m i l y ) 进行分类 2 6 1 ,这些术语已经被广泛采用。除了s c o p ,另外一个常 被使用的分类数据库是c a t h 7 】,c a t h 使用s s a p 程序对蛋白结构自动分类 【2 7 】。关于蛋白结构域的研究进展将在后面部分给出详细描述。 1 1 3 4 其他的一些重要问题 除了上面列出的问题之外,还有一些结构基因组相关的重要研究问题,如蛋 白蛋白相互作用位点识别等,这里不再一一列出。 1 2 蛋白结构域研究背景 1 2 1蛋白结构域简述 1 2 1 1 蛋白结构域的定义 生物定义:一个结构域就是蛋白结构、折叠、功能和进化的基本单元 2 8 】。 通常是由多个二级结构单元组成,并日+ 这些二级结构单元打包成个球状。目前 生物学家们都公认一个结构域可以独立地具有稳定的三级结构和特定的生物功 能。一个蛋白通常由个或者多个结构域组成,组成蛋白的这些结构域的逻辑结 构( d o m a i ns t r u c t u r e ) 决定蛋白的功能、生物通路( b i o l o g i c a l p a t h w a y ) 。以1 q y a ( p d b 的登陆号) 为例( 图1 3 所示) ,l q y a 是经典的锌指结构域( z i n cf i n g e r 复旦大学硕士论文 d o m a i n ) ,它由四个卢一s t r a n d 口,b ,f ,d 组成。通常情况下,这四个f l - s t r a n d 不一 定都是必须的,d 或者d 在经过进化而缺失的情况下也可以被认为是一个锌指。 一个结构域通常是一个连续的序列片段,丽连接两个不同功能结构域的一段序列 成为结构域边界( d o m a i nb o u n d a r y ) 。 图1 3 锌指结构域的三级结构。p d bl y u a 是个由4 个 b e t a - s h e e t ( a , b ,c ,d ) 组成的结构域,该图是用r i b b o n s 软件完成。 计算定义:从计算角度来说,给蛋白结构域下个精确定义是件困难的事情, 因为在生物上它没有明显的边界点或者数量特征。但是,我们知道一个结构域和 另一个结构域在空间结构上存在很大的差异。同一个结构域的氨基酸在空间距离 上比较靠近,而蛋白中的两个不同结构域通常由一段序列( c o i l 结构) 连接而成, 因此我们可咀将序列s = 丑巳o 。( ”为序列长度) 中的氨基酸分为结构域氨基 酸( d o m a i nr e s i d u e s ,最= 0 ) 和边界氨基酸( d o m a i n b o u n d a r yr e s i d u e s ,j ,= 1 ) , 结构域氨基酸就被认为是一个结构域中的氨基酸,而边界氨基酸就是连接两个结 构域的氨基酸,如图t 4 所示。 图1 4 蛋白结构域( d o m a i n ) 和结构城边界( d o m a i nb o u n d a r y ) 。图中所示是一个 具有三个结构域a ,b ,c 的蛋向,连接a 和b ,b 和c 的序列段为蛋白结构域边界。 结构域a ,b ,c 中的氨基酸称为结构域氨基酸( d o m a i nr e s i d u e s ) ,而结构域边界中 的氨基酸为边界氨基酸( b o u n d a r yr e s i d u e s ) 概念的理解与应用:基于此,一个结构域是一个连续的序列,有时又称为 个模块( m o d u l e ) ,并且是一个蛋白子序列的折叠块( b l o c k ) ,该子序列具有 复旦大学硕士论文 稳定的独立的折叠单元( f o l d i n gu n i t ) 。根据生物知识,我们知道每一个结构域 具有独立的生物功能,同时不同的结构域可以组合起来形成更加复杂的新功能a 尽管前面已经对结构域和结构域边界给出了一些直观理解上的阐述,正如图 1 3 和1 4 i f ( 示,给该蛋白中的结构域一个精确位置上的定义仍然是困难的,这时 科学家们假设它的结构是稳定的,这个稳定的区域就是蛋白的结构域,即具有保 守性。目前很多命名了的结构域通常都是通过多序列比对得到。进一步,科学家 们同时认为在一个结构域的c 端和n 端的若干长度是它的一个边界,这个长度在 不同的文献里被不同的定义,往往是l o 个长度,目前公认只要距离两个结构域的 中心氨基酸不要超过2 0 个长度( 即边界氨基酸区域的氨基酸长度不要超过4 0 ) 都 是可以接受的。本文中所有关于结构域的计算方法都是在这种假设下进行的,这 种长度上的假设对方法的有效性影响不大。 无论如何,如果一个结构域在某个蛋白中存在,那么我们很有可能找到它在 另外一个蛋白中存在的痕迹( 经过进化的变体,t r d c e ) ,比如更加低等的生物体 中。因此在各种数据库中查询的结果可以提供给我们丰富的信息来确定蛋白的结 构域r 5 7 2 9 。同样,一些计算方法可以根据数据库中的数据设计各种模型来预 测结构域【3 0 】。 利用这些高质量的数据,人们已经设计了各种基于同源的和从头算的预测模 型。基于同源的方法主要是将查询序列和已知结构域的序列片段或者二级结构单 元片段进行比较,然后根据这些相似度将查询序列打断成若干小的片段,最后将 这些小的片段使用进一步的处理并重新组合,然后对结构域进行边界确定。从头 算的主要思路是分析边界氨基酸和结构域氨基酸的各种属性,然后根据这些数据 将边界区域的氨基酸和结构域区域的氨基酸区分出来,这样就可以找到查询序列 的结构域组成,从头算方法可以看作解决二类分类问题。 1 2 2生物实验验证的方法 通常情况下,通过生物实验的手段验证一个蛋白的结构域需要使用x 晶体衍 射或者n m r 技术进行蛋白解析,根据目前的实验平台,每次成功实验通常只能 解析出一个蛋白,一次成功的实验通常需要多次重复进行。这就需要昂贵的代价, 包括经费、时间和劳动力。目前p d b 5 数据库里已绎收集了各种蛋白解析数据, 也对生物验证的方法做了注释。为了确定结构域的位置,d s s p 3 1 是一种计算 距离的程序,该程序计算实验获得的蛋白结构内氨基酸之间的距离,这种程序很 容易将蛋白中的不同的结构域区分开来。由于本文的着重点是利用计算技术预 测,所以这里对牛物实验方法研究进展只作简单介缁。 复旦大学硕士论文 1 2 3 蛋白结构域预测系统 1 2 3 1 计算方法简述 到目前为至,已经有多种方法利用蛋白序列来预测蛋白结构域,我们将这些 方法总体上分为三类: 1 ) 基于专家知识的方法,该类方法主要是将查询序列到结构域数据库中去精 确查询,或者进行序列比对,并在比对时设置严格的统计参数( 如e 值或 者p 值) ,然后结合蛋白的结构、功能分析确定结构域。总体而言,这种 方法得到的结果的准确性非常高; 2 ) 基于模板的结构域预测,该类方法主要是扫描已知的结构域模板或者二级 结构单元,将查询序列按照相似模板分割成若干片断,然后重新组合这些 片断。这类方法对于有已知结构的相似模板的序列非常有效; 3 ) 从头算的方法进行结构域预测,这类方法是除了上面方法之外的其他方 法,在这类方法中,常常被抽象为区分蛋白序列中的边界氨基酸和结构域 氨基酸以确定两个不同的结构域。 另外,m e t a d p 3 2 集成了多个基于模板方法和从头算的方法,在集成时使用 投票的方法得到最后结果。为了方便阐述,我们不妨将它放入基于模板的方法类 中讨论。 这三类方法在准确性上逐渐减弱,而在序列相似性依赖程度上同样是由高到 低。从研究重点的角度,我们更为关注基于模板的方法和从头算的方法,介绍数 据库专家系统的一个目的就是在我们设计模板或者从头算方法时使用到了它们 的数据。 1 2 3 2 蛋白结构域的精确查询( 基于专家知识的方法) 基于专家知识的方式是指将一个查询序列到个数据库中去精确匹配或者 进彳亍高同源性比对以确定蛋白所在的家族。表1 2 给出了目前常用的包含蛋白结 构域信息的数据库。p d b 5 数据库是报道经过生物实验验证的蛋白晶体结构的 数据库,该数据库的可靠性最高,但是缺点是数据量有限。s c o p 6 j 详细描述了 已知蛋白质结构之问的关系。分类标准基于若干层次:家族,描述相近的进化关 系;超家族,描述远源的进化关系;折叠子( f o l d ) ,描述空间几何结构的关系; 折叠类,所有折叠子被归于全a 、全p 、q p 、+ p 等几个人类。p f a m 2 9 是一 个半自动的结构域注释系统,结合了手工和自动注释的方法。该系统分为两个子 系统,p f a ma 和p f a mb 。p f a ma 是高质量的多序列比对和结构功能分析而产 牛的结构域家族。p f a mb 是使用d o m a i n e r 算法对剩余序列数据库进行分析的结 果。s m a r t 3 3 1 数据库类似于p f a ma ,使用p r o f i l eh m m 搜索查找高显著性的 复旦人学硕士论文 相似序列。另外还有c a t h 7 ,n c b i ,t i g r f a m 。相关信息可以参考其站点。 表1 2 蛋白结构域数据库及其查询系统 信息量验证软件连接 p d b最高d s s ph t t a :w w w , r e s b o m s c o p较高 n a +h t t o :h s c o v m r c - i m b c a m a c u k s c o d c a t h较高 n ,a h t t o j c a t h w w w b i o c h e m u c l a ca i d l a t e s t i n d e x h u n l p f a m一般d o m a i n e rh t t o :w w w s g l l r c r , a c u k s o f t w a r e p f a m s m a r t一般h m m e rh t t o :s m a r t e m b l - h e i d e l b e m d e n c b i一般p s i - b l a s th t t n :n c b i n i h v s t r u c t u r “c d d c d d s h t m l t i g r f a m 一般 n ,a h 伽:、v w w t i 蛆0 r 们i g r f a m “ * n a 表示根据我们的知识目前还没有对应的验证软件可用,下同。 1 2 3 3 基于模板的蛋白结构域预测简述 精确查询虽然在一定程度上能够帮助生物学家们理解他们所报道的序列的 结构域组成,但是这种查询方法无法识别那些经过较长时间进化的序列,而这种 长时间的进化在生物体中是广泛存在的。目前国际上已经设计了各种基于模板的 蛋白结构域预测系统,如表1 a m 示。a d d a 3 4 依赖于数据库n r d b 4 0 用b l a s t p 将序列分解成多个结构域,分解之后,使用p r o f i l e p r o f i l e 比较的方法将结构域分 配到不同的家族里面,并对应它的结构域。d o p r o 3 5 根据序列构造出多个子序 列片段,每个予序列片段是一个假设的蛋白结构域,这个片段可以根据对 i n t e r p r o 3 6 数据库和二级结构预钡u p s l p r e d 3 7 的扫描获得。每一个可能的结构 域使用a r b y n 务器( h t t p :w w w h n b i o i n f o d e ) 被对应到五个不同的折叠子并计算 出最高的分值【3 5 】,最后对非重叠区域进行优化。r o b e t t a - g i n z u 3 8 1 首先使用 b l a s t 方法进行序列比对,将找到的结果用f f a s 0 3 【3 9 】和3 d j u l y 4 0 进行远距 离同源的折叠识别;找到同源片段之后,使用h m m e r 2 2 对p f a m 2 9 数据库查 询其他的区域。接着,使用p s i b l a s t 2 1 1 多序列比对来对序列的结构域分配进 行似然计算,最后一步根据阈值进行最后的选择。i n t e r p r o s c a n 4 1 1 集成了在不同 数据库中查找相似结构域的结果,这些不同的数据库采用了一些不同的方法以增 加预测的多样性。s s e p - d o m a i n 【4 2 】使用了三个步骤进行结构域预测,第一步: 通过和模板库比对找到潜在的结构域边界:第二步:分别使用二级结构预测和比 对方法对结构域区域进行相似度打分;第三步:找到非重叠区域的结构域进行打 分排序。m e t a - d p 3 2 】是一个集成1 0 个不同的基于模板的和从头算的方法的系 统。 表1 3 同源性预测服务器 0 复旦大学硕士论文 服务器链接 a d d a h t t p :e k h i d n a b i o c e n t e r h e l s i n k i f i :9 8 0 1 s q g r a p h p a i r s d b d o p r oh t t p :w 州,h n b i o i n f o d e r o b c t t a h t t p :r o b e t t a b a k e r l a b o r g s u b m i t j s p i n t e r p r o s c a n h t t p :w 啊e b i a c u k i n t e r p r o s c a n s s e p - d o m a i nh t t p :b i ni f i i m u d e s s e p m e t a - d p h t t p :m e t a - d p c s e b u f f a l o e d u 1 2 3 4 蛋白结构域从头算预测简述 基于模板的方法考虑到进化的信息,但是使用基于模板方法的一个重要假设 前提就是对于查询序列中的结构域必须存在一个同源结构域。基于从头算的方法 是为了解决基于模板的预测系统的不足,希望能够通过结构域氨基酸和边界氨基 酸的特性上的差别将这二者区分出来,然后将蛋白序列分成一个或者多个结构 域,而不用关心最后得到的结构域是什么样的结构域。人们设计了多种机器学习 方法( 表l - 4 ) 来解决此问题,其中人工神经网络( a n n ) 是在该问题上成功应用的 方法。 d o m p r o 4 3 是一个基于l d r n n ( 单向同馈神经网络) 的蛋白结构域预测器, 输入特征主要有p r o f i l e 、二级结构、溶剂可及性。c h o p n e t 4 4 是一个基于反向 回馈( b p ) 神经网络的预测器,它的输入特征有:二级结构、溶剂可及性、h s s p 保守权重、六个关键氨摹酸( p ,h ,d ,y ,v ,c ) 的进化值、连续五个氨基酸片段 的二级结构上的差异。b i o z o n 【4 5 】也是一个利用三层反向神经网络的杂合( h y b r i d ) 预测系统,在这个系统里,输入单元有序列终止点、相关性、接触值( c o n t a c t p r o f i l e ) ,类和氨基酸熵值,二级结构,物理化学特性。 其他的方法还有:g l o b r i o t 4 6 给出一个蛋白序列的混乱性( d i s o r d e r ) 的打分 方法,并根据预测出的混乱性进行结构域预测;d g s 是,个根据结构域的大小分 布的预测器 4 7 】;还有d o m p r e d d p s 4 8 】、m a t e o 4 9 、a r m a d i l l o 等,这些预测 方法都有对应的网页服务系统,如表1 4 所示。 表1 4 从头算预测服务器 服务器链接 c h o p n e t h t t p :w w w p r e d i c t p r o t e i n o r g b i o z o n h t t p :b i o z o n o r g t o o l s d o $ a i n s g l o b p l o t h t t p :g l o b p l o t e m b l d e a r m a d i l l o h t t p :a r m a d i l l o b l u e p r i n t o r g d o m p r e d d p sh t t p :b i o i n f c s u c l a c u k d 。m p r e d d o m p r e d f o r m h t m l 盥! ! ! ! ! ! 1 2 ;:! ! ! ! i ! i ! ! ! ! ! :! :! :! ! :磐i 2 1 :! ! g i :! i 型2 :i ! ! :;! ! i ! ! ! :! g i 复旦大学硕十论文 1 3当前蛋白结构域预测面临的主要问题 随着研究的深入,对结构域预测的问题也逐渐显现出来了。这些问题成了当 前研究的障碍,但是同时也促进生物信息学家们进行下一步的研究。本文认为, 目前主要需要解决的主要问题有以下几个方面: 1 ,基于模板来预测结构域时需要结构信息和p r o f i l e 信息有效结合。随着结 构生物学家们研究的进行,他们开始认识到蛋白的结构和进化信息是结构 域中最重要的两个影响因素,然而到目前位置,没有方法同时考虑结构和 进化的信息来查找模板。 2 ,从头算预测系统中,人工神经网络方法已经被广泛采用,并且作出了重要 的贡献,然而方法的直接应用在性能上不能使研究者们感到满意。机器学 习中的其他方法和技术的引入就尤显迫切,如其他的分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论