




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
n a n j i n gu n i v e r s i t yo f a e r o n a u t i c sa n da s 的n a u t i c s t h eg r a d u a t es c h o o l c o l l e g eo fs c i e n c e s t a t i s t i c a li n f e r e n c ef o rp r o t e i n f a m i l i e sa n d f o l d sb a s e do n d a t a b a s e a t h e s i s i n p r o b a b i l i t yt h e o r ya n dm a t h e m a t i c a ls t a t i s t i c s b y l vb 0 a d v i s e db y p r o 凫s s o rl i ux i n s h e n g s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o r t h ed e g r e eo f m a s t e ro fs c i e n c e d e c e m b e r ,2 0 0 9 承诺书 本人声明所呈交的博士学位论文是本人在导师指导下进 行的研究工作及取得的研究成果。除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:黾整 日 期:童骂丝旦 南京航空航天大学硕士学位论文 摘要 关于蛋白质家族、结构和新功能的统计推断是应用数理统计的一个前沿交叉研究方向。本 文以蛋白质结构分类数据库s c o p 和序列分类数据库p f a m 为基础,研究有关蛋白质家族和折 叠子的统计推断问题。 首先,在第二章中我们利用两类不同数据库之间的映射,分别研究了包含于不同类折叠子 中的蛋白质家族规模的分布,这些家族包括蛋白质序列分类数据库p f a m 中的家族、蛋白质结 构分类数据库s c o p 中的家族以及由s c o p 家族映射后得的相应p f a m 家族。并由此得出了蛋 白质家族规模分布与包含它们的折叠子的规模无关,均服从相似的幂率。同时推断出s c o p 家 族空间是p f a m 家族空间的一个随机样本的结论。 其次,在第二章结论的基础上,结合s c o p 数据库的动态信息,我们估计出覆盖当前p f a m 数据库所需的折叠子总数;通过s c o p 中新增家族在p f a m 中的对应家族所属的折叠子是否已 知为先验信息构建贝叶斯模型,估计了不同规模的p f a m 家族贡献新折叠子的概率分布。 最后,我们利用s c o p 最新版本1 7 3 中观察到的折叠子规模的分布,依据最大概率原则和 矩法估计原理重新估计了自然界中折叠子规模的分布,并在此基础上重新估计了自然界中蛋白 质折叠子的总数。 关键词:蛋白质,数据库,蛋白质家族,折叠子,规模分布,统计推断 基于数据库的关于蛋白质家族和折叠子的统计推断 a b s t r a c t t h es t a t i s t i c a li n f e r e n c ef o rt h ep r o t e i nf a m i l i e s ,s t r u c t u r e sa n dn e wf u n c t i o n si saf r o n t i e r r e s e a r c hf i e l di nt h ea p p l i e ds t a t i s t i c s b a s e do nt h es c o p ( s t r u c t u r a lc l a s s i f i c a t i o no fp r o t e i n s d a t a b a s e ) a n dp f a r n ( s e q u e n c ec l a s s i f i c a t i o nd a t a b a s e ) ,t h et h e s i sd i s c u s s e st h es t a t i s t i c a li n f e r e n c e so i l p r o t e i nf a m i l i e sa n d f o l d s a tf i r s t , b yu s i n gt h em a p p i n gb e t w e e nt w ok i n d so fd a t a b a s e s ,i nc h a p t e r2w es t u d yt h es i z e d i s t r i b u t i o n so fp r o t e i nf a m i l i e s ( s d p f s ) b e l o n g i n gt od i f f e r e n tk i n d so ff o l d ss e p a r a t e l y t h et h r e e k i n d so fp r o t e i nf a m i l i e sa r ep f a mf a m i l i e s ,s c o pf a m i l i e sa n dt h ep f a mf a m i l i e sm a p p e db yt h e s c o pf a m i l i e s o u rr e s u l t ss h o wt h a tt h ep r o t e i nf a m i l i e s s i z e sa n dt h e i rd i s t r i b u t i o n sa r ei n d e p e n d e n t o nt h es i z e so ff o l d sw h i c hc o v e rt h e s ep r o t e i nf a m i l i e s ,a n dt h es i z ed i s t r i b u t i o n so fp r o t e i nf a m i l i e s w i t h i nd i f f e r e n tt y p e so ff o l d sa l lo b e ys i m i l a rp o w e r - l a w o u rm o d e l sa l s os u g g e s tt h a tt h ew h o l e s c o pf a m i l i e sc o n s t i t u t ear a n d o ms a m p l ef r o mt h ep f a mf a m i l yd a t a b a s e b a s e do nt h er e s u l t so b t a i n e di nc h a p t e r2a n dt h ed y n a m i ci n f o r m a t i o no ft h es c o pd a t a b a s e ,i n c h a p t e r3w e f i r s te s t i m a t et h et o t a ln u m b e ro ft h ef o l d sc o v e r i n gt h ec u r r e n tp f a md a t a b a s e w et h e n c o n s t r u c tt h eb a y e s i a nm o d e lw i t ht h ep r i o ri n f o r m a t i o no fw h e t h e rt h ef o l d sa lep r e v i o u s l yk n o w n w h i c hc o v e rt h ep f a mf a m i l i e sm a p p i n gb yt h en e w l ya p p e a r e ds c o pf a m i l i e s w ee s t i m a t et h e p r o b a b i l i t yd i s t r i b u t i o n so fw h e t h e rap f a mf a m i l yw i t hg i v e ns i z ec o n t r i b u t e sa n e wf o l d f i n a l l y , b a s e do nt h es i z ed i s t r i b u t i o no ff o l d so b s e r v e di nt h el a t e s tv e r s i o n1 7 3o ft h es c o p , b y t h e p r i n c i p l eo fm a x i m u mp r o b a b i l i t yp r i n c i p l ea n dm o m e n t sm e t h o d ,t h et h e s i sr e e s t i m a t e st h et o t a l n u m b e ro ff o l d sa n dt h e i rd i s t r i b u t i o n so v e rf a m i l i e si nn a t u r e k e y w o r d s :p r o t e i n s ,d a t a b a s e s ,p r o t e i nf a m i l i e s ,f o l d s ,s i z ed i s t r i b u t i o n s ,s t a t i s t i c a li n f e r e n c e 南京航空航天大学硕士学位论文 目录 第一章绪论l 1 1 研究背景1 1 1 1 背景知识l 1 1 2 相关蛋白质数据库l 1 1 3 相关研究2 1 2 本文主要研究工作3 第二章不同类型折叠子中蛋白质家族规模的分布4 2 1 弓l 言4 2 2 数据库的映射5 2 2 1 数据库的选择及基本概念的介绍5 2 2 2 样本空间的产生6 2 - 3 主要结论。6 2 3 1 不同类型折叠子中蛋白质家族规模的分布6 2 3 2 三个不同蛋白质家族空间中家族规模分布1 0 2 4 讨论1 : 第三章估计一个蛋白质家族属于一个新折叠子的概率1 4 3 1 弓l 言1 4 3 2 方法、模型和结果1 5 3 2 1 数据库1 5 3 2 2 一个p f a m 家族属于一个新折叠子的概率。1 6 3 2 3 具有新折叠的蛋白质家族的规模分布1 7 3 3 讨论2 0 第四章蛋白质折叠子总数的估计以及它们的分布2 2 4 1 引言2 2 4 2 模型与方法2 2 4 3 结果及讨论2 5 第五章总结和展望2 9 5 1 本文总结2 9 5 2 工作展望2 9 参考文献3l j 醪【谢3 4 i i i 基于数据库的关于蛋白质家族和折叠子的统计推断 图表清单 表2 1 不同类折叠子中蛋白质家族出现的频数关于其规模分布拟合结果7 表2 2 样本空间中规模排名在p f a m 数据库2 3 0 前2 0 位的11 个超大家族的分布9 表2 3 三个不同家族空间中家族出现频数关于规模分布拟合结果1 2 表3 1s c o p 数据库发布的1 6 个版本各自中折叠子和家族的总数1 6 表3 2 给定规模的蛋白质家族属于新旧折叠子的先验概率分布1 9 表4 1 自然界中折叠子依规模分组结果2 6 表4 2 依据不同s c o p 版本估计出的自然界中折叠子总数比较2 7 图2 1 对数- 对数规模不同类折叠子中家族出现的频数关于其规模的分布散点图8 图2 2 不同类折叠子中家族出现的频数和规模分布图1 0 图2 3 三个不同蛋白质家族空间中家族出现频数关于其规模分布图1 1 图3 1s c o p 中新增家族与新增折叠子数目的相关关系图1 7 图3 2 蛋白质家族属于新折叠子的概率随着其规模变化的趋势图2 0 图4 1s c o p ! 7 3 中不同折叠子组中包含的折叠子数目分布的柱状图2 5 图4 2 自然界中折叠子总数关于家族总数的回归曲线2 7 i v 南京航空航天大学硕士学位论文 1 1 研究背景 1 1 1 背景知识 第一章绪论 蛋白质本质上是由2 0 种不同的氨基酸通过不同的排列而形成的一条氨基酸序列。不同的蛋 白质能够承担什么样的功能主要取决于它的二级结构,结构基因组学的一个重要目标就是确定 一批蛋白质结构以达到最大可能地覆盖蛋白质序列空间的目的。但是自然界中的蛋白质数目十 分庞大,我们不可能确定所有蛋白质的结构。幸运的是人们已经论证了当两个蛋白质在序列上 有2 5 的序列一致性( i d e n t i t y ) 我们就有足够的信心认为两个蛋白质是同源的( h o m o l o g o u s ) 从而具有相似的结构和功能 t - 4 l ,因此我们可以把这一部分蛋白质归入同一家族( 这是最原始的 家族划分标准,后来产生的其他一些家族聚类方法也基本上以这一理论为基础) 。 也就是说,一个家族中只要确定一条或几条代表性蛋白质序列的结构,根据同源建模的方 法就可以知道这个家族中其它蛋白质的拓扑结构,这时我们就认为这个家族的结构已经被一个 折叠类型或者说折叠子覆盖【5 卅。但即便如此,目前被已知折叠子覆盖的家族也仅占所有序列家 族的一小部分( 约占2 5 ) ,而且蛋白质的家族仍在不断增加,这就是说,即便我们的目标只是 为每个蛋白质家族确定一个代表性折叠,短期内也难以实现。 1 1 2 相关蛋白质数据库 蛋白质结构分类数据库s c o l 睡l - 2 按结构将蛋白质划分成四个层次,近年来的研究主要集中 在后三个层次:折叠子、超家族和家族。它们的定义分别是:当两个蛋白质具有3 0 以上的序 列一致性或序列一致性较低但结构和功能非常相似时被认为是同一家族( f a m i l y ) ,而结构和功 能显示其具有同源性但序列一致性很低的不同家族被定义为一个超家族( s u p e r f a m i l y ) ,当不同 的家族和超家族具有相似的主要二级结构和拓扑连接则称它们具有相同的折叠类型或属于相同 的折叠子( f o l d s ) 。s c o p 最新发布的1 7 5 版本中包含1 ,1 9 5 个折叠子,1 , 9 6 2 个超家族和3 ,9 0 2 个 家族。 蛋白质序列分类数据库p 矗l l l l 川是基于多序列比对和隐马可夫模型的蛋白质序列家族的数据 库,它的特点如下:首先p f a m 2 3 0 版覆盖了s w i s s p r o t ( 经过注释的蛋白质序列数据库,是 最广泛的收录蛋白质序列的数据库之一) 5 4 5 中超过7 3 7 的序列,由于蛋白质序列库比结构库 中的蛋白质多两个数量级,相对于序列库与结构库的差距这个覆盖面已经足够地大。其次,p f a m 的家族剖面模型限制了不同家族的蛋白质序列之间没有重叠,因此最大限度降低了冗余。第三, 也是最重要的,p f a m 家族分类的基本单元是蛋白质功能域而不是全长的蛋白质,这与s c o p 是 基于数据库的关于蛋白质家族和折叠子的统计推断 一致的。而且,目前p f a m 数据库中对蛋白质域进行划分的边界与s c o p 中是一致的。p f a m 最 新发布的2 4 0 版本中包含了1 1 , 9 1 2 个蛋白质序列家族。由于在本文工作进行的过程中p l a t 0 2 4 0 版尚未发布,因此在后文中所提及p f a m 数据库均指p f a m 2 3 0 版,其中包含l o ,3 4 0 个蛋白质序列 家族,特此声明。 1 1 3 相关研究 1 1 3 1 蛋白质家族及折叠子总数的估计 在已知的蛋白质结构数远少于序列数的背景下i s - m ,为了通过结构对蛋白质进化以及多样 性获得更深入地理解,一个退而求其次的方法就是使用统计方法估计整个蛋白质结构空间的一 些一般的但却重要的性质。首先,蛋白质的家族和折叠类型是不是有限的;如果有限,它们的 总数是多少以及它们如何分布。最初c h o t h i a 等人【1 1 1 提出蛋白质家族总数是有限的,k u n i n 等人 u 2 1 贝t 认为蛋白质家族规模( 蛋白质家族中包含的蛋白质序列数) 与具有该规模的蛋白质家族数 是一种反增长关系( 幂率分布) ,即规模越小的蛋白质家族越多。而规模大小又取决与其在系统 进化树上的位置,位置越早规模也越大,随着进化的发展新的小家族不断出现从而家族总数目 前是无法估计的。到目前为止对家族总数的估计从1 ,0 0 0 到5 0 ,0 0 0 不等【l l ,1 3 】。 而对折叠的估计目前的方法大多是参数方法,他们假设属于不同类折叠子的蛋白质家族数 目服从一个具体的随机模型,通过已知的据库信息估计出模型的参数,然后根据这些参数和家 1 族总数的估计值反推自然界中折叠子的总数。比如z h a n g 和d e l i s i l l 5 假设自然界中的家族数关 于折叠数服从几何分布,估计出折叠子总数为7 0 0 至j j l ,3 0 0 ;w o l f 等人【1 3 j 提出了对数分布得到折 叠总数大约是1 , 0 0 0 ;g o v i d a r a j a n 等人【1 6 】假设同一折叠中的家族分布是连续的,估计出折叠总 数为4 ,0 0 0 等等。目前对折叠数的估计在7 0 0 至1 8 ,0 0 0 之间波动 1 3 - 2 0 。虽然这些模型与结构数据库 中折叠子的实际分布拟合的很好但也存在缺陷,原因在于这些估计依赖于假定的分布模型,假 设的分布模型未必接近自然界中家族和折叠子分布的真实情形。同时,分布模型参数的估计对 使用的数据的变动很敏感。也就是说,一旦数据库发生变化估计结果也会有受到严重影响,但 实际上数据库确实在持续更新。而且,他们使用的结构数据库是不是对整个结构空间的一个随 机抽样,还是一个有争议的问题【2 1 】。 1 1 3 2 蛋白质家族属于新折叠子的概率 其次,由于结构基因组学的目标是更多地发现新结构以扩大结构空间覆盖序列空间的范围 【3 3 3 4 1 ,就应该避免或降低选择待确定结构的蛋白质( 靶蛋白) 时的盲目性,因此预测什么样的 蛋白质家族可能具有新结构,或者更具体的说属于新的折叠子类型就成了一件有意义的工作。 p o r t u g a l y 等人【2 2 五3 】基于蛋白质序列空间图p r o t o m a p t 2 4 】与s c o p i - 2 数据库之间的映射建立了一个 具有新结构的蛋白质到一个结构已知的蛋白质家族的最短距离的概念,进而得到一个蛋白质家 2 南京航空航天大学硕士学位论文 族具有新结构时它到结构已知的蛋白质家族的最短距离的经验分布,并以此为先验分布构建贝 叶斯模型估计出在给定的距离下一个蛋白质家族具有新结构的概率。然而他在对一个家族x 属 于一个新的折叠子的概率尸( x 新折叠子) 的估计上具有一定的主观性。他的方法中假设m 和万分别是s c o p 中已知的折叠子总数和目前估计出来的自然界中的折叠子总数万,然后用m 与刀的比值近似一个家族具有已知折叠的概率。实际计算中他取的刀的是目前对自然界中折叠 子总数估计范围中的一个保守值1 , 0 0 0 。然而我们知道,目前为止对自然界中蛋白质折叠子总数 的估计范围波动很大,从7 0 0 到8 0 0 0 1 1 3 2 0 1 之问不等,那么这样的估计对最终结果的影响是显而 易见的,而s c o p 最新版本1 7 5 中公布的一致折叠子总数为1 ,1 9 5 个,已经超过了1 , 0 0 0 这个 估计值。 1 2 本文主要研究工作 本文主要在上述工作基础上尝试新的方法对蛋白质空间的一些重要性质做出统计推断。第 二章利用蛋白质结构分类数据库s c o p 中和蛋白质序列分类数据库p f a m 之间的映射,讨论了 包含于不同类( 同类的意思是规模相同,就是说包含的家族数目相同,详见第二章) 折叠子的 蛋白质家族规模的分布,论证了蛋白质家族规模的大小和分布与其所属折叠子规模无关,以及 结构分类数据库s c o p 中的蛋白质可以看作是从序列分类数据库p f a m 随机均匀取样的结果。 第三章我们首先对蛋白质结构分类数据库s c o p 到目前为止发布的1 6 个版本进行了比对,对每 对相邻版本间蛋白质家族的增长量和折叠子的增长量之间的相关关系进行了分析,估计了覆盖 p f a m 序列数据库中所有家族所需的折叠子数目;利用s c o p 数据库中新增家族所属的折叠子是 否为已知折叠子作为先验信息,构建贝叶斯模型估计出p f a m 数据库中一个给定规模的蛋白质 家族属于一个新折叠子的概率。在第四章中我们假设自然界中蛋白质的家族总数m 为一个变 量,直接使用s c o p 数据库最新信息提供的蛋白质家族规模的分布,而不人为假设任何分布, 重新估算了折叠子规模的分布。依据这个分布我们使用最大概率原则和矩法估计确定自然界中 折叠子的分布,随后基于对自然界中家族总数m 不同的假设我们重新估计了自然界中折叠子总 数的动态值以及最大的折叠子的规模( 其中包含的家族数目) 。 3 基于数据库的关于蛋白质家族和折叠子的统计推断 第二章不同类型折叠子中蛋白质家族规模的分布 2 1 引言 众所周之,在蛋白质序列空间中已知结构的蛋白质仅占很少的一部分。当前一个迫切需要 解决的问题是哪一部分序列空间可以通过同源预测的方法对其结构进行描述,以及对这部分空 间的一些重要的性质进行刻画。如果蛋白质的序列一致性达到一定的程度我们就认为它们的结 构也是相似的u - 4 ,例外的情况很少见【2 5 】。然而在很多情况下,远亲进化关系很难通过序列相似 性探测出来,但是却很容易通过结构比较推断出来。这是因为在蛋白质进化过程中结构比序列 更保守。因此,仅仅依靠序列信息给蛋白质空间进行分类是不够的,我们还要借助蛋白质的结 构信息。 结构基因组计划的一个重要目标就是选择适当的目标蛋白质用实验的方法确定其结构,以 最大可能地扩大已知的蛋白质结构所能覆盖的蛋白质序列空间的范围。但是,目前实验方法得 到的蛋白质结构空间比序列空间中蛋白质的数量低两个数量级 8 q o ,这就是说在可预期的未来 用实验的方法得到所有蛋白质的结构是不切实际的。为了对蛋白质进化以及多样性得到更多的 理解,一个退而求其次的方法就是估计整个蛋白质结构空间的一些一般的但却重要的性质。例 如:超家族的数量,折叠子的数量( 超家族、折叠子的定义见方法) 以及它们的分布情况。很 多科学家对折叠子的总数目进行了估计,基于不同的数据库以及假设他们的估计结果在7 0 0 到 8 , 0 0 0 之间不等 1 3 - 2 0 。在这些分析中一个敏感的假设就是他们使用的结构数据库是整个序列库的 一个随机样本。已经有人对此产生了质疑【2 3 1 。在这里,我们研究了与已知结构的蛋白质同源的 蛋白质序列空间( 样本空间) 、s c o p 结构分类数据库以及p f a m 序列分类数据库中的蛋白质家 族规模的分布,得到了一些有趣的结果,其中一个就是s c o p 数据库中的蛋白质可以看作是整 个蛋白质序列空间的一个均匀随机样本。 很多的研究人员使用不同的生物信息数据库以及不同的模型对支配自然界中蛋白质序列家 族规模分布的规律做了深入的研究。到目前为止一个被普遍接受的观点是这个规律可以用幂率 来描述【2 6 - 3 0 】。也就是说,如果用n 表示蛋白质家族规模( 该蛋白质家族中包含的蛋白质序列条 数) ,以n ) 表示规模为以的家族出现的频数,那么两者之间的关系可以用公式 p ( n ) o c 万一工 来恰当的描述,其中的入是标度指数【3 9 】。这种数量随家族规模减小而急剧增多的规律并不新鲜 【柏】,然而却没有人在研究这种规律时把对应的结构考虑进去。在本文中我们用蛋白质结构分类 数据库s c o p t l a 中的蛋白质家族作为查询条件搜索蛋白质序列分类数据库p f a m 7 中与之对应的 家族,结果得到了一个由p f a m 中的家族构成的蛋白质序列家族空间( 我们称为样本空间) 。按 4 1 南京航空航天大学硕士学位论文 照家族的定义,这些蛋白质家族的结构可以看作是已知的。通过比较样本空间( 与s c o p 中家 族相对应的p f a m 中家族的集合) 、s c o p 结构分类数据库以及p f a m 序列分类数据库中的蛋白质 家族规模的分布( 这里的家族规模是指一个蛋白质家族中包含的蛋白质序列条数) 我们可以得 到了这样一些结果:( 1 ) s c o p 和p f a m 数据库中包含于不同类折叠子( 在这里同类表示规模相 同,就是说包含的家族数目相同,详见方法) 的蛋白质家族规模的分布服从相似的幂率,这说 明蛋白质家族规模的大小和分布与其所属折叠子规模无关:( 2 ) 样本空间、s c o p 数据库以及 p f a m 数据库中的蛋白质家族规模的分布遵循相同的幂率。而且分布的参数 也基本相同。依据 本文中我们对样本空间的定义,我们推断s c o p 结构数据库中的蛋白质可以看作是从p f a m 序 列数据库随机均匀取样的结果,从而s c o p 结构数据库可以用来近似整个序列空间的一个均匀 随机样本;( 3 ) 我们对样本空间中规模位于p f a m 数据库中前2 0 位的1 1 个最大的家族在不同 类折叠子中的分布进行了观察,结果发现它们均匀地分布于不同规模的折叠子组中,这从另一 个侧面支持了我们的结论:蛋白质家族规模的大小不受其所属的折叠子规模大小的直接影响。 换言之,大的蛋白质家族具有的折叠未必属于大的折叠子,反之亦然,这与我们的直觉不同的 一个有趣的结论。事实上,我们发现样本空间中规模最大的家族所具有的折叠恰恰包含于规模 最小的折叠子中,但是反之却不成立。 2 2 数据库的映射 2 2 1 数据库的选择及基本概念的介绍 s c o p 是一个常用的基于结构的蛋白质分类数据库,它给定的蛋白质分类的最小单元为蛋 白质结构域,其中包含了所有当前结构已知的蛋白质。s c o p 按层次由高到低将所有结构已知 的蛋白质域聚类为折叠类、折叠子、超家族和家族。这里介绍一下与本文相关的两个概念,家 族和折叠子。s c o p 中将所有序列一致性超过3 0 或者一致性达不到这个标准但其结构和功能 却非常相似的蛋白质域聚类为一个家族。同一家族中的蛋白质具有基本相同的结构和功能。不 同的家族依据同源性聚类成不同的超家族。具有排列相同的拓扑链接及主要二级结构的超家族 所聚成的类被称为一个折叠子。也就是说同一个折叠子中会包含很多不同的家族。在本文中我 们将一个折叠子中包含的蛋白质家族的数目称为这个折叠子的规模,而相应的将一个蛋白质家 族中包含的序列的数目称为这个家族的规模。 尽管人们投入了大量的人力物力来丰富蛋白质结构库,但由于结构测定的难度比序列测定 大很多,加之序列测定技术的日趋成熟,目前相对于序列库而言,结构库中的蛋白质数量比序 列库中仍然少很多( 大约相差两个数量级) 。因此对于己知结构的蛋白质空间和未知结构的蛋白 质空间之间的家族规模的分布是否一致是个值得商讨的问题,为了讨论这个问题我们需要将这 个结构空间映射到比它规模大得多的序列空间。 5 基于数据库的关于蛋白质家族和折叠子的统计推断 p f a m 家族数据库是基于多序列比对和隐马可夫模型的蛋白质序列家族的数据库,它的特点 如下:首先p f a m 2 3 0 版覆盖了s w i s s p r o t5 4 5 中超过7 3 7 的序列,相对于序列库与结构库 的差距这个覆盖面已经足够大了;其次,p f a m 数据库的家族分类标准使得家族之间没有序列重 叠,因此最大限度降低了冗余;第三,也是最重要的,p f a m 家族分类的基本单元是蛋白质域而 不是全长的蛋白质,这与s c o p 是一致的。而且,目前p f a m 数据库中对蛋白质域进行划分的 边界与s c o p 中是一致的。基于以上特点我们选择了p f a m 家族数据库来近似整个蛋白质序列 空间。 2 2 2 样本空间的产生 接下来我们需要把s c o p 中的家族映射到p f a m 数据库中,但由于基于分类的准则不同, s c o p 是基于结构一致性的分类,而p f a m 是基于序列一致性的分类,这两个数据库中的家族之 间不存在现成的一一映射。虽然大多数情况下它们是一致的,但它们之间还是存在差异。为了 解决这个问题,我们设计了下面的方法:首先我们下载了s c o p 数据库中序列一致性小于4 0 的所有家族的序列,然后将这些序列作为查询序列导入p f a m 数据库查询系统搜索与s c o p 中 家族同源的p f a m 中的序列家族。例如s c o p 中标识符为乱1 1 3 的家族p h y c o c y a n i n - l i k e p h y c o b i l i s o m ep r o t e i n s 中包含1 0 2 条序列( 我们称该家族规模为1 0 2 ) ,它们经过4 0 的序列一 致性筛选后剩余5 条序列。我们将这5 条序列作为查询序列逐一导入p f a m 序列搜索框搜索对 应的同源家族,结果一致地指向p f a m 中登录号为p f 0 0 5 0 2 的家族p h y c o b i l i s o m e ,而这个家族 包含了2 5 1 6 条序列( 我们称该家族规模为2 5 1 6 ) ,这样我们就称完成了一次s c o p 中家族到p f a m 中家族的映射。这个过程中我们使用的聚类阈值为默认值。重复使用这个方法我们得到了覆盖 了s c o p1 7 3 中全部3 4 6 4 个家族的3 2 9 3 个独立的p f a m 家族( 样本空间) 。注意在这之前我们 忽略了s c o p 中代表复合域蛋白和膜蛋白的5 和6 类蛋白质,这样做的原因是这两个类中包含 的蛋白质很少因而没有统计学意义,而且使用复合域蛋白作为查询序列搜索p f a m 数据库时会 让很多结构上不相关的蛋白质被归为同一个家族。 2 3 主要结论 2 3 1 不同类型折叠子中蛋白质家族规模的分布 首先,按常规思路,规模较小的折叠子被发现的时间应该也相对较晚,因此这些折叠子中 的家族规模也应该相对较小。进一步,就不同规模折叠子中的家族而言,这些家族的规模分布 也应该有差异。但我们工作的结果却表明这种预判是不正确的。为了阐明这个问题,我们将样 本空间中的蛋白质家族按照其所属的折叠子规模的变动划分成了6 组。为了便于比较,我们分 组的一个原则是使得每一组折叠子中包含的蛋白质家族总数目差别尽可能小。基于这个原则, 再依据s c o p 中目前存在的折叠子规模的范围( 1 1 i i ) ,我们将折叠子按其规模分成6 个区间 6 南京航空航天大学硕士学位论文 【l ,1 1 ,【2 ,4 】,【5 ,l o l ,【1 1 , 2 4 ,【2 5 ,4 0 】和【4 l ,1 1 1 】,样本空间中蛋白质家族所属的折叠子规模落在这 6 个区间中的家族数目分别是5 8 8 ,5 6 5 ,5 4 7 ,5 3 9 ,5 3 7 和5 1 7 ,其总和等于样本空间中的全部家 族总数3 2 9 3 。s c o p 数据库中蛋白质所属折叠子规模落在这6 个区间中的家族数目分别是6 4 3 , 6 1 3 ,5 8 6 ,5 4 1 ,5 3 8 和5 4 3 ,其总和等于s c o p 数据库中蛋白质家族总数3 4 6 4 ,其中已经排除 了代表复合域蛋白和膜蛋白的5 和6 类蛋白质。我们对这两个分别代表结构可推断的序列空间 和结构已知的结构空间中不同类折叠子所包含的蛋白质家族的规模的分布做了比对,对数对数 规模下的回归拟合结果如表2 1 所示。两组数据x 、y 的相关系数在概率上的标准定义是: ,:堡型丛氅丝型 ( x 一段x ) ) 2 ( 4 i i - 耳y ) ) 2 也就是两组数据协方差与两者标准差乘积的商。e 为求取期望值。如果 r l - - 1 说明两组变量成线 性关系,与l 越接近表示两组变量线性相关程度越高,r - - - o 则说明两者不相关。 组别 1 12 - 45 1 01 1 _ 2 32 4 - 4 0 4 1 1 1 1 n 入 1 8 4 1 81 6 7 5 01 5 3 0 3l 7 1 6 91 6 9 8 71 1 6 1 3 皂 数 据 相关系数 o 9 1 9 3- 0 9 2 3 6o 9 1 9 40 9 2 7 9 - 0 9 4 0 1- o 8 2 1 6 库 样 九 1 2 0 7 31 0 8 8 9 1 0 7 7 01 0 8 2 51 1 2 9 01 0 8 7 8 本 空 间 相关系数 0 9 0 8 8- o 8 6 8 60 8 9 8 70 8 8 1 2 - 0 8 9 5 3旬8 8 9 4 表2 1 不同类折叠子中家族出现的频数关于其规模分布拟合结果:( 1 ) 相关系数表明在对数一对数 规模下给定规模的家族出现的频数与其规模的线性相关程度,其绝对值越接近1 表示相关程度越高 ( 2 ) 九是幂率分布的标度指数,也就是对数一对数规模下回归直线的斜率的绝对值,我们可以通过 比较两组数据回归后得到的参数来判断两组规模分布的一致性程度,表中可以看出在同一数据集内 部6 组数据中标度指数入都非常接近,这说明在同一数据集中折叠子规模的大小不对家族规模的分 布产生直接影响。但两组数据集之间标度指数差别比较明显,这是正常的。因为样本空间中的家族 是p f a r o 数据库中的家族,这些家族规模本来就比s c o p 中的家族规模大很多,自然得到的斜率也偏 小。 从表2 1 的比对结果可以看出当我们把s c o p 结构分类数据库中的折叠子按照其规模不同 划分成不同的组时,在对数- 对数规模下不同规模折叠子所包含的蛋白质家族规模与该规模蛋白 质家族出现的频数相关程度均很高,也就说明了它们均服从相似的幂率。进一步,这些不同类 折叠子中所包含的s c o p 蛋白质家族以及由这些蛋白质家族映射得到的样本空间中各组蛋白质 7 基于数据库的关于蛋白质家族和折叠子的统计推断 家族规模的分布都基本一致。也就是说,首先蛋白质家族规模的分布不受其折叠类型所在的折 叠子规模大小的直接影响。其次虽然p f a m 数据库中蛋白质家族规模普遍要比s c o p 数据库中 蛋白质家族规模要大很多,但是它们的规模分布形式却不存在大的差别。为了直观的表达这个 结果,我们同时作出了样本空间和s c o p 数据库中的家族按不同折叠子规模进行划分后家族对 数对数规模下规模分布的散点图( 图2 1 ) ,横坐标表示家族规模的对数,而纵坐标表示该规模 家族出现的频数的对数。 5 0 r s u l 1 - 202468 r s u 5 1 0 r s u 2 4 4 0 r s u 2 - 4 i 8 i , 1 11 2 3 r s u 4 1 1 1 1 图2 1 对数一对数规模不同类折叠子中家族出现的频数关于其规模的分布散点图。分别用红色的“+ ” 和蓝色的“0 ”描绘s c o p 数据库和样本空间中的数据点。横坐标表示家族规模的对数,而纵坐标表 示该规模家族出现的频数的对数。可以看出这些点大致均匀的分布在一条直线附近。 此外,我们对样本空间中规模最大的11 个家族分布情况的探索也一定程度上支撑了上述的 观点。在样本空间的3 2 9 3 个家族中有l1 个家族的规模排名在p f a m 数据库2 3 0 全部家族中的 前2 0 位,它们在p f a m 中的登录号分别是p f 0 0 5 1 6 ,p f 0 0 0 0 5 ,p f 0 0 0 2 3 ,p f 0 0 0 7 7 ,p f 0 0 5 6 0 , p f 0 0 0 9 6 ,p f 0 0 4 0 0 ,p f 0 0 5 1 5 ,p f 0 2 5 1 8 ,p f 0 0 0 7 2 和p f 0 0 1 3 2 ,它们的规模排名分别是1 ,3 ,4 ,6 ,7 , 8 ,l o ,1 1 ,1 3 ,1 4 和1 5 。见表2 2 。 8 南京航空航天大学硕士学位论文 a c c e s s i o ns 1 2 宅 r a n k i n gg r o u p p f 0 0 5 1 67 5 1 9 5l1 1 p f 0 0 0 0 56 5 7 0 732 4 - 4 0 p f 0 0 0 2 36 4 6 7 4 42 - 4 p f 0 0 0 7 75 4 1 3 562 - 4 p f 0 0 5 6 05 3 8 6 871 1 3 3 p f 0 0 0 9 65 2 6 1 185 1 0 p f 0 0 4 0 04 5 6 8 51 01 l 一2 3 p f 0 0 5 1 53 7 6 9 7 1 1 4 1 1 l l p f 0 2 5 1 83 3 6 0 71 32 4 p f 0 0 0 7 23 3 6 0 51 44 1 - 1 1 l p f 0 0 1 3 23 3 6 0 l1 55 一1 0 表2 2 样本空间中规模排名在p f a m 数据库2 3 0 前2 0 位的1 1 个超大家族的分布。结果显示这1 1 个超大家族所属的折叠子的规模基本均匀地散落在6 个区闻中而并非集中在某些区间。 我们可以看出样本空间中这1 1 个最大的家族所属的折叠子规模均匀的散落在6 个不同的区 间中,而并非集中落在最大的区间【4 l ,l l l 】或最小的区间 1 ,1 】中。这意味着家族规模与它所具有 的折叠的规模之间没有必然的联系。换言之,大规模家族未必所属的折叠规模也大反之亦然。 图2 2 给出了这个结论的直观表达。 9 基于数据库的关于蛋白质家族和折叠子的统计推断 t h ed i s t r i b u t i o no ff a m i l y 储, q u e n c ea n ds i z e 图2 2 不同类折叠子中家族出现的频数和规模分布图。为了使得每一类折叠子中包含的蛋白质家族 数目尽可能相同,我们将折叠子按其规模分成6 个区间 1 ,1 , 2 ,4 , 5 ,z o , 1 l ,2 4 , 2 5 ,4 0 和 4 1 ,1 1 1 ,样本空间中蛋白质家族所属的折叠子规模落在这6 个区间中的家族数目分别是5 8 8 , 5 6 5 ,5 4 7 ,5 3 9 ,5 3 7 和5 1 7 ,其总和等于样本空间中的全部家族总数3 2 9 3 。x 轴表示6 种不同的折 叠类型,分别用i 6 表示;y 轴表示样本空间中属于该类折叠的家族出现的频数( 对数一对数规模) , 每个圆圈表示一个规模与y 轴上的数值相对应的家族,圆的直径表示该家族的规模。通过图形可以 清晰地看出每类折叠子中都包含了数量相对均匀的不同规模的家族,规模大的家族未必包含于规模 大的折叠子,反之亦然。 2 3 2 三个不同蛋白质家族空间中家族规模分布 为了在样本空间,p f a m 数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版教育贷款合同延期及还款期限调整协议
- 2025年新能源项目设备采购合同样本范文
- 2025版餐厅装修工程设计与施工验收备案合同
- 二零二五年度假结婚婚姻解除服务协议
- 2025版小学生综合素质拓展班学员辅导协议书范本
- 二零二五年房地产项目挂靠合作开发与风险管理协议
- 二零二五年度铝合金采光带工程承包合同模板
- 2025版科幻剧本改编聘用合同模板
- 心理健康讲座课件
- 二零二五年饭店服务员工作场所网络安全与保密协议
- 六年级上册字词句篇全部内容
- 兽药制剂辅料及附加剂
- 房屋油漆装修承揽合同合集
- 富国银行供应链金融创新与风险管理
- 砌块路面施工方案
- 电力系统设备课件
- GB/T 21471-2008锤上钢质自由锻件机械加工余量与公差轴类
- 2023年柳州市小微企业融资担保有限公司招聘笔试模拟试题及答案解析
- DB4401-T 112.1-2021 城市道路占道施工交通组织和安全措施设置+第1部分:交通安全设施设置-(高清现行)
- 跨境电商亚马逊运营实务完整版ppt课件-整套课件-最全教学教程
- DB32-T 3755-2020 U型H型组合钢板桩支护技术规程-(高清现行)
评论
0/150
提交评论