(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf_第1页
(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf_第2页
(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf_第3页
(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf_第4页
(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(理论物理专业论文)蛋白质超家族模体特征的分析与超家族的识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质超家族的模体特征分析与超家族的识别 摘要 模体是蛋白质进化过程中的保守区域,并一f 1 能够反映蛋白质超家族之间亲缘关系,它们 通常对蛋白质的功能起重要作用。因此,蛋白质超家族的模体特征分析及蛋白质超家族的识 别对研究蛋白质结构和功能具有重要意义。本文以蛋白质超家族中的模体和序列为研究对象, 用生物统计学和生物数学中的方法,从蛋白质超家族中的模体功能特征分析及相对位置分布 统计、信息特征提取和蛋白质超家族识别这三个方面进行了研究。主要研究工作概括如下: 首先,从蛋白质结构分类数据库( s t o p ) 中选i 叶 1 6 个具有代表性的蛋白质超家族,构建 了序列一致性小于等于2 5 和4 0 的蛋白质超家族数据库。利用s c a n p r o s i t c 和m e m e 模体 搜索工具,提取了所构建的数据库的序列模体及模体的位置信息和功能信息,并对其进行整 合;进一步分析了超家族中模体的结构和功能特征,统计分析了模体相对于序列n 端和c 端 的位置分布及模体出现的频次,结果发现:在含有一种或是多种类型模体的蛋白质超家族中, 模体在序列中的位置分布均呈现一定的规律性。本文统计和分析的模体特征以及模体的位置 保守性规律能为蛋白质超家族的识别和蛋白质相互作用网络的建立提供有力帮助。 其次,用生物统计学中的单冈素方差分析方法,对1 6 个具有代表性的蛋白质超家族的氨 基酸组分、物理化学性质分类特征及其组合特征等进行均值检验,提取出具有差异显著性的 特征。此方法不仅有效地降低了特征向罩的维数,而且为蛋白质超家族识别提供了新的参数。 另外,还统计了已知功能的模体和基于统计意义发现的模体在符个超家族中出现的频数。本 文定义的模体频数首次作为+ 种新的特征被用于蛋h 质超家族的识别。 最后,以下三种方法所选取的参数用于蛋白质超家族的识别:1 将数据库中超家族的2 0 个氨基酸组分、4 0 0 个二肽组分、亲疏水特征、物理化学特征以及这些特征的组合输入到最 小离散增量算法中,对蛋白质超家族进行预测:2 以具有统计显著性的特征及其组合特征作 为新参数模式进行了预测;3 将模体频数和具有差异显著性的特征参数模j = 结合,形成新的 参数模式输入算法完成预测。对比以上三种方法,发现使用多参数组合信息较单参数信息所 得预测精度最高。相对第一种参数选取方法,具有统计显著性特征的参数预测结果较好,并 能有效降低特征向量的维数。第三种方法在选取了显著特征的前提下结合模体频数进行预测, 其中以4 0 0 + m 为参数模式进行预测时结果最好,全伍、全p 、邮和a + p 蛋白质结构类中超 家族j a c k k n i f e 检验的总体预测精度依次是8 3 5 、8 7 1 、8 4 3 和8 3 1 。与前两种方法选 取的参数进行预测的结果相比,总体预测精度提高了约1 0 。 关键词:蛋白质超家族;模体特征;模体相对位置分布;模体频数;单因素方差分析;最小 离散增量 a n a l y s i so fc o n s e r v a t i v em o t i ff e a t u r e so ft h ep r o t e i n s u p e r f a m i l i e sa n dt h et h e o r e t i c a lp r e d i c t i o nf o r p r o t e i ns u p e r f a m i l i e s a b s t r a c t t h ec o n s e r v a t i v em o t i f sc a l lr e f l e c tt h eg e n e t i cr e l a t i o n s h i po fp r o t e i ns u p e f f a m i l i e s t h e y u s u a l l yp l a ya ni m p o r t a n tr o l ei np r o t e i nf u n c t i o n t h u s ,t h ci d e n t i f i c a t i o no ft h ep r o t e i ns u p e r f a m i l y b e c o m e si n c r e a s i n g l yi m p o r t a n tf o rp r o t e i nf u n c t i o ns t u d y i nt h i sd i s s e r t a t i o n ,t h eb i o s t a t i s t i c sa n d b i o m a t h e m a t i c sm e t h o d sa r eu s e dt oa n a l y z et h ec h a r a c t e r i s t i c so fm o t i fi np r o t e i ns u p e r f a m i l y t h e p a p e rm a i n l yi n c l u d e st h ea n a l y s i so fm o t i fc h a r a c t e r i s t i c s ,c o n s e r v a t i v em o t i fd i s t r i b u t i o n ,f e a t u r e s e x t r a c t i o na n dt h ei d e n t i f i c a t i o no ft h ep r o t e i ns u p e r f a m i l y t h ea r r a n g e m e n to ft h i s s t u d yi s a s f o l l o w s : f i r s lan e wp r o t e i ns u p e r f a m i l yd a t a b a s et h a tc o n t a i n s16p r o t e i ns u p e r f a m i l i e sw a se s t a b l i s h e d t h e p r o t e i ns e q u e n c e sw e r ea b s t r a c t e df r o mt h es t r u c t u r ec l a s s i f i c a t i o no fp r o t e i nd a t a b a s e ( s c o p ) s c a n p r o s i t ea n dm e m ea r ct w ov a r ya v a i l a b l et o o l sf o rf m d i n gp r o t e i nm o t i f s b o t ho f t h e mw e r e u s e dt os e l e c tt h es e q u e n c em o t i f t h ep o s i t i o na n df u n c t i o ni n f o r m a t i o n so fm o t i fw e r eb ea n a l y z e d b yd i s c u s s i n ga n da n a l y z i n gt h e n d i f f e r e n tf u n c t i o nf e a t u r e s ,d i s t r i b u t i o na n df r e q u e n c y ,s o m e i m p o r t a n tr e g u l a r i t i e so ft h ep o s i t i o nd i s t r i b u t i o na r eo b t a i n e d t h e s ec o r r e l a t e dr e g u l a r i t i e sa r ev e r y i m p o r t a n tf o ri d e n t i f i c a t i o no fd i f f e r e n tp r o t e i ns u p e r f a m i l i e s s e c o n d ,t h eo n e - f a c t o ra n a l y s i so fv a r i a n c e ( o n e w a ya n o v a ) m e t h o dw a su s e dt ot e s tt h e a m i n oa c i d c o m p o s i t i o n s ,p h y s i c a l c h e m i c a l c h a r a c t e r i s t i c sa n dt h e h y b r i df e a t u r e s s o m e s i g n i f i c a n tc h a r a c t e r i s t i c sw e r ee x t r a c t e d t h i sm e t h o dn o to n l yc a l lr e d u c et h ed i m e n s i o no ff e a t u r e v e c t o re f f e c t i v e l y ,b u ta l s oc a np r o v i d ean e wk i n do fp a r a m e t e rf o rr e c o g n i t i o no fp r o t e i n s u p e r f a m i l y i na d d i t i o n ,t h ef r e q u e n c yo fm o t i fw i t hk n o w nf u n c t i o na n ds t a t i s t i c a ls i g n i f i c a n c e w e r ea n a l y z e d t h em o t i ff r e q u e n c yd e f i n e di nt h i sd i s s e r t a t i o nw a st - u - s tu s e da san e wf e a t u r ef o r p r o t e i ns u p e r f a m i l yr e c o g n i t i o n i l l f i n a l l y ,t h r e ep a r a m e t e rs e l e c t i o nm e t h o d sw e r ea p p l i e dt op r e d i c tt h ep r o t e i ns u p e r f a m i l y f i r s t , t h ea m i n oa c i d c o m p o s i t i o n s ,d i p e p t i d ec o m p o s i t i o n s ,h y d r o p h i l i c i t y a n d h y d r o p h o b i c i t y , p h y s i c o c h e m i c a la n dh y b r i dp a r a m e t e rm o d e l sw c t es e l e c t e d 觚t h ep r e d i c t i o ni n f o r m a t i o n a l p a r a m e t e r so ft h em i n i m u mi n c r e m e n to fd i v e r s i t ya l g o r i t h m s e c o n d , t h en e wp a r a m e t e rm o d e l s w i t hs t a t i s t i c a l l ys i g n i f i c a n tf e a t u r e sw e r ea p p l i e dt op r e d i c tt h ep r o t e i ns u p e r f a m i l y t h i r d , an e w h y b r i dm o d e lw h i c hc o m b i n e dm o t i ff r e q u e n c ya n dp a r a m e t e rm o d e l sw i t hs t a t i s t i cs i g n i f i c a n c e w a su s e df o ri d e n t i f i c a t i o no fp r o t e i ns u p e r f a m i l y t h er e s u l t si n d i c a t e dt h a tt h eb e s tp r e d i c t i o n a c c u r a c yw a so b t a i n e db yt h em u l t i - p a r a m e t e rc o m b i n a t i o no fi n f o r m a t i o n t h ep r e d i c t i o nr e s u l t s b a s e do nt h ee x t r a c t e df e a t u r e sa r eb e t t e rt h a nt h es e q u e n c ef e a t u r e s ,a n dt h e yc o u l de f f e c t i v e l y r e d u c et h ed i m e n s i o no fe i g e n v c c t o r t h eo v e r a l lp r e d i c t i o na c c u r a c yr a t ei s10 h i g h e rt h a nt h e o t h e rt w om e d o l s ,b yu s i n gt h e4 0 0 + mp a r a m e t e rm o d e l ,t h eo v e r a l la c c u r a c yo fj a c k k n i f et e s t sa r c 8 3 5 8 7 1 8 4 3 a n d8 3 1 f o rt h es u p e r f a m i l i e so fa l l - c t , a l l - p ,衫pa n d 时pp r o t e i ns t r u c t u r e c l a s s e s ,r e s p e c t i v e l y k e y w o r d s :p r o t e i ns u p e r f a m i l y ;m o t i fc h a r a c t e r i s t i c s ;c o n s e r v a t i v em o t i fd i s t r i b u t i o n ;m o t i f f r e q u e n c y ;o n e - w a ya n o v a ;m i n i m u mi n c r e m e n to fd i v e r s i t y i v 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究t 作及取得的研究成果。除本文已经注 明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得凼苤直太堂及其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 一刁k 学位论文作者签名:笠! 塑坠 指导教师签名 日期:趔釜纽兰盈日期: 叫 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内 容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以 采用影印、缩印或其他复制下段保存、汇编学位沦文。为保护学院和导师的知识产权,作者在学期i 日j 取得的研 究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙占大学就读期问导 师的同意:若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:童鳖选 日 指导教师签名:拇 蛋“质超宋族模体特征的分析1 j 蛋f 1 质超家族的识别 1 1 研究课题的背景和意义 第一章绪论 随着生物信息学的发展,数据库中出现了大量未注释的蛋白质序列。如何运用数学、信 息学、计算机科学等学科的工具获取这些蛋白质的功能信息已经成为当今生物信息学的研究 热点。基于a l l f m $ e n 等人提出的经典观点:蛋白质的一级结构决定着蛋白质的高级结构【1 1 。近 几十年来,生物信息学和蛋白质化学的研究者试图努力从已知的蛋白质一级结构推测蛋白质 的高级结构,并寻找有效的预测方法。随着功能基因组学的兴起,蛋白质三维结构建模和结 构类识别已成为基因组功能注释的一个重要方而,在目前从头预测尚难达到实际应用的程度 以及i 一源建模无法模建出可信度高的结构的情况下,结构类的识别较有实际意义1 2 i 。另外, 由于结构类与蛋白质超家族之间的对应关系,故可以根据蛋白质所属的超家族对其功能做出 初步推测。 蛋白质超家族描述蛋白质结构之间的远源进化关系,并把具有相同功能和结构特征的家 族聚在一起1 3 l 。虽然蛋白质超家族的序列一致性较低,但结构和功能十分相似,它们可能具 有共同的进化祖先【4 】。在进化过程中,蛋白质序列不断发牛变化,导致它们在全程范围内并 不具自相似性。研究表明:蛋白质序列巾某些短的区域在进化过程中具有很好的保守性,这 蝗i x :域被称为模体( m o t i f ) ,它包括序列模体和结构模体i 5 1 。序列模体是在一段肽链中关键位置 上相同氨基酸残基的组合,而结构模体则是在空间上作为构象单元的二级结构以特定方式的 组合,即模体概念不仅适用于肽链的氨基酸残基序列,还适用于蛋白质的立体结构。模体作 为有显著序列相似性或显著结构特征的区域还有很多名称,如在p r o s i t e l 6 j 数据库中,一些 有重要牛物学意义的氨基酸序列可以概括成规则的表达式,模式( p a t t e r n ) 和签名( s i g n a t u r e ) 。r f l 于大晕蛋白质家族和已知结构与功能的结构域的序列差异很大,不能被概括成规则的表达式, 所以用基于特殊位点的打分机$ 1 ( p r o f i l e ) 来描述蛋白质家族或结构域在整个序列上的特征。 m e m e t 7 j 中的正则表达式( r e g u l a re x p r e s s i o n ) 属于序列模体的另外种表现形式。蛋白质进化 过程中,还有一个与保守性自关的区域,称作“结构域”( d o m a i n ) ,结构域的概念是从最秀u 内蒙古大学颂l 学位论文 一级结构中较长的重复片段,上升为有特征的立体结构,而且具有某些牛物功能。对于蛋白 质,模体作为结构域中的亚单元,其功能是体现结构域的多种生物学作用。 模体是一组蛋白质的共同特征,它不仪将蛋白质聚成一个蛋白质家族,甚至是超家族, 而且反映了家族或超家族之问的亲缘关系。具有同种模体的超家族成员,它们有各自的特征 和个性,反映在序列上则是每个蛋白质都有各自的肽段质谱指纹图谱,反映存功能上则是它 们各司其职,发挥不同作用。由于模体与生物功能的关系更为紧密,所以模体通常对蛋白质 的功能起着重要的作用【5 l 。蛋白质序列可看作是由众多的模体构建而成,一个蛋白质家族的 所有或人多数成员拥有的模体极可能是该家族执行重要功能或组成结构不可缺少的部分,即 模体能够刻画出蛋白质家族或超家族新成员的特征。因此保守模体特征的研究对蛋白质超家 族的识别、蛋白质之间的相互作用研究及蛋白质相互作用网络的建立有重要的意义。 1 2 国内外研究现状 随着蛋白质组序列数据飞速增长,通过实验的方法确定蛋白质结构与功能相对较慢。南 于通过实验确定蛋白质的结构和功能不仅费时费力,而且成本也很高,因此,探索利用理论 及计算方法来研究蛋白质结构和功能具有重要意义。如何从氨基酸序列中提取出合理的特征 信息,用有效的数学方法来描述或表示。并使之能正确反映序列与结构或功能之间的关系, 是决定蛋白质分类质最的关键,对蛋白质超家族的识别和功能研究也是至关重要的。 原始的蛋白质序列从数学上说只是一串氨基酸符号的随机组合,但是从生物学意义上看, 里而包含了很多遗传和功能信息。由j j :序列可以按照一定的动力学规则折叠成特定的结构。 所以可以从蛋白质序列中提取出有用的特征,这些特征不仅能用来提高蛋白质超家族预测的 精度,而日堵皂对深入了解蛋白质序列、结构、功能之间的关系提供帮助。氨基酸组分是最简 单的信息。最初,n a k a s h i m a 和n i s h i k a w a 使用氨基酸组分进行亚细胞定位的预测,他们指出 细胞内和细胞外的蛋白质在氨基酸组分上有显著彳i 同1 5 1 。虽然它没有考虑氨基酸之间的顺序 和关联信息,也不包含进化和蛋白质结构等的信息。但是蛋白质的折叠信息与氨基酸组成成 分有明显的关联性1 9 1 ,随后又衍生了氨基酸多肽组分特征l l o 1 1 l ,有些工作中使用紧邻二肽组 分1 1 2 l 。c h o u 还提出赝氨基酸组分这一概念l ”l :蛋白质序列可以用氨基酸组成成分和一系列考 虑氨基酸关联和次序等信息参数因子来农征,即自相关函数、序列次序相关因子、准序列次 序均足赝氨基酸组分中的一种因了。除此之外,氨基酸的物理化学性质1 14 ”l ,g o 注释i 插,17 1 , 2 蛋门质超家族模体特征的分析1 j 蛋白质超家族的识别 疏水模式i 墟1 ,同源蛋白的系统发育信息i 悖1 和模体信息【2 0 1 等都被用来进行蛋白质的相关预测。 日前模体识别已经成为一种从生物序列巾提取有用生物信息的方法,人们存发展各种自动识 别模体方法的同时建立了很多蛋白质模体数据库,如p r o s i t e ,b l o c k s l 2 1 1 ,s m a r t l 2 2 1 , p 1 2 3 1 ,g ot e 彻i2 4 2 5 1 ,p r 0 d o m 俐和c d d l 2 7 1 等。这些数据库一般由已知功能的蛋白质组成, 并日可以从中提取出被认为是可以反应蛋白质功能的保守模体;同时由于模体与蛋白质共同 具有的某些功能存在较大的相关性,生物学家可以通过这些模体来探求蛋白质结构与功能的 关系,理论工作者则将模体信息用于预测蛋白质高级结构哪! ,亚细胞定位2 9 1 及蛋白质功能类 的预测1 3 0 1 ,这些工作已经取得了较好的结果:此外模体与局部结构,局部物理化学参数的关 系也成为了一个研究热点1 3 1 1 ,如用信息论方法中的信息熵来度量单个氨基酸的保守性,然后 预测出它是否是功能位剧3 2 】。 特征提取和分类算法是一个分类系统的两项关键技术,近些年来,国内外研究者在发展 分类算法方面做了大量的工作。早期的分类算法是用简单定义的距离作为判别分析的函数 c h o u 等最早提m 用几何距离的方法来预测蛋白质结构类问题,所用方法有最d x h a m m i n g 距离 1 3 3 1 ,最小e u c l i d e 龃距离俐和最d x m a h a l a n o b i s l f l 三离1 3 5 】,这些方法在结构类预测方面被成功应用, 后来人们又发展了更加复杂的算法,例如协变判别式算法1 3 6 1 ,虽然这种算法中存在协方差矩 阵求逆问题,而且在许多应用中协方著矩阵是奇异的,不能适用,并且当维数较大时,协方 差矩阵求逆限制了该方法的应用,但是该方法具有计算简单、预测结果好的特点。除了前面 这些基于距离的算法外,还有很多机器学习法也应用到蛋白质分类预测中来。如神经网络方 法( n e u r a ln e t w o r k s ) 1 3 7 1 ,它的提 “源j :模拟大脑的信息处理和学习过程,神经算法在蛋白质结 构类预测3 引,膜蛋白预测3 9 1 以及弧细胞定位的预测1 4 0 1 中均取得了较高的成功率。隐马尔可夫 模型( h i d d e nm a r k o vm o d e l s ,h m m ) 1 4 2 1 也是一个已经非常成熟的算法。以前的应用主要集中 在语音识别方而,近几年被广泛应用在生物信息学领域中的大规模基因数据库管理等方面。 在s u p e 雨m i l y 数据库4 1j 中,用协压代表所有已知的蛋白质结构。支持向量机( s v m ) 1 4 3 1 是近 年来在统计学习的理论的基础上发展起来的一种新的模式识别方法。虽然人多数机器学习的 算法都属于黑箱模型,无法从算法中获得更多相关的知识,但是它使得使用者不必关心算法 的细节,如s v m 在解决小样本、非线性及高维模式识别问题中具有很多优势。它可以处理大 量的数据,模型经过多次训练学习后,就可以自动找到一些规则。这种方法在蛋i ,| 质同源寡 聚体分类1 4 引,蛋白质四级结构分类1 4 5 i ,蛋白质折叠子识别4 6 1 以及蛋白质结构类预测47 4 8 1 等研 究中取得较好的分类效果。k 近邻方法i ”i 是在已知类别的训练样本条件下,按最近原则对识 内蒙j 与大学硕_ 上学像论文 别模式进行分类,是种重要的模式识别技术,在可溶性预测,亚细胞定位,蛋白质翻译后 修饰等方面有相当的应用。此外还有模糊聚判4 9 1 ,贝叶斯分类5 0 1 等算法也被人们应用于分类 预测。 , 随着特征提取的不断深入,越来越多的与蛋白质结构和功能相关的信息被引入各种算法 中,用于蛋白质分类研究。超家族的识别就是蛋白质分类领域巾的重要谍题之一。 1 3 本文使用的蛋白质数据库和模体搜索工具 蛋白质序列数据库的雏形可以追溯到上世纪6 0 年代。到目前已有许多全面的、经过 注释的、非冗余的蛋白质数据库4 ,6 ,2 2 功外5 3 1 被陆续创建起来。本节只重点介绍论文中使 用的蛋白质数据库和模体搜索工具。 1 3 i 蛋白质结构分类数据库 蛋白质结构分类数据库是利用人工,半人工或自动方式对一级数据库巾非冗余子集进行 分类得到的,它描述了蛋白质之间的相似性关系。其中s c o p ( s t r u c t u r a lc l a s s i f i c a t i o no f p r o t e i n s ) 数据库是一个最常用的蛋白质结构分类数据库,最早由m u r z i na g ,b r e n n e r s e 等 人在1 9 9 5 年建立,由英国医学研究委员会的分子生物学实验室和蛋白质上程研究中心开发和 维护。这个数据库主要依靠生物专家采用各种检测方法对蛋白质进行人工分类,与依靠结构 比较算法建立起来的结构分类数据库相比,s c o p 库在识别蛋白质结构和进化相似关系方面 的能力更强,该数据库是目前困际上比较公认的蛋白质结构分类的标准库。 c a t h | 5 4 1 数据库是另一个半自动半人工的结构分类数据库,由英国伦敦大学的c ,a q r e n g o 等人在1 9 9 7 年建立的。它借助于结构比较算法s a p 和专家知识对蛋白质结构进行分类。 c a t h 规定可能具有同一个祖先的蛋白质组成同源超家族。相比而言,s c o p 库较c a t h 库应 用更为j “泛。因此,本文建立蛋白质超家族数据库的序列来自s c o p 库。 1 3 2 蛋白质p r o s i t e 数据库 p r o s i t e 数据库是9 0 年代初期开始构建,现由瑞士生物信息学研究所s i b 维护。p r o s i t e 数击i ;午是基于对蛋f 1 质家族中f i d 源序列多重序列比对得到的保守性域,这样的区域通常与 生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,p r o s i t e 数据库实际 4 h 自$ # 攥# # h 女一一h 目# * 上是蛋白质序列功能位点数据库。通过对p r o s l t e 数据库的搜索,可判断该序列包古什么样 的功能位点。从而推测其可能属于哪一个蛋白质家族。s c a n p t 璐i t e 是p r o s i t e 数据库提供的 搜索工具。本文通过s c a n p r o s i t c 软f l - ( h t t p :c x p a s yo r g p r o s i i e ) 可以得到与模体结构和功能相 关的信息。如模式:n w 卜 d n s i - i l v f y w i d e n s t g i d n q g i - b 噬i - g p 卜i l i v m c 一l e e n q s t a g c 嘱( 2 卜i d e i - f l d r m f y w ia 其中k ( 2 r 表示两个任意氨基酸残基,若是x ( 2 ,3 ) 则表 示2 或3 个任意氨基酸残基:“ w ,表示此位置允许除了色氨酸以外的任意残基:“ d n s i ”表 1 此位置可以是天冬氪酸或者无冬酰胺或者丝氨酸:i ”则用于连接模式中的残摹,并不占据 序列中残基的位置。因此蛋白质p r o s i t e 数据库实际上也是蛋白质功能数据库,从巾可以得 到有关蛋白质功能、家族、进化等信息。 3 , 3 模体搜索工具 发现序列模体的算法是计算生物学领域中的重要问题之,许多有效的方法被用于模体 识别。包括基于位置权重矩阵( 孙的算法,基于正则表达式的算法和组合的方法,这些 算法可以在网络环境下被人们使用。本文使f 1 1 m e m f ( m u l t 币l c e m f o r m 砷e i m t h b 锄) 搜索序 列模体它是一种应用最广泛的蛋白质和d n a 序列模体搜索上具旧。m e m e 用固定宽度的 正则表达式描述模体,其中小允许出现空位。 h p 、a h l e i x l o r a 5 d l c c 522 5 er 0 7 _ d l c 5 2 79 7 e - 0 9 _ d l c 一2 6 8 e1 0 l_ d h q c a l 16 4 c 。6 l_ d l p p l d l 15 8 e 9 _ i d l j m a l 22 2 e 1 _ 田l _ lm e m ee 联网服务嚣界面显 的5 睾氧基醢序列厦其舍有的序列模体 f i g i i5 oa c i ds e c ! u 一口d t h e t rs c q u o i m w e md i s p l a y e d t , r t h c i n t e r f a c e b f m e m e w “ 内蒙六大学烦上学 奇论文 图1 1 表永m e m e 界面显示的5 个氨摹酸序列标识符及其含有的序列模体,“1 ”,t 2 ”,“3 ” 表示搜索到的3 种模体。“2 ”对应的正则表达式为:【l y 】【s t l d e i d e i e d i k a v a v i a y l l t l 。 中括号内的氨基酸残基占据序列中同一个位置,中括号外的残基单独占据一个位置。 从已知的数据库中获取与模体功能相关的信息和建立数据库所需的序列信息是分析超家 族的模体特征和使用理论算法识别超家族的前提条件。本文从s c o p 库中获取序列,建市超 家族数据库。通过模体搜索工具s o a n p r o s i t e 和m e m e 提取模体特征。 1 4 论文的研究内容与安排 本文以生物统计学和生物数学中的方法为工具,以蛋白质超家族中的模体和序列为研究 对象,以对蛋白质超家族的模体特征进行分析和蛋白质超家族的分类预测为目的,主要从蛋 白质超家族中的模体功能特征分析、相对位置分布统计,特征提耿和蛋白质超家族识别这三 个方而进行了研究,相关的具体内容将在各章节中给出。 伞文共分五章,具体安排如下: 第一章简要介绍超家族识别的背景、意义,当前国内外的研究现状以及本文使用的数据 库和模体搜索 二具。 第二章从模体对超家族识别具有重要意义的角度对超家族巾的模体进行了详细地讨论。 构建1 6 个蛋白质超家族数据库,并着重分析了蛋白质超家族中模体的功能特征, 统计了位置保守性以及模体在序列中出现的频数。 第三章特征提取和预测算法是超家族识别的关键步骤,本章在超家族识别过程中应用的 特征提取方法和理论预测算法进行了具体地论述,首次将单因素方差分析的方法 用于蛋白质超家族特征提取,并简要概述了算法评价的方法。 第四章重点讨论了蛋白质超家族识别问题,采用三种特征提取方法得到三组特征参数集, 并将这些参数输入最小离散增量算法中,对蛋白质超家族进行预测。给出总体预 测精度最高的参数模式和预测结果,并具体讨论了不同预测参数对蛋白质超家族 识别的影响。 第五章论文的最后系统地总结了全文的工作,并对进步的工作进行展望。 6 蛋f f 质超家族模体特征的分析。j 蛋f 1 质超家族的识别 第二章蛋白质超家族数据库的建立及模体特征的分析与统计 2 1 建立蛋白质超家族数据库 s c o p 数据库丰要按照结构类( c l a s s ) 、折叠类型( f o l d ) 、超家族( s u p e r f a m i l y ) 、家族( f a m i l y ) 四个层次对蛋白质结构域进行分类。家族是分类的最i s - 层,被分入同一家族的蛋白质结构域 之间具有比较明确的进化关系,它们的序列相似性往往超过3 0 。有些蛋白质在序列上的相 似程度较低,但结构和功能十分相似,因此推测它们可能具有共同的进化祖先,在这种情况 下,它们通常被归入同一个超家族。如果蛋白质的主要二级结构具有相同的排列和拓扑结构, 则把它们归入到同个折叠类型。s c o p 库根据组成结构域的各种二级结构含量的4 i 同又将 结构域最终分成几个大类。它们是全、全p 、彬p 和俚+ p 结构类等。s c o p 还提供一个非冗余 的通常被用来评估各种序列比对算法的a s t r a i l 序列库”7 i 以及与许多其它数据库之间的超 链接,其中的p d b s u m 数据库f 5 3 1 提供对p d b 数据库中所有信息的总结和分析,每个总结给出 了与p d b 条目中相关的简要信息,如分辨率、r 因子、蛋白质主链数目、配体、金属离子、二 级结构、折叠图和配体相互作用等。 表2 1 构建的超家族的名称及序列数 t a b l e 2 1t h en a m ea n dt h en u m b e ro fs e q u e n e e go fs u p e r f a m i l i e sc o n s t r u c t e di ns c o p s t r u c t u r a lc l a s sn a m eo fs u p e r f a m i l y ! 坚塑尘堡呈翌垒基兰翌垒竺 2 5 4 c i a l la l p h a a n b e t a a l p h a b e t a a l p h a + b e t a c y t o e h r o m ec e f - h a n d h o m e o d o m a i n l i k e w i n g e dh e l i x ”d n a - b i n d i n gd o m a i n l m m u n o g l o b u l l n f i b r o n e c t mt y p el l i p hd o m a i n l i k e n u c l e i ca c i d - b i n d i n gp r o t e 眦 ( t r a m ) g l y c o s i d a s e s n a d ( p ) - b i n d i n gr o s s m a n n f o l dd o m a i n s p - l o o pc o n t a i n i n gn u c l e o s i d et r i p h o s p h a t eh y d r o l a s e s a l p h a l 弛t a h y d r o l a s e s r i b o s o m a lp r o t e i ns 5d o m a i n2 1 i k e u b i q u i t i n - h k c r n a b i n d i n gd o m a i n r b d 7 弱拍鲐m m如叭舵m渤矽弘拍柏船筋躬孵醯斟砣的跖嘲弼勰拍柏 内蒙古大学顾上学位论义 本文选取的s c o p 数据库中( 1 7 1r e l c a s e ) 1 6 个蛋白质超家族,它们分别属于全o f , 、全p 、p 和0 【+ p 类。其蛋白质序列存放存a s t r a i l 序列库中,从中提取出序列一致性( 序列之问完全 相同的部分所占的比例) 小j :等,:4 0 的序列。应用p i s c e s i 5 9 】进行序列比对,得到序列一致 性小于等于2 5 的序列,比对后的序列被用于搜索每个超家族的模体特征信息。来自s c o p 库的超家族名称以及序列数见表2 1 。 由于s c o p 库中全0 t 、全d 、彬p 和0 【+ p 等7 个大类中共有9 7 1 个折叠,1 5 8 9 个超家族。 为便于统计分析,从全位类中选取的序列数大于等于3 5 ,并且一致性比对后序列数大于等于 2 3 的超家族;从全p 类巾选取的序列数大于等于5 0 ,一致性比对后序列数人于等于3 l 的超 家族;从邮和旺+ p 类中分别选取的序列数大于等于6 9 和3 3 ,一致性比对后序列数大丁等 于3 1 和2 5 的超家族。 2 2 蛋白质超家族模体特征的分析 s c o p 库中最基本的分类单元不是整个蛋白质分子,而是蛋白质的结构域( d o m a i n ) ,因此 每个超家族包含的序列都代表着不同的结构域。分析蛋白质超家族的模体特征,即是分析超 家族中结构域的模体特征。有时模体可以和结构域互换,但是结构域不一定必须足一个模体。 文中采用广义的模体的概念,即序列模体和结构模体的统称。由于工作1 6 0 1 中已经证明蛋白质 超家族中的模体在序列巾的分布不随着序列数目的改变而改变,所以我们以序列一致忤小于 等于2 5 的超家族作为研究对象,从含有丰富的序列注释信息的p r o s i t e 数据库中提取已知 功能的序列模体和结构模体特征,应用这些特征讨论所选蛋白质超家族在功能上的异同。 2 2 1 全倪类中蛋白质超家族模体特征的分析 对于细胞色素c 超家族,目前大约有6 0 多种真核生物的细胞色素c ( c y t o c h r o m ec ) 已经 研究清楚。其典型的功能是电子传递,对细胞凋亡也起作用,同时c t y p e 细胞色素中也有许 多酶活性位点。如序列注释中给出的一些甲硫氨酸或组氨酸与铁离子相结合的位点。我们应 用s c a n p r o s i t = 搜索得到2 9 条含有长度均为5 个氨基酸( a m i n oa c i d ,龃) 的c x x c h ( c y s xx c y s - h i s ) 保守模体的序列。 第二个全值类超家族是e f 手超家族,大多数e f 手( e f h a n d ) 结构模体中都龠有钙离了结合 域( c ab i n d i n g ) 模体,其模体的序列平均长度为1 2a a ,它距e f 于结构模体序列前端约1 3a a , 丽距其末端1 1a a 左右。n j 她钙离子结合域模体相对e f 于结构模体的位置是十分保守的。e f 8 蛋f 1 顷超家族模体特征的分析j 蛋白质超j 永砍的识别 手蛋白质分子作为基本的功能单位通常是成对的模体,可以形成稳定的四螺旋束结构域,这 使得e f 手蛋白在与钙离子结合时可以相互协调。我们应用s o a n p r o s i t e 搜索到三种模体,( 1 ) e f 手模体,含有这种模体的蛋白质分子对钙的亲和性很强,分子内有两个钙离子结合位点,每 个位点呈螺旋环螺旋( h e l i x 1 0 0 p - h e l i x ) 超二级结构,由e 和f 螺旋以及它们之间的环组成;( 2 ) e h 模体是一个序列长为9 5 个氨基酸的蛋白质相互作用分子;( 3 ) s 1 0 0 模体是一个小的钙和 锌结合蛋白的二聚物,大量存在j j 二人脑中。 类同源框域( h o m e o d o m a i n l i k e ) 超家族以h t i - i ( h e l i x t u r n h e l i x ) 结构模体为丰。其平均长 度为2 3a n 。用s c a n p r o s i t e 搜索到6 种h t h 结构模体和一种非h t h 结构模体,分别是m y b - t y p e h t h ,h o m e o b o x ,t c t r - t y p eh t h ,p a i r e d ,p s q - t y p eh t h ,c e n p b t y p eh t h 和s a n t 。h t h 结构模体由两个短的氨基酸链连接的口螺旋组成,第二个螺旋称作识别螺旋,能与d n a 的 人沟相结合。这种模体主要存在与真核生物和原核生物的转录调控因子中。这个超家族中的 s a n t 模体不具有与d n a 结合的功能,它是蛋白质相互作用分子,与m y b - t y p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论