(生物医学工程专业论文)生物序列的非线性关联研究.pdf_第1页
(生物医学工程专业论文)生物序列的非线性关联研究.pdf_第2页
(生物医学工程专业论文)生物序列的非线性关联研究.pdf_第3页
(生物医学工程专业论文)生物序列的非线性关联研究.pdf_第4页
(生物医学工程专业论文)生物序列的非线性关联研究.pdf_第5页
已阅读5页,还剩96页未读 继续免费阅读

(生物医学工程专业论文)生物序列的非线性关联研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

系,对氨笨酸的疏水值序列进行分析,发现关联性质与其结构之间没有明显的对应关 系,这说明疏水值对蛋白质二级结构的形成影响不大。 3 ) 分析了空间结构对称的蛋白质的氨基酸序列中隐含的对称性。结果表明,如果 蛋白质的空间结构是对称的,其氨基酸序列中往往也隐含着对称的结构。如果两个氨 基酸片段中有2 0 相同的氨基酸,就认为这两个氨基酸片段是相似的,那么序列的对 称性就可以显现出来,并且与结构的对称性吻合很好。这说明了蛋白质的空间结构确 实是由氨基酸序列决定的。 4 ) 分析了d n a 序列的关联性质。利用非线性预测的方法对人类第1 1 条染色体的 口球蛋白区域h u m h b b 进行分析,发现该序列存在长程关联的原因部分来源于序列中 不同基因的外显予之间、内含子之闻和a l u 重复片段之问存在的很强的关联。分析了 非编码a l u 序列的关联性,表明几乎所有的a l u 序列都存在非常明显的确定性结构, 并且,从较新的a l u 序列到较老的a l u 序列,它们的关联特点呈现出逐渐演变的过程。 研究了m r n a 序列的非线性关联,发现m r n a 序列与其编码的蛋白质序列的关联性非 常相似,大部分m r n a 序列的关联性要比其编码的氨基酸序列的关联性强。 这些结果不仅使我们揭示了生物序列与结构之间的关系,同时也表明非线性关联 方法为人们研究生物序列的结构提供了一个新的途径。 关键词:生物序列非线性关联蛋白质d n a a b s t r a c t t h ec o r r e l a t i o no f b i o l o g i c a ls e q u e n c e si sc l o s e l yr e l a t e dt ot h e i rs t r u c t u r e s ,f u n c t i o n s a n de v o l u t i o n s i ti sa c c e p t e dd o g m at h a tt h en u c l e i ca c i ds e q u e n c e si ng e n e sd e t e r m i n et h e a m i n oa c i ds e q u e n c e so f p r o t e i n s ,w h i c hd i c t a t et h e i rs p a t i a ls t r u c t u r e sa n df u n c t i o n s s o ,t h e c o r r e l a t i o no f b i o l o g y s e q u e n c e si so n e o f t h em o s tb a s i cs i g n i f i c a n tp r o b l e m s o f b i o l o g y t h em a i np u r p o s eo fs t u d y i n ga m i n oa c i d ss e q u e n c ei st op r o v i d et h ei n f o r m a t i o no f t h e i rs e c o n d a r ya n dt e r t i a r ys t r u c t u r e sa n df u n c t i o n s b u t ,i ti ss t i l lu n c l e a rw h e t h e r p r o t e i n s e q u e n c e sa r er a n d o mc h a i n s o rn o t w es t i l ld on o th a v eg o o dm e t h o d st o p r e d i c tt h e s e c o n d a r ya n dt e r t i a r ys t r u c t u r e so fp r o t e i n sd i r e c t l yf r o m t h e i ra m i n oa c i ds e q u e n c e s t h e s e h a v em o t i v a t e di n t e n s i v es t u d i e so f t h ec o r r e l a t i o np r o p e r t i e so f p r o t e i n s e q u e n c e s t os e eh o w s e q u e n c e se n c o d t t h es t r u c t u r ei n f o r m a t i o n b u tw es t i l ld on o th a v ead e f i n i t er e s u l t s o ,i ti s a n o p e np r o b l e m h o wt oe x t r a c ts t r u c t u r a li n f o r m a t i o nf r o ma m i n oa c i ds e q u e n c e s d n ac a r r i e st h eg e n e t i ci n f o r m a t i o no fm o s tl i v i n go r g a n i s m ,a n dt h eg o a lo fg e n o m e p r o j e c t i st ou n c o v e rt h e g e n e t i c i n f o r m a t i o n t h em a i nt a s k so ft h ea n a l y s i so fd n a s e q u e n c e si n c l u d et h ei d e n t i f i c a t i o no fc o d i n gr e g i o n s ,t h eb i o l o g i cf u n c t i o n so fn o n c o d i n g r e g i o n sa n d t h ec o r r e l a t i o np r o p e r t i e so fd n a s e q u e n c e s r e s e a r c h e r sf r o mm a n yf i e l d sh a v e b e e n a t t e m p t i n g t os o l v et h e s e q u e s t i o n s ,s p e c i a l l y t h ec o r r e l a t i o n p r o p e r t i e s o fd n a s e q u e n c e s ,b u tt h e yg a v eo p p o s i n gr e s u l t s s ot h ec o r r e l a t i o no fd n as e q u e n c e si s a l s oa n u n s o l v e d p r o b l e m t h e r e f o r e ,t h ec o r r e l a t i o no fb i o l o g ys e q u e n c e si sw o r t h yo ff u r t h e rs t u d y i nt h ep a s t , l i n e a rc o r r e l a t i o nm e t h o d sw e r eo f t e nu s e dt os t u d yt h ec o r r e l a t i o no fb i o l o g ys e q u e n c e s h o w e v e r ,t h e s es e q u e n c e sa r er e g u l a ra n dc o m p l e xs y s t e m sa n ds o i ti sr e a s o n a b l et o i n v e s t i g a t et h e i r c o r r e l a t i o np r o p e r t i e sb y u s i n gt h em e t h o d s o f n o n l i n e a rc o r r e l a t i o na n a l y s i s i nt h ep l 嘲e n tp a p e r , w es t u d yt h ec o r r e l a t i o np r o p e r t i e so fb i o l o g i cs t m l u e n c e sb yu s i n g t h en o n l i n e a rl 帆 d i c t i o nm e t h o d ,w h i c hh a sb e e np r e v i o u s l yu s e ds u c c e s s f u l l yt od i s t i n g u i s h c h a o sf r o mn o i s ei nt i m es e r i e s t h ep a p e rw a so r g a n i z e da sf o l l o w s : ( 1 ) w ei n v t s t i g a t e dt h er a n d o m n e s so fp r o t e i ns e q u e n c e so fd i f f e r e n ts t r t 托t u r a l c l a s s e s t h er e s u l t ss l m w e dt h a tt h ep r o t e i ns e q u e n c e sb e h a v ea sr a n d o ms e q u e n c e so na v e r a g ew h i l e i n d i v i d u a lp r o t e i ns e q u e n c eu s u a l l ys h o w ss i g n i f i c a n tc o r r e l a t i o n ( 2 ) w es t u d i e dt h ec o r r e l a t i o np r o p e r t i e so fp r o t e i ns e q u e n c e so f t h r e ed i f f e r e n tf o l d si n e a c ho ft h e mt h ep r o t e i n sh a v es i m i l a rs t r u c t u r e s w ef o u n dt h a tt h ep r o t e i ns e q u e n c e si no n e f o l dh a v en oc o m m o nc o r r e l a t i o np r o p e r t y , b u tt h ec o r r e l a t i o n p r o p e r t i e sd e d u c e df r o m s y m b o ls c h e m eo fs o m ep r o t e i n sa r ev e r ys t r o n ga n da r er e l a t e d t ot h es i m i l a rs t r u c t u r a l m o d u l e si np r o t e i n s ( 3 ) w es t u d i e dt h ec o r r e l a t i o np r o p e r t i e so fp r o t e i n sw i t hs y m m e t r i c a ls p a t i a ls t r u c t u r e i ti ss h o w e dt h a ti fw ec o n s i d e rt w op r o t e i ns e g m e n t ss i m i l a rw h e nt h ei d e n t i t yo fa m i n o a c i d si nt w os e g m e n t sr e a c h e d2 0 o rm o r e ,t h e nt h eh i d d e ns y m m e t r i cs t r u c t u r e so fp r o t e i n s e q u e n c e s w i l lb ed i s p l a y e d s y m m e t r i cs t r u c t u r e so f s e q u e n c e s a r eo b v i o u s l yc o n s i s t e n tw i t h s y m m e t r i cs p a t i a ls t r u c t u r e so fp r o t e i n s t h i si n d i c a t e st h a tt h ea m i n o a c i ds e q u e n c e si n d e e d e n c o d et h et e r t i a r ys t r u c t u r e so f p r o t e i n s ( 4 ) w es t u d i e dt h ec o r r e l a t i o np r o p e r t i e so fs o m ed n as e q u e n c e s f i r s t l yw e s t u d i e d h u m a n 口g l o b i nr e g i o n o nc h r o m o s o m e11 ( n a m e dh u m h b b ) a n dc a l c u l a t e dt h e n o n l i n e a rd e t e r m i n i s t i cs t r u c t u r e so ft h es e q u e n c e so f e x o n s ,i n t r o n s ,c o d i n gr e g i o n s ,g e n e s a n dr e p e a t si nh u m h b b w ef o u n dt h a tt h eo r i g i no ft h el o n g r a n g ec o r r e l a t i o n i n h u m h b bi sd u et ot h es 廿o n gc o r r e l a t i o nb e t w e e nt h ee x o n so ri n t r o n so fd i f f e r e n tg e n e so r b e t w e e na l ur e p e a t si nh u m h b b s e c o n d l y , w ec a l c u l a t e dt h ed e t e r m i n i s t i cs t r u c t u r ei n a l u r e p e a t s a n df i n dt h a ta l lo ft h ea l ur e p e a t ss h o w s 仃o n g n o n l i n e a rc o r r e l a t i o n f u r t h e r m o r e ,t h ed e t e r m i n i s t i cs t r u c t u r e so fa l u so fy o u n g e rs u b f a m i l i e ss h o wp a n l i k e s h a p e sw h i l eo l d e rs u b f a m i l i e ss h o wd i f f u s e c o r r e l a t i o np a t t e r n ,i tm a ys u g g e s tt h a tt h e d e t e r m i n i s t i cs t r u c t u r e so fo l d e rs u b f a m i l i e sa r er e s u l t so fa ne v o l u t i o nf r o my o u n g e r s u b f a m i l i e sb ym u t a t i o n f i n a l l y , w es t u d i e dt h en o n l i n e a rc o r r e l a t i o no fm r n a s e q u e n c e s w h i c he n c o d et h et i m - b a r r e l p r o t e i n s ,a n d f i n dt h a tt h e s e s e q u e n c e sh a v es t r o n g e r d e t e r m i n i s ms t r u c t u r e st h a nt h ep r o t e i ns e q u e n c e st h e ye n c o d e i ns u m m a r y , w es t u d i e dt h en o n l i n e a rc o r r e l a t i o no fb i o l o g ys e q u e n c e s t h er e s u l t sn o t o n l yr e v e a lp a r to f t h er e l a t i o n sb e t w e e ns e q u e n c e sa n ds t r u c t u r e so fb i o - m o l e c u l e s ,b u ta l s o s h o wt h a tt h en o n l i n e a rc o r r e l a t i o nm e t h o dm a yp r o v i d ean e wa p p r o a c ht od e t e c t t h e e s s e n t i a lc h a r a c t e ra n di n h e r e n tr u l e so f b i o l o g i c a ls e q u e n c e s k e yw o r d s :b i o l o g i c a ls e q u e n c e s n o n l i n e a rc o r r e l a t i o n p r o t e i n d n a 独创性声明 y 5 7 s 9 0 3 奉人声明所曼览的学位怆文是我个人在导师指导下进行的研究工作盈取得 婀研宄成果尽我所知。嘧文中已缀标明日i 用盼对窖, 本论文不包童任何其他 十人或鬃体已经挺衰或其写过的研究成果对本文的研兜触出贡献的十人和羹 律均巴在丈中以晴确方式标明本人完垒蠢谓到奉声明的法律绪景由本人承扭 学位论文柞肴签名;瑾善p 知 日期:) 畸年1 1 月i 协日 学位论文版权使用授权书 车拳缸抡文作者完盘了解攀技有关保留、使用学位论文的规定,呷;学校霄 攫保留并向自家育关韶门或辊掏迸变论文的复印件和电子版。允许论文鼍董嬲釉 借淘车人授权华中科技大学可l 丛将率警位论文的童都或部分内容壤入脊关救据 库进行检索,可以采用彤印、缩印或扫描镩复制手段保存和汇奉掌位论文 保密口-在年臃密厝适用本授权书 本论文禽于 不豫密g c 请在以上方匿内打。”) 学位论文作者签名:二曼编 日期,】凶年i t 月雕b 指导教师签名# 幸敷日婶西毫 日期;扫母苹,1 月r 日 零罚意 布 坶e瓣蛾 1 综述 1 1 研究生物序列的意义 生物序列包括蛋白质序列和d n a 序列。研究生物序列与它们的结构和功能的关系是 目前生物物理与分子生物学中的前沿课题。 1 、研究蛋白质序列的意义 ( 1 ) 蛋白质分子的结构和功能是由序列决定的。 蛋白质是生物体的一种重要的高分子聚合体,是维持生命过程的重要物质。从细菌 到人类所有的物种中,蛋白质构成细胞的大部分,占细胞干重的一半以上它具有丰富 的结构形态和功能作用,因此成为各种生物体系中不可或缺的一个基本构件。整个生物 界,从水生到陆畚三,从低等到高等,从宏观到微观,处处都展现了蛋白质特殊而重要的 地位。在柔软光滑的皮肤中,在坚韧有力的肌肉中,在富有弹性的毛发中,蛋白质都起 到了不可替代的作用。更主要的是,蛋白质作为生物体内的特殊功能部件,在整个生物 功能的具体运作中起到了主导性的作用。专一性的酶蛋白高效地催化生命过程所需要的 各种化学反应:运动蛋白利用化学能实现机体灵活而精巧的机械运动;输运蛋白实现生 命体内的物质循环,把各种有用的成分物质运到机体需要的地方;蛋白质还通过与生物 体内的其它成分( 例如核酸、多糖和脂类等) 结合,实现生物信号的转录、翻译、表达、 识别和传递等多种复杂的调控机能。因此,蛋白质是生命现象的基础。任何蛋白质都以 一种独特的构象存在,个伸展的或随机排布的多肽链是没有任何生物活性的,多肽链 必须按照一定的规律折叠成三级结构,才具有生物活性。同时,蛋白质的构成是很精确 的,一个氨基酸中只要有少数几个原子发生改变就可以破坏其结构,从而使蛋白质的功 能丧失。 蛋白质的这些功能是由蛋白质分子的空间结构决定的。蛋白质个最引人注目的特 征是它能够通过折叠形成一定的构象,即氨基酸分子在蛋白质结构中的三维排列方式。 这种构象形成一定的活性部位或形成使蛋白质能在细胞中起作川的其它结构形式。 氨基酸序列决定了蛋白质的构象。这个结论米自a n f i n s e n l l l 关于核耱核酸酶变性和 复性的实验研究。后来人们对其它蛋白质的研究证实了这个原理的普遍性。这是分子生 物学的一个中心原理:序列规定构象。 尽管蛋白质的结构和的功能是由氨基酸序列决定的,但是,我们至今尚未搞清楚如 何“解读”这种信息,以期预测已知序列的蛋白质的详细的结构和功能。 ( 2 ) 蛋白质序列与结构在数量上的巨大差距,促使我们要研究序列与结构之问的关 系。 随着生命科学的进一步发展,越来越多的蛋白质序列被测定。2 0 0 0 年获得了人类基 因组的全部序列。这部由3 0 亿个字符组成的人类遗传密码本已活生生地摆在了我们面 前。由这些基因组经过翻译得到了大量蛋白质序列。相对而言,对蛋白质空间结构的测 定速度要慢得多。现在测定蛋白质结构的方法主要有x 射线结晶学和核磁共振技术等, 进行这样的结构测定需要很高的实验条件,同时也需要较长的时间。因此,序列与结构 在数量上随着时间的推移就形成了越来越大的差别。我们可以从几个最常用的数据库做 一大致的了梢。n 2 0 0 3 年6 月为止,蛋白质结构数据库p d b 2 3 1 中已经测定结构的蛋白质 大约有2 1 ,0 0 0 个,而蛋白质序列数据库s w i s s p r o t 4 , s 1 中的蛋白质序列大约已经有 8 5 8 ,o o o 条,并且这个差距会变得越来越大。 蛋白质结构测定的速度远远不能满足人们的需要。因此,人们希望能够通过理论分 析的方法找到从蛋白质序列中直接提取结构信息的方法,从而弥补用实验方法进行结构 测定速度较慢的不足。 ( 3 ) 蛋白质分子设计的需要 蛋白质的分子设计就是为有目的的蛋白质工程改造提供设计方案。所谓蛋白质工程 是指人们在深入了解蛋白质空间结构以及结构与功能关系,并且在掌握基因操作技术的 基础上,设计和改造蛋白质,借以改善蛋白质的物理和化学性质,如提高蛋白质的热稳 定性、酶的专“肚等等,使之更好地为人类所j t 。分子药物设计的主要目标就是通过对 蛋白质序列与结构和功能的关系的了解,根据需要构造新的蛋白质,或者对现有的蛋白 质中的局部位置上的氨基酸进行替换或重新组合,使蛋白质具有新的功能。一旦人们了 解了氨基酸序列与蛋白质结构的功能的关系,就可以根据实际需要设计新的蛋白质,从 而可以大大提高分子设计的速度。 2 、研究蹦a 序列的意义 ( 1 ) d n a 遗传的物质基础。 d n a ( 又称脱氧核糖核酸) 是核酸的类,网分子l ,含有脱氧核糖而得名。d a n 分子 极为庞大,分子量一般至少在百万以上,主要组成成分是腺嘌呤脱氧核苷酸、鸟嘌呤脱 氧核苷酸、胞嘧啶脱氧核苷酸和胸腺嘧啶脱氧核苷酸。d n a 存在于细胞核、线粒体、 叶绿体中,也可以以游离状态存在于某些细胞的细胞质中。 d n a 包含了所有的遗传信息,在生命体系中占据一卜分重要的地位。除了r n a ( 核 糖核酸) 和噬菌体外,d n a 是所有生物的遗传物质基础。生物体亲子之间的相似性和继 承性印所谓遗传信息,都贮存在d n a 分子中。 d n a 最重要的作用在于它可以编码大量的各种各样的蛋白质。d n a 所包含的信息 并不立即影响细胞,只有当它用来指导蛋白质的合成时,它才能确定细胞的化学特性和 物理特性。 ( 2 ) 基因组中9 5 的序列的功能仍然不是十分清楚。 尽管d n a 在生物体中起十分重要的作用,但是人们对于d n a 的了解并不1 分清楚。 d n a j 芋歹o 包括编码区和非编码区,其中用于编码蛋白质的区域大约只占所有d n a 序列 的5 左右。尽管人们使用了大量的方法来预测编码区域在d n a 序列中的位置,但不是 十分的准确睁1 0 1 。至于占据了d n a 中9 5 的非编码区的认识就少得多,迄今为止非编码 区在生物体内的功能仍然知道的不多。 尽管人们对d n a 序列和蛋白质序列的结构和功能等方面进行了大慧的研究,但是 仍然存在很多尚未解决的问题。随着生物序列数据库的不断增大,揭示这些生物序列所 包含的信息已经成为生物序列研究的一个重要课题。 1 2 蛋白质序列研究 蛋白质序列研究的主要问题是从蛋白质的氨基酸序列r 1 1 寻找关于蛋白质二级结构 耜三级结构以及功能的信息。 不论是生物化学,还是分子生物学,最终的日的都是希望能够了解生物分子的结构 与功能的关系,进而设计出更符合人类需要的分子。根据a n f i n s e n 等人的观点,蛋白质 的级结构决定了蛋白质的高级结构,在测定了肽链的一级结构以后,就可以推断出蛋 白质的高级结构。近三十年来科学家。直在研究蛋白质序列的特征、序列与结构的关系 以及由一级结构预i 贝l l 蛋白质高级结构的方法。下面我们简单介绍一下蛋白质序列分析的 丰要内容和主要研究力法。 1 、蛋白质= 级结构预测 蛋白质二级结构预测是蛋白质高级结构预测的基础,开始于上个世纪6 0 年代巾期, 迄今为止已经提出了大量的预测方法 “1 “,但预测的精度普遍不高。然而,预测的结 果仍然提供了许多结构信息。我们可以通过多种方法进行预测结果的综合分析,若结合 光谱实验数据的辅助分析,提高预测的精度。由于二级结构能很好地反映局部序列片段 的结构倾自性。因此,二级结构预测在今天的蛋白矮序列研究中是十分重要的。 蛋白质序列的二级结构预测方法主要有以下几种: ( 1 ) c h o u f a s m a n 方法 c h o u 和f a s m a n ( 6 j 1 9 7 4 年对用x 光衍射得到的2 9 个蛋白质数据进行了统计,得到了 各种氨基酸残基在蛋白质中形成口螺旋、卢折叠和无 ;! 1 5 卷曲构蒙的倾向性因子只、匕和 ,这里的只、匕和2 分别表示氨基酸在蛋白质中形成口螺旋、夕折叠和无规卷曲的 相对可能性。残基构象倾向性因子定义为:巴= 厶以,其中,是统计所有的氨基 酸残基处于第种构象态的分数: 是第f 个氨基酸残基的对应分数。它们分别由下式 给出: 厶= n f ( 1 - 1 ) 乃。v 一7 , ( 1 2 ) 式中的下标表示构象态( 口螺旋、折叠和无轨卷曲) ;f 表示2 0 个氨基酸残基中的某一 个残基( f 从1 至u 2 0 ) :n ,表示在统计的样本中残基的总数;,表示在统计的样本叶1 某一 个构象态中残基的总数:n ;表示某一个残基在统计的样本1 1 1 的总数:n ,表示某一个残 基在统计的样本的某一个构象态中出现的总次数。 显然,晶大于1 0 表示第i 个残基倾向于形成第_ ,种构象,小于1 0 表示该残基倾向于 形成其他构象。然后通过统计残基所处的构象指认蛋白质的二级结构。 c h o u f a s m a n 方法提出较早,之后他们又进行了系列研究”】。统计的数据从1 8 个 已知蛋白结构的2 ,4 7 3 个残基,扩大到2 9 个蛋白的4 ,7 4 1 个残基,后来又扩大到6 5 个已知 结构。统计数据的增加,并没有显著地改变统计的结果。c h o u 和f a s m a n 关于二级结构 预测开创性工作提出以后,许多生物学家对氨基酸残基形成口螺旋、口折叠和无规卷曲 的倾向性开展了广泛的研究,并相继提出了几个基于氨基酸构象倾向性的二级结构预测 方法,它们的预测精度在6 5 - 7 0 * 0 。用这个传统的方法来预测蛋白质的二级结构尽管 曾经取得一定的结果,但很难再进一步提高预测的精度。到目前为止,利用类似的方法 对蛋白质的二级结构进行预测的精度普遍在8 0 0 , 6 以下。因此,有必要利用其它方法来尝 试解决这个问题,例如神经网络等。 ( 2 ) g o r 方法 g o r ( g a m i f c r - o s g u t h o r p e r o b s o n ) 1 8 ,1 9 1 方法是建立在对己知结构的氨基酸构象分析 统计的基础上的,计算被预测结构的位置特异的概率。首先定义参数墨为肽链上第f 个 位置上残基的状态( 口螺旋、伸展、链状态、转角和卷曲) ,统计肽链上全部残基对第i 个 位置的影响。对于每一种结构,它所给出的概率是根据被预测位置前后各8 个残基的构 象状态来计算。一个残基折叠成某个特定结构的倾向就是该位置周围1 7 个残基的方向信 息值的简单数值之和,其计算公式为: 1 ( s ,r j ) 4 三郴州r + 。) + d c ,( 1 3 1 i o 畸 、7 其中i ( s ,r 。) 表示方向信息值,d c , 表示某一一构象状态的确定常数,加上这个常数, 表示当一个蛋白质的实际结构含量已知,对预测的结果加以修正。这实际上是g o r 方 法优于c h o u ,f a s m a n 方法之处。该等式计算得到的哪种结构倾向性大,该位置残基就被 预测为这种结构状态。最后对预测结果进行检查,以排除某些不可能出现的结构,比如 出现口螺旋片段小于4 个残基或口折叠小于3 个残基的情况都要排除。利用g o r 方法进 行预测不会出现c h o u f a s m a n 方法所得到的结构重叠现象。 c h o u f a s m a n 方法和g o r 方法都属于概率统计预测方法。这类方法的缺点是没有考 虑残基之间的远距离相互作用,而这种作j i j 对于二级结构的形成和稳定也是十分重要 的。 ( 3 1l i m 预测蛋白质二级结构的方法 l i m 方法是基于氨基酸的物理化学性质预测蛋白质的二级结构。其主要思想是:1 ) 考虑蛋白质折叠的物理化学性质,例如侧链基团的大小、电荷与疏水性等,推测可以形 成某j f q - - 级结构的有利残基类型。2 ) 确认一个典型构象的结构模式和立体化学特征。l i i l l 方法同时考虑了短程和长程相互作用,比前面的两种方法预测精度要高。但这种方法的 主要困难在于许多规则难以用计算机语言来实现。 2 、蛋白质三级结构预测 世界上第一个蛋白质晶体结构的测定和解析发生在上世纪5 0 年代末6 0 年代初。蛋 白质二级结构预测工作开始于6 0 年代中期,也就是说,在解析出第一个蛋白质的三维 立体结构不久,科学家们便开始了蛋白质结构预测研究工作。这件事本身就足以说明蛋 白质结构预测丁作的重要性。 总体上蛋白质三级结构的理论预测方法可以分为3 大类,即比较建模法、反向折叠 法和序列比对的方法。 ( 1 ) 比较建模法 比较建模法是基于知识的蛋白质结构预测方法【2 0 棚 。这一1 方法目前主要是指同源结 构预测。它是在未知蛋白质中有同源结构可以参考的情况下应用的一种技术。它可以根 据同源结构中保守的部分搭建出未知蛋白质的结构骨架,是现在最为成熟的预测方法。 这个方法的主要缺点是:当序列之间的同源性小于3 0 时,利用这种方法预测的结果就 比较差。 ( 2 ) 反向折叠法 蛋白质反向折叠即蛋白质逆折叠【2 4 - 2 6 。该方法是近年来发展起来的一种比较新的方 法。它可以应用到没有同源结构的情况中,且不需要预测二级结构,即直接从一级结构 预测三级结构,从而可以绕过现阶段二级结构预测准确率较低的限制。它的主要原理是 把未知空间结构的蛋白质的氨基酸序列和已知的蛋白质结构进行匹配,找出一种或几种 匹配最好的结构作为未知蛋白质的预测结构。它的实现过程是总结出已知的独立的蛋白 质结构模式作为未知结构进行匹配的模板,然后用经过对现有的数据库的学习。总结出 可以区分正误结构的平均势函数作为判别标准,来选择出最佳的匹配方式。 这种方法的局限性在于它假设蛋白质折叠类型是有限的,所以只有未知蛋白质和已 知蛋白质结构相像的时候,才有可能预测出未知的蛋白质结构。如果未知蛋自质结构是 现在还没有出现的结构类型。这种方法就不能应用。 比较建模法和反向折叠法都是建立在氨基酸的一级结构决定高级结构的理论基础 上的。 f 3 ) 序列比对的方法 通过序列比对进行结构预测是一个分析蛋白质序列的常用方法【2 7 埘,在蛋白质结构 预测中起十分重要的作用。 序列比对的内容包括同一序列内部不同片段之间的比对,以及两个或多个序列的比 对。比对的内容可以是多方面的,从序列的组分变化、寻找特殊的字段,到序列问字母 的对应等。 序列比对的理论基础是进化学说【3 l 】。如果两个序列之间具有足够的相似性,就推 测二:者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及 序列重组等遗传变异过程分别演化而来。这个过程是基于一定的假设:在两个蛋白质序 列越相似在进化过程中,这两个蛋白质就越可能来源于同一个祖先,并且,它们很可 能具有相同的空间结构和生物学功能。 比对的主要目的是为了阐述序列之间的同源关系,阻及从已知序列预测新序列的结 构和功能。如果新序列和已知序列具有同源关系,两者就具有相同的结构和功能,我们 就可以通过对己知序列的性质推测新序列的结构和功能。进行序列比对所删的方法从半 经验的直观手段到比较复杂的算法。通过序列之问的比对,可以为两个或更多个序列的 残基之间的相互关系和保守位点提供了个比较明确的图谱。 早期的序列比对是全局的序列比对,但由于蛋白质具有的模块性质,因此局部比对 会更加合理。通常j h 打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵 中的一个元素表示两维上对应两个残基的相似性分数,分数越高则说明两个残基越相 似,如表1 1 所示。因此,序列比对问题变成在矩阵里寻找最佳比对路径。 从序列比对的过程可以看到,利用这利方法对蛋白质序列进行结构预测,实际上就 是利用序列之间的同源性进行分析的,对未知蛋白质的结构特征的分析源于对已知结构 的蛋白质的了解基础上。 基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避 表1 1 两条序列片段的打点矩阵,矩阵元素由8 l u s u u 6 2 ( 3 2 “矩阵给出。 crhekhdsrg h308018- 1- 102 f23- 1- 3313233 r3500202152 s- 1- 110010410 k3211511022 y2222223223 a012112211o v一1- 332233233 03,202106o- 21 m112- 2123- 113 免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息,这也是对 完全基于序列数据比对方法批评的主要原因。显然,如果能够利用结构数据,对于序列 比对无疑有很大帮助。不幸的是,弓大量的序列数据相比,实验测得的蛋白质三维结构 数据却非常少。在大多数情况下,并没有结构数据可以利用,只能依靠序列的相似性和 一些生物化学特性建立一个比较满意的多序列比对模型。 3 、蛋白质序列的关联分析 以上介绍的研究蛋白质序列方法基本上都是建立在统计理论的基础上。但是,由于 蛋白质二级结构组合模式的多样性和复杂性、以及统计理论本身的局限性利用统计方 法进行预渊必然在精度上受到一定的限制。 随着蛋白质序列研究的进一步深入,人们希望能够直接在蛋白质的- 级序列中寻找 关于结构和功能的信息。尽管到目前为止,仍然没有个十分完美的理论模型来描述蛋 白质序列的内在特征,但是现代科学的发展为解决这些问题提供了大量的必要工具、概 念和手段,为研究生物序列提供了强有力的支持。 蛋白质序列的关联分析正是在这样的背景下发展起来的。进行序列关联分析的方法 有很多,概括来说,比较常见的几种方法有功率谱分析 3 4 , 3 5 、关联函数方法 3 6 - 3 9 】、随机 行走方法【柏 ”、复杂性分析【4 2 书1 以及分形理论【4 6 舯肄。人们利用这些方法主要是为了研 究蛋白质序列中隐含的结构及功能信息。 ( 1 ) 功率谱分析。功率谱分析的方法主要用于探测蛋白质序列中的周期性特征,是 分析蛋白质序列的一种重要方法。例如,r a c k o v s k y 删s : 用功率谱的方法研究了 t i m b a r r e l 和i g - f u l d 类蛋白质,并发现了这两类蛋白质序列中存在着有关结构的特征。我 们利用功率谱分析的方法研究了不同结构类蛋白质氨基酸序列,发现各类蛋白质序列的 功率谱都有与其结构特征相对应的周期性。利用功率谱分析主要是为了分析序列内部的 周期性信号,对于那些序列内部周期性信息不明显的蛋白质,利用功率谱分析很显然存 在。定的局限性。 ( 2 ) 关联函数。关联函数分析方法主要是通过分析组成蛋白质的氨基酸之问的上下 文关系,探索氨基酸之间或氨基酸片段之间在蛋白质序列组成上的关系。例如, m a m a s a k h l i 曩o v 【柙】利用关联函数的方法蛋白质中氨基酸单体的关联性质,结合平均场方 法,发现在随机氨基酸序列和天然蛋白质序列之间存在着一个无限高的能量势垒。从而 说明天然态在动力学上是不可能从随机序列得到的,天然序列和随机序列之问存在一。定 的差异。年用关联函数方法可以在一定程度上说明序列片段之间的关系和序列的组成特 点,它的主要缺点是需要选择一个较好的角度去描述关联性质,并且对某些蛋白质合适 的角度并不一定适合分析其它的蛋白质。 ( 3 ) 随机行走。随机行走理论认为氨基酸上下文关系是独立的,从而根据真实的蛋 白质序列与随机序列之间的关系研究蛋白质序列是否随机序列。p a n d e 4 1 1 利用随机行走 的方法研究了蛋白质序列,认为蛋白质序列与随机序列之间有非常明显的差异。 ( 4 ) 复杂性分析。复杂性分析方法是根据蛋白质中氨基酸组成的复杂性所导致的不 同区域有不同的结构特征。通过计算蛋白质序列的局部复杂度来研究蛋白质中不同位置 的二级结构特点或整体结构特点。利用复杂性分析蛋白质序列一般有两种方法,即计算 局部复杂度和全局复杂度。t n a n d i 【4 乳等利用复杂性分析了一系列的蛋白质的全局复杂 度,发现高复杂性的蛋白质通常具有球状结构,而低复杂性的蛋白质一般不具有球状结 构。我们曾改进了复杂度的计算方法,并计算了蛋白质序列的局部复杂度,发现二级结 构的i o o p 区域与复杂度的极大值有很好的对应关系。利用这种方法不能详细描述序列的 结构特点,判断二级结构的标准也需要做进一步的分析,另外一个缺点是只能判断很少 的二级结构模式。 ( 5 ) 分形理论。分形理论最初是用于分析d n a 序列的结构特征,后来应用于蛋白质 序列分析。主要用来研究序列的自相似性特征,通过计算序列的分维来描述序列的特点。 z gy u 删等利用分形理论计算了组直接从完整基因序列翻译过来的蛋白质序列,发现 蛋白质序列和随机序列有明显的不同。很显然只能在定范围内定性地描述蛋白质序列 的组成特征,而不能对序列的结构和功能进行比较详细的阐述。 研究蛋白质序列的方法还有很多,几乎所有的基于氨基酸序列进行分析的方法都希 望解析出序列中隐含的结构或功能特征 5 0 - 5 6 】。尽管这些方法在分析序列特征方法起到重 要的作用,但是到目前为止,尚未找到一种普遍适用的、可以直接从序列中得到高级结 构的方法。因此,从氨基酸序列中直接得到蛋白质的高级结构仍然是个尚未解决的问 题。在本文中我们利用非线性预测的方法分析了几类蛋白质序列,得到了一些较好的结 果,这可能为人们研究蛋白质序列的特性提供种新的思路。 1 3d n a 序列研究 d n a 序列分析也是生物序列研究的一个重要课题。到目前为止,在g e n e b a n k 5 7 ,5 8 1 中d n a 序列的数日已经达到5 3 5 万条,在这庞大的数据库里包含着生物体的各种信息。 要对生命有一个更加深刻的理解,就必须对这些数据库进行详细的分析。阏此,寻找 d n a 的。1 级结构中所包含的各种信息就成为d n a 序列研究的一个重要组成部分。 d n a 分子携带着两种不同的遗传信息:一。类是负责合成氨基酸的信息,是以三联 体密码子的方式编码氨基酸的,即编码区( 包括内含子和外显子) 。编码区除了包括编码 蛋白质的核酸序列外,还包括调控基因、起始密码子、终止密码子等;另一类是可能携 带基因选择性表达的信息,称为非编码区( 包括重复序列和调控序列等等) 。在人类基因 组i _ _ 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论