




已阅读5页,还剩54页未读, 继续免费阅读
(理论物理专业论文)基于小波方法的蛋白质结构预测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 f i 蛋白质折叠问题是当今生物物理研究的重要课题,自从著名的a n f i n s 牛胰核糖 核酸蘸的复性实验以来,人们普遍认为:蛋白质的三级结构唯一地由其氨基酸序列决 定。因此,从蛋白质序列中提取结构信息是一个非常重要的课题。 由于实验方法所限,目前已获得的结构数量与已知蛋白质序列数量相差很大,且 这一差距越来越大,因此发展一种不依赖于实验而又有一定准确性的理论预测方法是 分子生物学领域的一个目标。从6 0 年代中期以来,科学工作者从蛋自质序列入手,在 结构分析方面做了大量的工作,并得出了许多重要的结论。但是这些方法主要侧重予 同源蛋白质的预测,对于非同源蛋白质的预测很少,而且预测精度很低。我们采用小 波分析的方法,从蛋白质氨基酸序列入手,来提取蛋白质的高级结构特征信息。 蛋白质的空间结构可以分为不同的层次:一级结构、二级结构、超二级结构、结 构域、三级结构。因此,蛋白质序列编码蛋白质空间结构的信息也应该是多层次的。 对于多层次信息的分析,小波分析中的多分辨率特点对于提取不同层次结构信息显然 、 是最适宜的。i 本文的工作主要分为以下三个方面: 1 在小尺度下,用小波方法对提取氨基酸疏水值序列结构信息,然后进行功率谱 分析。结果表明,各类蛋白质序列的功率谱都有着与其结构特征相对应的周期性。 2 在中尺度下,预测蛋白质非规则二级结构。结果表明,用连续小波的方法预测 非同源蛋白质的非规则二级结构有很好的准确率。 3 在大尺度下,对氨基酸疏水值序列做连续小波变换,发现结构域交界处正好对 应于连续小波变换系数的极值点。 关键词: 蛋白质氨基酸序列蛋白质结构强 q 类序列分析功率谱小波分析 华中科技大学硕士学位论文 a b s t i a c t p r o t o nf o l d i n gp r o b l e mi sa l li m p o r t a n tp r o b l e mi nb i o p h y s i c a lr e s e a r c ht o d a y s i n c e t h ea n f i 瑚饥se x p e r i m e n t ,i th a sb e e nw i d e l yb e l i e v e dt h a tt h e s e c o n d a r ya n dt e r t i a r y 。 s t r u c t u r eo fap r o t e i ni s ,d e t e r m i n e ds o l e l yb yt h ea m i n o a c i ds e q u e n c ei n f o r m a t i o n t h u s e x t r a c t i n gt h e i n f o r m a t i o no f s t r u c t u r ei sag r e a t i m p o r t a n ts u b j e c ti nb i o i n f o r m a t i c s d u et ot h el i m i t a t i o no ft h em e t h o d so f e x p e r i m e n t , t h ed i f f e r e n c eb e t w c o nt h en u m b e r o f p r o t e i n sw i t hk n o w nt e r t i a r ys t r u c t u r e sa n d t h a to f p r o t e i ns e q u e n c e si s 衄o r i n o u sa n d w i l lb ee n l a r g e d s ow e h o p et od e v e l o pat h e o r e t i c a lm e t h o dt h a tc o u l db ei n d e p e n d e n to f e x p e r i m e n t a n d p r e d i c t t h es t r u c t u r eo f a p r o t e i na c c u r a t e l y f r o mt h em i d1 9 6 0 s ,s c i e n t i s t s h a v ed o n el o t so f w o r k so nt h ep r e d i c t i o no f t h e p r o t e i ns t r u c t u r e sf r o m t h e i rs e q u e n c e sa n d t h e yg o tm a n y u s e f u lc o n c l u s i o n s h o w e v e r , t h e i rw o r k sw o r em a i n l yc o n c e n t r a t e do nt h e h o m o g e n e o u sp r o t e i n sa n dl i t t l e h a sb e e nd o n eo nt h en o n - h o m o g e n o u sp r o t e i n s i no u r w o r k ,w e 仃yt ou s ew a v e l e ta n a l y s i st oe x t r a c tt h ei n f o r m a t i o no fs e c o n d a r ya n dt e r t i a r y s t r u c t u r 酷j u s tf r o m t h ea m i n o - a c i d s e q u e n c e s t h es p a t i a ls t r u c t u r e so fap r o t e i nc o u l db ed i v i d e di n t ov a r i o u s l e v e l s :p r i m a r y s t r u c t u r e ,s e c o n d a r ys t r u c t u r e ,d o m a i n ,t e r t i a r ys t r u c t u r e t h u st h es p a t i a li n f o r m a t i o no fa p r o t e i ne n c o d e d i ni t ss e q u e n c es h o u l da l s ob eo f m u l t i l e v e l s i nt h i sp a p e r , w eh a v eu s e dt h ew a v e l e ta n a l y s i st oe x t r a c tt h es t r u c t u r a li n f u r m a t i o n f r o mt h ea n l i n o - a c i ds e q u e n c e s m yw o r kf o c u s e do nt h r e e p a r t s : 1 a ts m a l ls c a l e ,w ee x w a c tt h es u u c t u r a li n f o r m a t i o no f p r o t e i ns e q u e n c e so f d i f f ( 弛n t t y p e s f i r s t l y , a n d t h e n a n a l y z e t h ec o r r e l a t i v e p r o p e r t y o f p r o t e i ns e q u e n c e s b y u s i n g t h e m e t h o do fp s d t h er e s u l ti n d i c a t e dt h a tt h ep s do fe a c ht y p eh a si t so w n p 矗o d w h i c h c o r r e s p o n d s t oi t ss t r u c t u r a lt y p e i r 2 a tm i d d l es c a l e , w ep r e d i c tt h en o n r e g u l a rs e c o n d a r ys t r u c t u r e sb y u s i n gc o n t i n u o u s w a v e l e ta n a l y s i s t h er e s u l t sh a v es h o w nt h a tt h en o n r c g u l a rs e c o n d a r ys ( r u c 懈o f 华中科技大学硕士学位论文 n o n - h o m o g e n o u sp r o t e i n sc o u l d b e p r e d i c t e da c c u r a t e l y i nt h i s w a y 3 a tl a r g es c a l e w ea n a l y z e dt h e8 m i n o a c i ds e q u e n c e so f p r o t e i n s 、撕t l lc o n t i n u o u s w a v e l e ta n a l y s i sa n df o u n dt h a t c o n j u n c t i o n s o fd o m a i n s c o r r e s p o n d st oe x 呦e so f c o n t i n u o u sw a v e l e tc o c 伍c i c t u s k e y w o r d s 触a c i d s e q u 衄c eo fp r o t e i np r o t e i ns t r u c t u r e s 锄c t u r a lc l a s s s e q u e n c e a n a l y s i s p o w e r s p e c t r u md 翻n s i i y ( p s d ) w a v e l e t a n a l y s i s m 华中科技大学硕士学位论文 1综述 科学的发展日新月异,生物科学进入了一个快速发展的新时期,人们预言,2 l 世纪将是生命科学的世纪。生物学中最重要的研究领域是对核酸和蛋白质的研究,这 是因为生物体的重要组成物质是蛋白质和核酸。脱氧核糖核酸( d n a ) 是遗传信息的 载体,但是遗传信息的复制、转录和表达则要依靠各种蛋白质才能够完成。蛋白质在 整个生命过程中起着重要的作用,所以研究蛋白质的功能和结构有很重要的意义。 1 1 蛋白质的在人体内的重要作用 生命最基本的特性是能够进行新陈代谢和自我复制。活的有机体从环境中得到物 质和能量,用以本身的繁殖,并能发生传给后代的永久性变化。对这一生命的重要过 程来说,脱氧核糖核酸所起的作用当然是第一位的,它是基因的载体。但是,蛋白质 也是极为重要的,没有各种蛋白质的作用,d n a 的复制,信息的转录,遗传密码的 翻译都无从谈起。 众所周知,d n a 大分子是由糖,磷酸基团交替组成的长链,碱基连在糖环上, 是两条互绕的双螺旋。d n a 的复制首先是两股链分开,然后以每股单链为模版,依 碱基配对的原理形成新链,这样产生了与原来完全相同的双螺旋。d n a 分子并不直 接支配蛋白质的生物合成,d n a 分子的遗传信息要转录到信使r n a 分子上,信使 r n a 成为蛋白质合成的直接模板。每一种氨基酸都分别结合于转移到r n a 分子上, 一个转移r n a 只能结合一个特定的氨基酸,此转移r n a 携带氨基酸在核糖体上进行 蛋白质的生物合成。可以说,上述不管那一步都离不开蛋白质的作用。 生物体内蛋白质的种类繁多,分布极其广泛,所担任的任务也是多种多样的。除 了上述过程涉及蛋白质外,构成生物体新陈代谢的几乎全部的化学过程都在活性蛋白 质一酶的催化下进行的。此外,高等动物的免疫反应,也主要是通过蛋白质来完成的。 华中科技大学硕士学位论文 运动时的肌肉收缩,氧气的运送都是靠蛋白质来实现的;结缔、皮肤、毛发也都是由 蛋白质组成的。最近生分子物学研究表明,在细胞膜的通透性、高等动物的记忆活动 等方面,蛋白质都起着重要的作用。基于上述,有人把核酸称为“遗传大分子”,而 把蛋白质称为“功能大分子”【1 。 1 2 蛋白质的结构 根据目前我们对蛋白质化学和蛋白质合成的了解,可以把蛋白质成分分成两大 类。第一类是以肽键形式存在于蛋白质中的氨基酸。这类包括二十种现在认为有确定 遗传密码的氨基酸和以及由特殊反应产生的氨基酸。蛋白质的第二类成分是各种非氨 基酸物质,它们与蛋白质的结合可能是共价键结合,也可能是通过强的非共价键结合。 含有这类物质的蛋白质叫结合蛋白质。水解后仅得到氨基酸的蛋白质叫简单蛋白质。 在本文中,我们只讨论简单蛋白质。 氨基酸是蛋白质的基本组成单位。氨基酸是带有氨基的有机酸,它由一个氨基, 一个羧基,一个氢原子和一个r 集团组成,r 集团通常是氨基酸的侧链。如图1 1 所 示。 h l r c o o l n h 图i - i 氨基酸的化学结构式 这二十种氨基酸其侧链在大小、形状、电荷、形成氢键的能力和化学活性方面都 存在着差异。蛋白质实现的功能范围之所以如此强大,就是因为这二十种氨基酸的差 异以及它们各种组合变化的结果。 当蛋白质合成时,一个氨基酸的口氨基和另外一个氨基的口羧基通过缩去一个水 华中科技大学硕士学位论文 分子连接起来成为酰氨键,通常称为肽键,如图1 2 所示。很多氨基酸由肽键相连形 成一个多肽链,它是一个没有分支的结构。在多肽中一个氨基酸单位称为一个残基。 n 司+ 囤一至一 苫一c _ 。+ h 。 r c o 一+ h 2 0 图i - 2 肽键的形成 一个伸展的或随机的肽链没有任何生物活性,肽链必须按照一定的规律折叠成三 维结构,才具有生物活性。生物功能来自于构象,构象指的是原子在一个分子结构中 的三维捧布方式。氨基酸序列的重要性在于不同的氨基酸序列规定了蛋白质的不同构 象。 蛋白质的结构很早就受到了许多科学家的关注,人们提出了多种假说,但是一直 没有一个令人满意的理论。直到1 9 5 2 年丹麦生物化学家l i n d e r s t r o m - l a n g 第一次提 出蛋白质三级结构的概念,才使蛋白质结构的研究上走上了正确的道路。 l i n d e r s a o m - l a n g 的三级结构的概念是:一级结构( p r i m a r ys t r u c t u r e ) 是指多肽链中 氨基酸的一定顺序,靠共价键维持多肽链的连接,而不涉及其空间结构;二级结构 ( s e c o n d a r ys t r u c t u r e ) ,指多肽链骨架的局部空间结构,不考虑侧链的构想及整个肽链 的空间捧列;三级结构( t e r t i a r ys t r u c t u r e ) 煲1 是指整个肽链的折叠情况,包括侧链的捧 列,也就是蛋白质分子的空间结构或者三维结构。1 9 5 8 年,英国的晶体学家b e r n a l 在研究晶体结构时,发现并非所有的蛋白质结构仅限于三级结构水平,有些蛋白质有 h c r n ,h 3 h + 华中科技大学硕士学位论文 更复杂的结构,即由几个组成蛋白质的相同或不同的亚基组合成几何形状,并靠非共 价键结合在一起,他将这种结构称之为四级结构( q u a t e r n a r ys t r u c t u r e ) 。近年来,蛋 白质化学家又在四级结构上增添了两种新的结构层次,既超二级结构( s u p e r s e c o n d a r y s t r u c t u r e ) 和结构域( s t r u c t u r ed o m a i n ) 。超二级结构是指几种二级结构的组合物存在于 各种结构中。结构域是指蛋白质分子中那些明显分开的球状部分( 2 】。图3 - 6 给出了各 种结构的示意图: 圈1 - 5 蛋白质三缓结构图1 - 6 蛋白质四级结构 研究蛋白质的功能需要深入地了解它们的结构,特别是它们的空间结构,因为结 构决定功能。生命的功能和它的结构,二者是统一的。有什么样的结构必定有什么样 4 华中科技大学硕士学位论文 的功能,反之亦然。在实际应用中,许多蛋白质( 如病毒) 是药物作用的对象,对蛋 白质的三维结构的精确了解已经使得基于蛋白质或者d n a 结构之上的药物设计成为 可能 3 】。可见,探讨蛋白质的结构问题是非常有必要的。 1 3 蛋白质序列和结构的关系 蛋白质的三维结构唯一地决定于其氨基酸序列,这就是蛋白质折叠的自发性。这 一结论最直接最有力的证据是蛋白质的可逆变性实验,特别是六十年代w h i t e 和 a n f l n s e n 进行的牛胰核糖核酸酶( r n a s e ) 复性的经典实验【4 】。当天然的r r l a s c 在 8 m o l l 的尿素环境用口疏基乙醇处理后,分子内的四个硫键既被打开,整个肽链伸 展而成无规卷曲,同时酶的活性完全丧失。但是当用透析方法将尿素和疏基乙醇除去 后,r n a s e 的活性又可逐渐恢复,最后达到原来活性的9 5 1 0 0 。经过多方面的分析 表明复性后的产物的结构与天然的r n a s c 并无区别所以正确的二硫键都获得重建。可 以肯定的说,蛋白质的三维构象归根结底是由一级序列决定的。 我们知道,两个氨基酸经过缩合形成肽键,肽链就是靠肽键连接在一起的氨基酸 链。沿着n - c c 链的部分称之为主链。图1 7 中标注的符号,m 是绕主链麸价键旋 转的旋转角度,它们的值决定于主链的三维结构。蛋白质的三维结构是主链二面角 ,妒,a 的函数【5 】。一旦这些角度确定了,蛋白质的结构也就确定下来了。 除了单键旋转外,肽键内部的一些原子和基团间的相互作用也是蛋白质产生和稳 定高级结构的一个重要原因。现在知道,维持和稳定蛋白质分子三级结构的作用力有: 静电作用【6 】,氢键,疏水作用【7 】,范德瓦耳斯力,离子键、二硫键和配位键。这些 作用力单独存在时,与共价键相比,虽然较微弱,但是它们累加在一起时却相当强大。 华中科技大学硕士学位论文 c + 。 图i 一7 肽链中口碳原子和肚平面同的两面角 在核蛋白合成蛋白质分子时,是从n 端开始逐个加上序列上的氨基酸分子的,这 样合成的是一线性的具有开放构象的多肽链,它是如何转变成蛋白质分子独特的三级 结构昵 8 1 7 这就是蛋白质折叠问题。 人类了解蛋白质折叠的过程已经有六七十年的时间了【9 】。早在1 9 0 2 年e m i l 和 f r a n z h o f i m e i s t e r 各自独立地总结出蛋白质是共价接连的氨基酸链【1 0 】。但是,蛋白质 的溶解条件限制了对蛋白质结构和构象变化的更深一层的理解。1 9 1 1 年,c h i c k 和 m a r t i n 首次发现了蛋白质的变性并将它与聚合过程分开来 1 1 1 。到1 9 2 5 年。变性过程 被认为或者是肽链的水解 1 2 - 1 3 ,或者是蛋白质的脱水作用 1 4 1 。蛋白质的交性是一 个逆折叠,这一观点是由吴宪提出来的。他认为天然蛋白质是有规律的重复的链折叠 成或多或少能成为晶体的三维网格并且由非共价结合在一起的 1 5 ,1 6 1 。 在过去的二三十年中,科学工作者已经通过不同的途径对蛋白质折叠做了大量的 研究,包括二级结构的预测、能量最小原理、分子动力学方法和最近的模式识别技术 和基于知识的方法。已经发现了大量的蛋白质折叠规律,但是仍然不能在手边没有相 关结构的情况下从氨基酸序列直接计算出它的三维结构 1 7 】。 随着分子生物学的发展和基因克隆技术、蛋白质化学技术的进步,许多蛋白质的 序列已经被测出来了,结构数目的增长虽然也很快,但是还是远远慢于序列数目的增 6 华中科技大学硕士学位论文 长,p d b ( p r o t e i n d a t a b 锄k ) 收集了国际上通过x 射线结晶( x - r a y c r y s t a l l o g r a p h i c ) 和 核磁共振( n m r ) 等实验方法测得的蛋白质分子结构,到2 0 0 1 年1 0 月1 日,共收 集了1 3 2 7 0 个,但是现在已知的序列数目至少是结构数目的5 0 倍。虽然蛋白质序列 繁多,按其三维结构,蛋白质可归属于不同的折叠类型( f o l d s ) ,这样的折叠类型数 目是有限的,估计有5 0 0 7 0 0 个左右 1 8 2 2 1 。在每一折叠类型中,各成员蛋白质的三 维结构很相似。但是,序列之间也可能很相似,也可能不相似。根据s c a l l d e r 和s c h n e i d e r 等的发现,通常氨基酸的相似性超过3 0 蛋白质就会采取相似的折叠结构,在目前已 知的蛋白质序列中至少有四分之一属于某一蛋白质折叠类型【2 3 】。那么,就可以通过 x 射线衍射、核磁共振等方法将每种结构类的结构测出,这种结构又可以作为其它序 列的样本结构。如此,对蛋白质的折叠问题的研究就会转向问题的另一方面对序 列的分析 2 4 】,即从蛋白质的序列中提取结构信息。 1 4 蛋白质氨基酸序列分析的现状 蛋白质的一级结构所包含的信息足以决定它的三维结构,那么,从信息论的角度 来看,蛋白质折叠可以认为是序列信息转变为三维结构信息的传递过程,这样的话, 有多少信息由序列传递到结构呢? 1 9 9 6 年b o n n i e j s t r a i ta n dt g r e g o r yd e w e y 2 5 考 察了两个有代表性的序列组( 其中一组含有1 9 0 个蛋白质序列,另一组含有1 5 5 个蛋 白质序列) ,利用s h a n n o n 信息熵 2 6 ,2 7 ,通过k - t u p l e t 分析方法【2 8 】、广义z i p f 分 析法 2 9 1 和c h o u - f a s m a ng a m b l e f a n g f 方法 3 0 ,3 1 估算了s h a n n o n 信息熵,得到了一些 蛋白质序列和结构的规律: l 、如果前面的六个残基是属于口螺旋的,那么接下来的氨基酸必定也是属于口螺 旋的。但是,如果紧接着的氨基酸是破坏口螺旋链并且不处于口螺旋态的话,口螺旋 就会断裂。再者,脯氨酸不能够出现在螺旋内部c 端末。 2 、如果前面的五个残基中三个属于折叠的,接下来的残基被认为是属于声折 华中科技大学硕士学位论文 叠的。但是如果紧接着的氨基酸是破坏卢折叠链并且不处于卢折叠状态的话,折叠片 段就会终止。 3 、当氨基酸前面有三个或更多的卢回折,它也是卢回折。 疏水相互作用被广泛的认为在蛋白质三级结构的形成中起中心作用,因此,蛋白 质的疏水统计分布受到了极大的关注,并且做了大量的工作,取得了许多有意义的结 果。 1 9 9 0 年s h w h i t e & r e j a c o b s 3 2 用二值疏水度( 即疏水残基设为l ,将非疏水 残基设为0 ) 来考虑蛋白质链中疏水残基的分布。在标准运动检测( r u nt e s t ) 处理得 到二进制氨基酸序列后发现,大多数被检测序列的疏水残基分布不能与完全随机序列 得到的结果区分开来。 1 9 9 2 年e l s h a k h n o v i c h a m g u t i n 3 3 1 建立了一个3 3 3 的立体晶格模型,这 种模型有足够多的各不相同、互相关联的紧凑构象( 1 0 3 3 4 6 个) ,他们比较随机选择 的序列和有良好的折叠性的特殊序列,统计上表明两者并没有任何区别。这些似乎说 明蛋白质序列是一种随机序列,蛋白质能够折叠成天然构象尽限于少数特殊的序列。 但是,1 9 9 4 年,v s p a n d e ,a yg m s b e r g , & t t a n a k a 3 4 用与体积最有关的三种 相互作用【3 4 】库仑相互作用、疏水相互作用、氢键来映射蛋白质序列,将蛋白质映 射成为一维随机行走的轨迹。他们发现这些轨迹与纯粹随机序列有着重大的区别。 1 9 9 5 年,a n d e ri r b a e k 3 6 等建立了一个两维的只有两种“氨基酸”( 琉水和亲水) 的晶格模型,数值模拟了某个固定温度时所有可能的链( 8 个或1 0 个单体) 发现,只 有少数比较容易折叠至热力学稳态。 1 9 9 6 年,f p o t t h a s t 3 7 等又用v s p a n d c ,a yg r o s t m g , & t - t a n a k a 所映射的序列 考虑随机行走,首先生成块变量,考虑块变量怎样依赖块的大小,当应用于 s w i s s - p r o t 功能蛋白数据时【3 8 】,表现出非常明显的非随机性。然后做傅立叶变换, 发现口螺旋结构对应的波长有非随机行为。 最引人注目的是由j o l l nm o u l t 在1 9 9 4 年发起的c a s p ( c r i t i c a l 知嘲即t 华中科技大学硕士学位论文 s t m c t u r vp r e d i c t i o n ) 计划【3 9 】。每两年,蛋白质结构预测委员会便召开一次c a s p 会议, 对一些序列已知但是不知道结构的蛋白质进行预测。在真实蛋白质三级结构正式测定 以前,要求预测机构提供他们的预测方法和结果,然后公布测定的蛋白质三级结构, 对预测精度予以评估。这种方法确保了在实验前没有任何人知道实验的结果。 c a s p 计划在预测中允许人们的干预,它的一个限制是评估计算机辅助结构预测 的表现,也就是说,c a s p 测量的是人类应用预测程序的能力而不是这些程序的本身。 然而对生物学家来说,评估全自动预测方法的表现是非常重要的。当生物学家瞄准了 预测蛋白质结构,他们希望的是那一个程序作的最好并不是那一组预测的最好。随着 基因组测序计划的到来人们越来越希望能够有一套全自动的结构预测方案。几年前, 自动预测工具或者是不存在,或者是非常不准确。但是随着蛋白质结构预测的进展, 一系列自动预测工具已经向人们展示了在许多情况下自动预测能产生许多有价值的 结果。因此,c a f a s p ( c f i f i c a l a s s e s s m e n t o f f u l l y a u t o m a t e ds t r u c t u r e p r e d i c t i o n ) 【加】 应运而生。 1 5 我们的工作 小波分析有多分辨率特点,在不同尺度下能够探测到信号的不同特征信息。我们 的工作是以下几个方面: 1 用小波提取不同结构类蛋白质氨基酸序列的特征信息,然后再做傅立叶变换, 结果表明各类蛋白质结构序列的功率谱都有着与其结构相对应的周期性。 2 在中尺度下利用小波方法进行蛋白质非规则二级结构预测,平均预测准确率为 7 6 1 8 ,在此我们只考虑疏水性,结果表明疏水性在蛋白质结构形成中起到了关键性 的作用。 3 在大尺度下对氨基酸疏水值序列进行分析,发现结构域交接处正好对应于氨基 酸疏水值序列的连续小波变换的极值点。 华中科技大学硕士学位论文 2 方法 传统的信号分析是建立在傅立叶( f o u r i e r ) 变换的基础之上的,由于傅立叶分析 使用的是一种全局的变换,要么完全在时域,要么完全在频域,因此无法表述信号 的时频局域特征,而这种性质恰恰是非平稳信号最根本和最关键的性质为了分析 和处理非平稳信号,人们对傅立叶分析进行了推广,提出了短时傅立叶变换等理论。 短时傅立叶变换分析的基本思想是:假定非平稳信号在分析窗函数g o ) 的一个段时 间间隔内是平稳的,并移动分析窗函数使厂( f ) g ( f r ) 在不同的有限时间宽度内是平 稳信号,从而计算出各个不同时刻的功率谱但从本质上讲,短时傅立叶变换是一 种单一分辨率的信号分析方法,因为它使用了一个固定的短时窗函数因而短时傅 立叶变换在信号分析上还是存在着不可逾越的缺陷。 小波变换是一种信号的时间一尺度( 时间一频率) 分析方法,它具有多分辨率分 析( m u l t i r e s o l u t i o na n a l y s i s ) 的特点,而且在时频两域都具有表征信号局部特征的 能力,是一种窗口大小固定不变但其形状可以改变,时间窗口和频率窗口都可以改变 的时频局部化分析方法。即在低频部分具有较高的时间分辨率和较低的频率分辨率, 在高频部分具有较高的频率分辨率和较低的时间分辨率。小波变换的这一特征,很适 合于分析蛋白质氨基酸序列在折叠过程中不同层次的结构特征。既用小波变换的高 频部分来分析蛋白质的规则二级结构特征,用中频部分来预测蛋白质非规则二级结 构特征,用低频部分来分析蛋白质的结构域特征。正是这种特性,使小波变换具有对 信号的自适应性,从而可以“变焦距”地观测氨基酸序列的信息 4 1 我希望通过小波变换在序列和结构之间建立一座桥梁,从而由序列信息预测其高 级结构信息。 2 1 连续小波变换 华中科技大学硕士学位论文 设甲( f ) e r 似) ,其傅立叶变换为甲如) ,当甲0 ) 满足允许条件( 完全重构条件) c ,:皆2 虮m ( 2 - 1 ) 时,我们称甲o ) 为一个基本小波或母小波( m o t h e rw a v e l e t ) 将母函数甲( f ) 经伸缩 和平移后得 e 一( f ) 5 丽1 甲、t - _ 口_ b b 口,b r ;口0( 2 - 2 ) 称其为一个小波序列其中口为伸缩因子( 尺度) ,b 为平移因子小波基函数的尺度 口和平移因子b 均可连续变化,因此,小波基函数形成一组非正交的连续的完全集。 尺度的倒数二对应着频率街,即尺度越小,对应频率越高:尺度越大,对应的频 率越低 对于任意的函数,o ) r ( r ) 的连续小波变换为 ( 口,6 ) _ ( ,凡) 斗i 2 厂( f 归( 警卜 ( 2 - 3 ) 其重构公式( 逆变换) 为 九) = 去古g ,a 归( 字 出如 c z 删 由于基小波甲( f ) 生成的小波甲。o ) 在小波变换中对被分析的信号起着观测窗的 作用,所以、l ,( f ) 还应满足一般函数的约束条件 l 出 m ( 2 - 5 ) 故巾如) 是一个连续函数这意味着,为了满足允许条件式( 1 ) ,巾如) 在原点必须等 于0 ,即 华中科技大学硕士学位论文 中( o ) = 甲( f ) 出= o 为了使信号重构的实现在数值上是稳定的 甲( f ) 的傅立叶变换满足下面的稳定性条件: j 妻l 阜( 2 】2 b 式中0 i 华中科技大学硕士学位论文 故对应的离散小波函数一。o ) 即可写作 “d s k m ”呵半 = a f f j 2 w ( a i s t - k b o ) s , 而离散化的小波变换系数则可表示为 c s 广厂( f m 。( f 如= ( 厂,。 ( 2 - 9 ) 其重构公式为 ,( f ) = c 0 。r j 。o ) ( 2 一i o ) c 是一个与信号无关的常数 为了使小波变换具有可变化的时间和频率分辨率,适应待分析信号的非平稳性, 自然要改变a 和b 的大小,以使小波变换具有“变焦距”的功能换言之,在实际中 采用的是动态的采样网格最常用的是二进制的动态采样网格,即a 。= 2 ,b 。= i ,每 个网格对应的尺度为2 ,而平移为2 s 因此得到的小波 一,。( f ) = 2 - j z 甲( 2 一,f k ) j ,k z ( 2 一i i ) 称为二迸小波( d y a d i cw a v e l e t ) 二进小波对信号的分析具有变焦距的作用假定有一放大倍数2 ,它对应为观 测到的信号的某部分内容如果想进一步观看信号更小的细节,就需增大 放大倍数即减小_ ,的值:反之,若想了解信号更粗的内容,则可减小放大倍数,即加 大的值在这个意义上,小波被称为数学显微镜在姒t l a b 中可用d w t 实现一维连 续小波变换 对任意函数厂( f ) l 2 似) ,其二进小波变换为 , ) = ( 厂o ) , - i s :,忙= 了: 了l 厂( f 归+ ( 2 - s t - 七) 疵( 2 - i z ) 华中科技大学硕士学位论文 其逆变换为 ,( f ) = c z z w , ,厂任) + t ,( f ) = c f ,厂( 七心,( 2 。f 一七) 蕊 ( 2 1 3 ) e :io 二进小波不同于连续小波的离散小波,它只是对尺度参数进行了离散化,而对 时间域上的平移参量保持连续变化,因此二进小波不破坏信号在时间域上的平移不 变量,这也正是它同正交小波机制相比所具有的独特优点 2 3 多分辨率分析 首先,定义尺度函数和尺度空间设函数中( f ) er 忸) 为尺度( s c a l ef u n c t i o n ) 若其整数平移系列吼( f ) = 嘶一七) 满足 ( i ( f ) ,m 。( f = 8 1 1 ( 2 1 4 ) 则定义由o 。o ) 在三2 伙) 空间张成的闭子空间为v o ,称为零尺度空间: = 面翮,i z ( 2 1 5 ) t 设尺度函数嘶) 在平移的同时又进行了尺度的伸缩,便可得到一个尺度和位移均可 变化的函数集合: 。仆o ) = 2 一7 2 m ( 2 一j t 一七) = 中。( 2 一,f ) ( 2 1 6 ) 则称每一个固定尺度- ,上的平移系列。( 2 一,r ) 所张成的空间巧为尺度为, 的尺度空间: _ = 面翮( 2 - 1 7 ) 多分辨率分析是指满足下述性质的一系列闭子空间 ,z : 1 ) 一致单调性:c 吒c _ c c n i c ( 2 1 8 ) 华中科技大学硕士学位论文 2 ) 将近完全性: n 巧= o ;u 巧= 上2 陋) ( 2 一1 9 ) 如z 。,z 。 3 ) 伸缩规则性: 厂( r ) 铮,( 2 ,r ) e , _ ,z( 2 2 0 ) 4 ) 平移不变性: ,( f ) j ,( f n ) ,z( 2 2 1 ) 5 ) 正交基存在性: 存在,使得 嘶一n ) 。是正交基,即 = 币碱硼,l o o 一万油( f m = 氏,( 2 - 2 2 ) 由上述定义可知,多分辨率分析的系列尺度空间是由同一尺度函数在不同尺 度下张成的,也即一个多分辨率分析e j ,:对应一个尺度函数虽然有 些_ = r ( r ) ,但由式( 1 7 ) 知,以t :空间相互包含,不具有正交性因此它们的基 中,( ,) = 2 。心中( 2 一f 一七) 在不同尺度下不具有正交性也即诤m ( f n :。:不能作为 r 空间的正交基 为了寻找一组r 似) 空间的正交基,定义尺度空间的补空间如下: 设岷为在吒一。中的补空间( 如下图所示) ,即 一,= 吃。阡i ,降0 上吃( 2 - 2 3 ) 圈2 2 闭子空间以l z 相互包含关系 1 1 t2 3 小渡空同示意圈 显然,任意子空间呒与呒是相互正交的,并且既上既当朋n 和m , z 华中科技大学硕士学位论文 由式( 1 7 ) ,( 1 8 ) 知: 2 俅) = 是 ( 2 2 4 ) 因此,帆l 。:构成了r 伍) 的一系列正交子空间并且由( 2 2 ) 式得 = 巧一巧 ( 2 2 5 ) 由( 1 9 ) 式得 s ( d w o ,( 2 一,) w j ( 2 2 6 ) 若设 t ;七z 为空间w o 的一组正交基( 的正交基可能有许多,在此取其中一组 来讨论并假设、l ,( f ) 满足式( 1 ) 允许条件) ,由式( 2 5 ) 对所有尺度_ ,z , h = 2 叫2 甲( 2 一j t 一七l 七z 必为空间的正交基,由此j 的整个集合 也 ;j e z ,七z 必构成r ( r ) 空间的一组正交基,相应的称是尺度为_ ,的小波空 间 由多分辨率分析的定义: = k o 暇= 匕。职o = 巧o o o 彬= 对任意函数,( f ) ,可将它分解为细节部分暇和大尺度逼近部分k ,然后将 大尺度逼近部分k 进一步分解如此重复就可以得到任意尺度上的逼近部分和细节 部分这就是多分辨率分析的框架,图2 4 可形象的解释这一点 下面讨论函数如何向尺度空间和小波空间投影的问题设( f ) 为函数,( f ) 向尺 度空间投影后所得到的,尺度下的概貌信号,则 ( r ) = c i 。( 2 + ,f ) = c 卅o ”( f ) ( 2 - 2 7 ) 其中 c 似= ( ,( ) ,中, 鼢 ( 2 2 8 ) 华中科技大学硕士学位论文 称为尺度展开系数 若将函数,( f ) 向不同尺度的小波空间投影,则可得到不同尺度下的细节信号 ( f ) 其中 ( r ) ;d 卅以( 2 1 ) = d 。( r ) 圈2 - 4 三层多分辨率分析树结构豳 d 卅= ( ,( f ) ,一j o 】 称为小波展开系数 若将,( f ) er ) 按以下组合空间展开: j r ( r ) = o 巧 ( 2 - 2 9 ) ( 2 - 3 0 ) ( 2 - 3 1 ) 华中科技大学硕士学位论文 其中,为任意设定的尺度,则 jo 丸) = d ,。甲坩o ) + c q 。( f ) ( 2 3 2 ) i i k r c ot i 嚼 正是基于小波的这种多分辨率的特点,我们才把它作为分析蛋白质不同层次结构 的首要工具。如上图所示,我们用正交的d b n ( 可以是其它的小波) 小波对蛋白质序 列做交换,提取其高频部分d l 。因为高频部分d 1 对应蛋白质的细节部分一二级结构 的特征,将高频部分重建,在做p s d 变换后便可以分析a ,口+ 的周期性特 征。 对中频部分,我们仍然可以用同样的方法来分析。不过,中频部分的信息对应非 规n - - 级结构的特征。非规n - - 级结构是蛋白质中无规则的区域,往往暴露在蛋白质 的表面。它不具有明显的周期,但我们可以用连续小波变换来预测非规则二级结构的 相对位置。 小波变换低频近似部分反映了蛋白质的高级结构结构域( d o m a i n ) 的基本特征。 即低频小波变换系数的极值点对应结构域的交界处。 2 4 符号序列的数值化 由于氨基酸序列是符号序列,要提取蛋白质结构信息,必须将氨基酸符号序列转 换成数值序列问题,也就是对氨基酸序列进行映射。由于氨基酸侧链不同,导致每种 氨基酸都有自身独特的物理、化学性质,由于反映氨基酸特性的物理量不一,所以映 射的方案也不一。目前理论界已经证明,蛋白质氨基酸的疏水值,侧链体积,极性, 电荷,可接触面积,分子重量,口倾向性,口倾向性,转变自由能等十种物理量能穷 尽其9 5 以上的性质。具体如表2 - 1 所示 4 4 。因此,我们分别将氨基酸序列映射成 以上各参量,其中疏水值是最为重要的,它在蛋白质的三级结构形成和稳定中的作用 华中科技大学硕士学位论文 位于诸多因素首位。 表2 - l :氨基酸特性值 氯基奠蘸水值 电荷1分子t 可接- 面积3体积 僖t 比春 a i a ( a ) 0 6 200 7 1 0 81 1 50 8 8 60 7 4 8 a r g ( m 1 3 71l - 5 6 2 02 2 51 7 3 4 o 6 6 6 a s h 0 0 - o 8 5o1 1 4 1 l1 6 01 1 7 70 6 1 9 a s p ( d ) 1 0 511 1 5 0 91 5 01 1 l l0 5 7 9 o y s ( c ) o 2 901 0 3 1 31 3 51 0 8 50 6 3 l g i n ( q ) - 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机械维修施工方案
- 包装设计毕业汇报
- 数据孪生的课件
- 数据培训课件
- 智能手机睡眠监测应用创新创业项目商业计划书
- 自动化排气系统装配创新创业项目商业计划书
- 园艺遮阳篷与凉亭创新创业项目商业计划书
- 展销活动策划方案模板
- 网上活动策划方案模板
- 减龄发型设计指南
- 发现普洱茶的第一个医学实验报告
- 全自动血液细胞分析仪参数
- (完整版)过去完成时ppt
- 1输变电工程施工质量验收统一表式(线路工程)
- 养老护理员(技师、高级技师)知识考试复习题库(含答案)
- 学校安全“日管控、周排查、月总结”工作制度
- 机械原理课程设计15吨压片机设计
- 2023年五四青年节演讲比赛PPT担负青年使命弘扬五四精神PPT课件(带内容)
- 2023年义务教育音乐2022版新课程标准考试测试题及答案
- 马工程《刑法学(下册)》教学课件 第17章 危害国家安全罪
- 2023年资产评估师《资产评估基础》题库附参考答案(基础题)
评论
0/150
提交评论