(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf_第1页
(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf_第2页
(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf_第3页
(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf_第4页
(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(生物物理学专业论文)小波变换在isochore边界识别中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 哺乳动物( 包括人类) 基因组的m o s a i c 结构,是在上个世纪七十年代中期分 析牛基因组密度梯度平衡离心实验结果得出的结论。b e m a r d ic ta l 研究发现人类 的基因组是由许多i s o c h o r c 构成的,i s o c h o r e 是较长的( 平均长度 3 0 0k b ) g c 含量相对均匀的d n a 片段,并且在不同的i s o c h o r e 家族中,基因的分布也是有 区别的。随着人类基因组测序工作的进展,对其结构的分析已经发展到序列水平。 本论文就是以张春霆教授提出的z 曲线理论为基础,结合小波变换多尺度分析 理论,来识别i s o c h o r c 边界。我们以人类组织相容性复合体( m h c ) 、2 l 和2 2 号染色体最长的c o n t i g 为研究对象。运用本算法识别出m t t c 序列中i s o c h o r e c l a s si i i 和i s o c h o r cc l a s s 的分界点位于2 , 4 9 0 ,3 6 8b p 处。该结果同实验数据吻 合得很好。同时该算法在2 1 号染色体中识别出一段长度大约是7m b 的基因和 a l u 含量都很少的i s o c h o r e ,。我们还发现2 l 号染色体的g c 含量比2 2 号染色体 g c 含量均匀得多。与滑动窗口算法相比较,本算法在识别i s o c h o r e 边界上可以 达到最高精度,即能够精确到单个碱基。与信息熵算法相比较,本算法更加直观 且具有较小的计算量。我们研究得到的一个重要结论就是在人类基因组中的确存 在一些分界点,在这些分界点的前后基因组的g c 含量发生了很大的变化。这些 “奇异点”都被认为是可能的i s o c h o r e 边界。本论文中提出的算法适用性广,可 以用来分析任何基因组。 此外,我还对完全测序细菌、古细菌的基因组中的短基因( 长度在9 0b d 和 3 0 0 b p 之间) 进行了初步分析,建立一个短基因的数据库。 关键词:人类基因组、z 曲线理论、小波多尺度分析、i s o c h o r e s 、分界点、短基 因 a b s t r a c t t h em o s a i c o r g a n i z a t i o n o fm a m m a l i a ng e n o m e s ( i n c l u d i n gh u m a nb e i n g ) c o m p o s e do fm a n yr e g i o n so f r a t h e rh o m o g e n e o u sg cc o n t e n tw a sr e v e a l e db yt h e u l t r a e e n t r i f u g a t i o ne x p e r i m e n t so fb u l kd n a i nt h em i d - 1 9 7 0 s t h e l o n gd n a s e g m e n t s ( 3 0 0k b ,o na v e r a g e ) o ff a i r l yh o m o g e n o u sg c c o n t e n t sl a t e l yw e r e g i v e nn a n l e i s o c h o r e a c c o r d i n gt ob e m a r d i sa n a l y s i s , t h eg e n ed i s t r i b u t i o n a l e r e l a t e dt oi s o c h o r e s n o w a d a y st h ea v a i l a b i l i t yo ft h eh u m a n g e n o m e d r a f ts e q u e n c e s o f f e r smu n p r e c e d e n t e d o p p o r t u n i t y t o e x p l o r e a n du n d e r s t a n dt h e g e n o m i c o r g a n i z a t i o n a tt h e s e q u e n c el e v e l i n c o r p o r a t e d w i t ht h ezc u r v em e t h o d t h e t e c h n i q u eo fw a v e l e tm u l t i r e s o l u t i o n ( a l s ok n o w nbm u l f i s e a l e ) a n a l y s i sh a sb e e n p r o p o s e dt oi d e n t i f yt h eb o u n d a r i e so fi s o c h o r e si nt h eh u m a ng e n o m e t h eh u m a n m h c s e q u e n c ea n d t h el o n g e s t c o n f i g so f h u m a n c h r o m o s o m e s2 1a n d2 2a r eu s e da s e x a m p l e s t h eb o u n d a r yb e t w e e nt h ei s o c h o r e so f c l a s s a n dc l a s si ii nt h em h c s e q u e n e eh a s b e e nd e t e c t e da n df o u n dt ob es i t u a t e da tt h e p o s i t i o n2 , 4 9 0 ,3 6 8b p t h i s r e s u l ti si ng o o da g r e e m e n tw i t ht h e e x p e r i m e n t a le v i d e n c e a ni s o c h o r e w i t ha l e n g t h o f a b o u t7m bi nc h r o m o s o m e2 1h a sb e e ni d e n t i f i e d ,a n df o u n dt ob eg e n e - a n da l u - p o o r w e h a v ea l s of o u n d 也a tt h eg cc o n t e n to f c h r o m o s o m e2 1i sm o r e h o m o g e n o u s t h a nt h a to fc h r o m o s o m e2 2 c o m p a r e dw i t ht h ew i n d o w - b a s e d m e t h o d s ,t h ep r e s e n t m e t h o dh a st h eh i g h e s tr e s o l u t i o nf o ri d e n t i f y i n gt h eb o u n d a r i e so f i s o e h o r e s ,e v e na t as c a l eo f s i n g l eb a s e c o m p a r e dw i t ht h ee n t r o p i cs e g m e n t a t i o nm e t h o d ,t h ep r e s e n t m e t h o dh a st h em e r i t so fm o r ei n t u i t i v e n e s sa n d1 e s sc a l c u l a t i o i l s t h ei m p o r t a n t c o n c l u s i o nd r a w ni nt h i s s t u d yi s t h a tt h es e g m e n t a t i o np o i n t s ,a tw h i c ht h eg c c o n t e n tu n d e r g o e sr e l a t i v e l yd r a m a t i cc h a n g e s ,d oe x i ti nt h eh u m a n g e n o m e t h e s e s i n g u t a r i t y p o i n t sm a y b ec o n s i d e r e dt ob ec a n d i d a t e so fi s o c h o r eb o u n d a r i e si nt h e h u m a ng e n o m e t h em e t h o dp r e s e n t e di sa g e n e r a lo n e ,a n dc a l lb eu s e dt oa n a l y z e a n y o t h e rg e n o m e s a d d i t i o n a l l y , t h ea u t h o ra l s od i ds o m ew o r k so n s h o r tg e n e s ( 9 0 b pa n d o , 否则蜀 o ,否则k o ,否则z 。 o ,当两者相等时,乙= o 。这三种分布是相互独立的,表现在 以下事实上:任何一种分布不能由其他两种分布的线形叠加表示出来。给定的 d n a 序列唯一地决定了这三种分布;三种分布也唯一地决定了d n a 序列。这样 第二章d n a 序列的z 曲线理论 一来,对d n a 序列的研究,就可以通过对这三种分布的研究来进行。从方法学 的角度讲,这是d n a 序列的一种几何学研究途径。 2 2z 曲线理论的应用 把d n a 序列转化成z 曲线后,就以通过几何学方法来对d n a 序列进行分析研 究。目前,z 曲线方法由于它的简明性、直观性,已经在全基因组的染色体分析、 蛋白质编码基因碱基频率分析、基因识别等方面取得很大的成功。下面逐一介绍: 当我们把一整条染色体的z 曲线画出来后,就可以通过观察z 曲线的变化, 来获得基因组的某些特征。在这里可以拿m h c 序列作为例子: 对于g c 丰富的基因组,z 分量的值z 通常是碱基步数n 的单调线性减函数; 而对于a t 丰富的基因组,乙通常是的单调线性增函数 1 3 ,这是由生物染色 体上g c 含量在大范围内( 如1 0 ,0 0 0b p 以上) 均匀分布决定的。假如绘制出z o r n 的平面图,那么明显地可以用最小二乘法对图上的点进行线性拟合。得到z 一知, 这里的k 是拟合直线的斜率。引入一个新的变量: 图2 - 4 ( a ) 人类m h c 序列的z 。一曲线 第二章d n a 序列的z 曲线理论 6 0 4 0 2 0 n o - 2 0 - 4 0 - , c l a s s i -一c l a s s i i 一 , 卜 ooo ,51o152 02530354o m h c p o s t i t i o n ( m b ) 图2 - 4 c o ) 人类m h c 序列的z :曲线 z 。2 z 。一m , ( 2 2 ) 用z :n 的二维曲线代替z ,n 的二维曲线。通常,在使用z 分量时都是绘制出曲 线z :月,这样的曲线能够反映出某一区域g c 含量的局部变化( g c 相对丰富还 是a t 相对丰富) ,这是由z :口曲线的特征决定的:( i ) 上跳沿表示g c 含量降低, 而下降沿表示g c 含量增加。( i i ) 在z :月曲线的任何一个极大值处表示g c 含量 从相对较低的区域到一个相对较高的区域的拐点。( i i i ) 在z :n 曲线的任何一 个极小值处表示g c 含量从相对较低的区域到相对较高的区域的拐点。在图2 4 中我们绘制出了删c 的染色体的压口和z 7 曲线。结果,我们可以观察到在1 7 5 m 2 4 8m b 之间存在一个较长的g + c 丰富区( 对应于图中z 。分量下降的区域) , 对应于c l a s si i ii s o c h o r e 。在2 4 8m b 一3 ,3 8m b 之间存在一个a + t 丰富区( 对 应于图中z 分量上升的区域) ,该段区域对应于c l a s si ii s o c h o r e 。利用z 。可 以不使用窗口技术来计算g c 含量。这种方法在精度上可以达到最高水平,可用 来计算序歹0 中某一个点的g c 含量,而不是象以往那样以确定大小的窗口为单位。 该特性在分析基因序列碱基组成的精细结构时是非常有用的 1 3 。而当利用常规 的重叠或是非重叠的滑动窗口的方法计算基因组的g c 含量是有问题的。当选择 大窗口时,分辨率降低,小尺度上的波动被忽略掉;而选择小窗口时,又会导致 统计上产生大的波动:并且很难找到合适大小的窗口和步长。故此在识别 i s o c h o r e 边界时,窗口方法是不可靠不准确的。 第一章已经提到,蛋白质编码基因是有相位的。因此利用z 曲线分析单个蛋 第二章d n a 序列的z 曲线理论 白质编码基因或者非编码序列对,有时会对三个相位分别定义x ,y 和z 分量。 这时公式( 2 - 1 ) 就扩展成了如下形式: f 一= ( 吩+ g ,) 一( q + f ,) , y f = ( i + c i ) 一( g ,+ f f ) ,工j ,y f ,z f 一1 ,1 】,i = 1 ,2 ,3 ( 2 - 3 ) l 刁= ( 口,+ r f ) 一( g 。+ q ) 和公式( 2 - 1 ) 不同之处有两点:( i ) 对三个相位分别定义3 个分量,( i i ) 不再 对每个碱基步n 分别计算四种碱基出现的个数月。,岛g ,而是以四个碱基 在序列中出现的平均频率a ”g j ,c 。f ,来代替。这么一来,每个编码序列或者 非编码序列都用9 个分量来表示。这种表示方法叫做区分相位的z 曲线。 可趴用区分相位的z 曲线来分析同一基因组中所有蛋白质编码基因三个密 码子位( 相位) 的碱基频率 9 ,1 6 ,1 7 。公式( 2 1 ) 里定义的不区分相位的z 曲 线可以和傅立时变换等数理方法相结合用于区分编码序列( 或外显子) 非编码序 列( 或内含子) 1 8 ,1 9 。 近两年来,区分相位的z 曲线方法和欧氏距离判别或者f i s h e r 线性判别法 相结合用于原核生物 2 0 或者不含内含子的低等真核生物 2 卜2 2 的基因识别, 已经得到了很快的发展。这两种方法相对于现在流行的以马尔科夫模型为基础的 算法,涉及参数较少并且直观,更重要的是准确率与之相当。原核生物基因识别 程序z c u r v e1 0 的发展就是以区分相位的z 曲线为基础的 2 3 。 除了以上叙述的应用,还可以通过研究z 曲线的三个分量所代表的三种分布 的对称性( 嘌呤嘧啶,氨基酮基,强弱氢键) 来研究d n a 序列的对称性:通 过三种分布的微分几何学研究来获得d n a 序列碱基排列的总体特征和局部模式。 关于这些,可以参考文献 9 ,2 4 。 苎三童! :垫銮垫量垦壁坌堑望堕塑堕 一 3 1 引言 第三章小波变换多尺度分析理论概述 i n t r o d u c t i o no fw a v e l e tm u l t i r e s o l u t i o na n a l y s i s 小波是来源于众多不同领域中以不同形式表现的一些概念。小波理论的形成 是数学家,物理学家和工程师们多学科共同努力的结果。小波分析属于时频分析 的一种。传统的信号分析是建立在f o u r i e r 变换的基础上的。但是由于f o u r i e r 变 换是一种全局的变换,要么完全在时域。要么完全在频域,无法表达信号的时频 局域的性质。然而我们在分析非平稳信号的时候,恰恰要对其时域性质和频域性 质联立起来分析。为了解决传统的不能满足处理和分析非平稳的信号的要求,人 们对f o u r i e r 变换进行了推广和革命,提出了新的信号分析理论,其中包括短时 f o u r i e r 变换和小波变换。 小波变换是一种信号的时间一尺度( 时间一频率) 分析方法,它具有多分辨 率分析( m u l t i r e s o l u t i o na n a l y s i s ) 的特点,而且在时频两域都具有表征信号局部特 征的能力,是一种窗口大小固定不变但其形状可以改变,时间窗和频率窗都可以 改变的时频局部化分析方法。即在低频部分具有较高的频率分辨率和较低的时间 分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合探测正 常信号中所夹带的瞬态反常现象并展示其成分,所以被誉为分析信号的显微镜。 小波同时也可以度量信号变化的尺度化波形。通过改变尺度参数,变焦过程 可以对信号结构( 例如奇异性) 提供强有力的刻画。而且有许多规范正交基和快 速算法可以选择,满足不同领域人们的需要 2 5 2 8 1 。 3 2f o u r j e r 变换和小波变换 3 2 1f o u r i e r 变换 1 8 0 7 年f o u r i e r 向法国科学院提交了一篇报告,该报告提出任何周期函数均 可用一系列的正弦波表示。f o u r i e r 变换一直在线性时不变信号处理中占有统治地 位,在众多的科学领域中( 特别是信号处理,图像处理,量子物理等) 有重要的 应用。通常的f o u r i e r 变换和f o u r i e r 级数的定义如下: f ( 鬲) = e e - i “f ( t ) d t ( 3 1 ) 第三章小波变换多尺度分析理论概述 f ( 功的f o u r i e r 逆变换定义为 邝) = j 1 一f :e i o x f ( i o ) d ( 3 2 ) 在实际应用中,我们是在计算机上实现信号的频谱分析以及其他方面的处理工 作,此时对信号的要求是在时域和频域都应该是离散的,并且均为有限长。故此 我们需要把连续变换转化为离散f o u r i e r 变换( d i s c r e t ef o u r i e rt r a n s f o r m ,简称 d e t ) 。 当离散时间序列工,工, + 设该序列绝对可和,即满足i l 0 0 ,该 序列的离散f o u r i e r 变换f o f t ) 定义为: i 一。三生。 ( 女) = ,( ) = l e ” k = 0 ,1 ,n 一1( 3 3 ) 序列x ( k ) 的逆离散f o u r i e r 变换( i d f t ) 为: 工:l 笺x ( k 弦等“ n :0 ,1 ,一1 ( 3 4 ) 式( 3 4 ) 中n 相当于对时间域的离散化,k 相当于对频率域的离散化,并且它们 都是以为周期的,具有共轭对称性。 f o u r i e r 变换是时域到频域互相转化的工具,从物理意义上讲,f o u r i e r 变换的 实质是把f q ) 这个波形分解成许多不同频率的正弦波的叠加和。这样把对原函数 f ( t ) 的研究转化为对其权系数,即其f o u r i e r 变换f ( ) 的研究。从f o u r i e r 变换 中可以看出,这些标准基是由正弦波及其高次谐波组成的,因此它在频域是局部 化的。 虽然f o u r i e r 变换能够将信号的时域特征和频域特征联系起来。但只能分别从 信号的时域和频域观察,不能将二者有机的结合起来。这是因为信号的时域波形 中不包含任何频域的信息。这就是信号分析中所面临的矛盾:时域和频域局部化 矛盾。这就促使去找一种新的能够将时域和频域结合起来描述信号的时频联合特 征的方法。 在1 9 4 6 年d e n n i s g a b o r 引入了短时f o u r i e r 变换( s h o r t - t i m e f o u r i e r t r a n s f o r m ) 基本思想是把信号划分成许多小的时间间隔,用f o u r i e r 变换分析每一个时间间 隔,以便确定该对间间隔存在的频率。其表达式为: s ( o j ,f ) = f f ( t ) g + ( 7 0 r ) e 一“d t ( 3 5 ) 其中“”表示复共轭,g ( f ) 是有紧支集的函数,厂o ) 是进入分析的信号。在这 个变换中,p “起着频限的作用,g ( f ) 起着时限的作用,被称为窗口函数。s ( e o , f ) 7 第三章小波变换多尺度分析理论概述 大致反映了f ( o 在时刻f 时、频率为国的“信号成分”的相对含量。这样信号在 窗函数上的展开就可以表示为在 r j ,f + 们、 + s ,+ 占】这一区域内的状 态,这一区域称为窗口,万和s 分别为窗口的时宽和频宽,表示了时频分析中的 分辨率,窗宽越小则分辨率就越高。但要受到海森堡( h e 4 s = n b e r g ) 测不准原理 的( u n c e r t a i n t y p r i n c i p l e ) 指出占和s 是相互制约的,两者不可能同时都任意小。 由此可见,短时f o u r i e r 变换只是在一定程度上克服了标准f o u r i e r 变换不具有局 部分析能力的缺陷,然而短时f o u r i e r 变换自身仍有着不可克服的缺陷,当窗口 函数2 ( r ) 确定后,矩形窗口的形状就确定了,z - ,国只能改变窗口在相平面上的 位置,而不能改变窗口的形状。所以短时f o u r i e r 变换实质上具有单一分辨率的 分析,用来分析平稳信号犹可,但对于非平稳信号则难以兼顾高频和低频。 3 2 2 小波分析 小波分析是调和分析这一数学领域半个世纪以来的工作结晶,已经广泛的用 于信号处理、图像处理、地震勘测、语音识别与合成、生物信息学等科技领域。 从原则上讲,传统上使用f o u r i e r 分析的地方,都可以用小波分析取代。小波分 析方法是一种窗口大小( 即窗口面积) 固定但其形状可改变,时间窗和频率窗都 改变的时频局部化分析方法。由此小波变换具有对信号的自适应性,在时域和频 域同时具有良好的局部化性质。这也是小波分析优于f o u r i e r 变换的地方。 设妒( f ) 上2 似) ( l 2 ( r ) 表示平方可积的实数空间,即是能量有限的信号) , 其f o u r i e r 变换为p ( 动当y ( 叻满足允许条件( a d m i s s i b l ec o n d i t i o n ) : q :衅由 ( 3 6 ) ; m 时,我们称妒( f ) 为一个基本小波或母小波( m o t h e r w a v e l e t ) 。将母函数妒( f ) 经伸 缩和平移后就可以得到一个小波序列。 对于连续情况,小波序列为 g t 。, b o ) : 昌妒( 三皇) 4 ,b r ;口0 ( 3 7 ) 、i a l o 其中a 为伸缩因子,b 为平移因子。 对于离散情况,小波序列为 妒,1 0 ) = 2 - s n g ( 2 一t 一七) ,k z ( 3 8 ) 对于任意的函数f ( t ) l 2 ( r ) 的连续小波变换为 第三章小波变换多尺度分析理论概述 哪,6 ) - ,蚓。r “,洋 ( 3 - 9 ) 其重构公式( 逆变换) 为 删= 专加心嘶c 争妇如 m 由于基小波矿( f ) 生成的小波y 。( f ) 在小波中对被分析的信号起着观测窗的 作用,所以矿( f ) 还应该满足一般函数的约束条件 i 耖o ) i d t ( 3 1 6 ) 其重构公式为 第三章小波变换多尺度分析理论概述 厂( f ) = c c 坩( f ) ( 3 1 7 ) c 是一个与信号无关的常数。 在选择d 。和6 。的时候要尽可能的小以保证重构信号的精度。 3 4 2 二进制小波变换 为了使小波具有可变化的时间和频率分辨率,适应待分析信号的非平稳性, 我们需要改变4 和b 的大小,以使小波变换具有“变焦距”的功能。也就是说在 实际中采用的是动态的采样网格。其中最常用的是二进制的动态采样网格,即 d 。= 2 和b 。= 1 ,每个网格点对应的尺度是2 ,丽平移为2 j 后。由此得到的小波 yf t o ) = 2 叫坨y ( 2 t - k )j ,七z ( 3 1 8 ) 称为二进制小波( d y a d i c w a v e l e t ) 二进制小波对信号的分析具有变焦距的作用。假定有一放大倍数2 ,它对 应为观测到信号的某部分内容。如果想进一步观看信号更小的细节,就需要增加 放大倍数即减小j 的值:反之,若想了解信号更粗的内容,则可以减小放大倍数, 即加大j 值。在这个意义上,小波变换被称为数学显微镜。 二进制小波不同于连续小波的离散小波,它只是对尺度参数进行了离散化, 而对时间域上的平移参最保持连续变化,因此二进制小波不破坏信号在时间域上 的平移不变量,这也正是它同正交小波基相比所具有的独特优点 2 7 1 。 3 5 多分辨率分析( m u l t i r e s o l u t i o na n a l y s i s l 1 9 8 8 年s m a l l a t 在构造正交小波基时提出了多分辨率分析的概念,从空间的 概念上形象的说明了小波的多分辨率特性,将此之前的所有正交小波基的构造统 一起来,给出了正交小波的构造方法以及正交小波的快速算法,即m a l l a t 算法。 m a l l a t 算法在小波分析中的地位相当于快速f o u r i e r 交换算法在经典f o u r i e r 分析 中的地位。 如果我们用庐0 ) 和l f ,( f ) 分别表示小波变换的尺度函数和小波函数,双尺度关系 为; o ) = e h 。a f 2 庐( 2 t 一月) , ( 3 1 9 ) 第三章小波变换多尺度分析理论概述 y o ) = 晶2 ( 2 f ( 3 - 2 0 ) 其中 。,n z 是一个低通滤波器, 邑,n z 是一个高通滤波器( z 是整数集) 。 如果信号,( f ) l 2 ( r ) 是t 的函数。a j i n ,o 和以【n , 0 分别指示函数,( f ) 在尺度j 下的尺度系数和小波系数。 用正交的尺度函数和小波函数的话,我们就可以得到: a j + l i n = h k _ z 口渺】,j 0 , ( 3 2 1 ) i d 川 n 】= g 。口渺 ,_ ,0 ( 3 - 2 2 ) t 重复使用以上过程,就可以把n 。i n 分解为a i n 和d 。 h 】,a l n 分解为a 2 i n 和 d 2 n 】,如是继续直到a j _ 1 n 分解为a j i n 】和d s i n 。,是分解的最大尺度。 这样,a o n 就被a j h i ,引一】,以 n ,所表征或者写作 岛 n 】奢 a j ,嘭 n 耻例 此处要说明的是口,i n ,j 0 和办 ”】,j 0 分别代表 了信号的低频信息( 概貌) 和高频信息( 细节) 。 相反地,从a j n 和d a n 出发运用下面的重构公式也可以得到d 。 n , 口 = 芝: n - 2 k ,。 i 卜g 。一:。d ,+ 。 t 】 ,j 0 , ( 3 2 3 ) t 或者写作扣j ,d s 阳i 。卸;, j 口。m 。 下面我们换一种更为形象的方式来说明以上过程。就是利用双带子带编码迭 代地自底向上建立小波变换。 首先按照低半带和高半带进行子带编码后,对低半带再一次进行子带编码, 得到一个n 2 点的高半带信号和对应于区间 0 ,j 。 的第一和第二个1 1 4 区域的 两个n 4 点的子带信号。 然后,连续进行上述过程,每一步都保留商半带信号并进一步编码低半带信 号直到得到了一个仅有一个点的低半带信号为止。这样,小波变换系数就是这个 低半带点再加上全部用于带编码的高半带信号。如下图所示。最前面的n 2 个系 数来自于f ( s ) 的高半带,接下来的n 4 个点来自于第二个四分之一带,依次类 推。 第三章小波变换多尺度分析理论概述 g l 秘蛳 岛g l 蚺 岛c & 溘句 图3 - 3 快速小波变换示意图 该算法( f a s t w a v e l e t t r a n s f o r m ) 因其形状而被称为m a l l a t 的“鱼骨型算法”。 其逆变换如下图所示。 缸( 鼬00 咖 图3 - 4 快速小波变换逆变换示意图 分解的最终目的是力求构造一个在频率上高度逼近r 嘏) 空间的正交小波 基,这些频率分辨率不同的正交小波基相当于带宽各异的带通滤波器。多分辨分 析只对低频空间进行进一步的分解,使频率的分辨率变得越来越高 2 7 】。 3 6 小波变换在生物信息学中应用的现状 由于小波变换在提取数据特征方面比f o u r i e r 变换更加有效和迅速,所以近年 来已经被用于分析多种生物医学的信号,并且人们运用小波来分析基因组序列和 功能的兴趣也越来越浓厚。 在统计学中,从一个噪音信号中复原潜在函数通常使用回归模型。由几个作 者建议使用小波评估。考虑一个标准单变量回归: y i = 厂( ) + 5 ri = 1 ,n( 3 2 4 ) 是独立随机变量n ( o ,口2 ) ,厂才是“真正”的函数。我们可以根据小波系数重 第三章小波变换多尺度分析理论概述 新用公式描述这个问题: 国业= o ) j k + q “,j = 0 ,。,j 一1 ,k = 0 ,2 7 1 ( 3 - 2 5 ) ,是层次,k 是位移。常假设只有少数大系数包含潜在函数信息,而小系数则归 因于噪音。收缩存在于衰减或除去较小的小波系数,并用最有意义的小波系数和 所有的尺度系数重构概貌。已经提出几种收缩方法。例如,硬阈值方法用“保留 或删除”原则选择系数。值得一提的是有的作者选择b a y e s i a n 阈值并且已经报告 了有趣的结果。 当前小波变换主要应用在分子生物学队下几个方面: ( 1 ) 基因组序列分析。已经有一些工作展示了小波在识别d n a 序列模式中的 作用;l i o 和v a n n u e c i 也把小波变换用于致病岛识别中。 ( 2 ) 蛋白质结构研究。小波变换已经被用于蛋白质结构研究的各个方面,包括 一维序列进化,二维和三维结构预测等等。 ( 3 ) 微阵列数据分析。小波分析可以从微阵列技术中提取有用信息。 总之,小波变换在分子生物学中的应用是一个热门的领域。它的重要优势在 于:从生物数据中提取隐藏信息的能力和更好地把生物系统和描述它的数学工具 相结合的能力 2 9 】。 第四章i s o c h o r e 边界的识别 第四章i s o c h o o r e 边界的识别 d e r e c t i o no fi s o c h o r eb o u n d a r i e s 本章结合d n a 的z 曲线理论和小波多尺度分析理论来识别人类基因组中 i s o c h o r e 的边界。 4 1 引言 哺乳动物基因组的m o s a i c 结构是在2 0 世纪7 0 年代中期对牛的基因组作密度 梯度离心试验室揭示的 5 。后来这些长的g c 含量相对均匀的d n a 片断被命名 为f i s o c h o r e ”。根据b e r n a r d i 的分析结果,有5 个i s o c h o r e 家族。其中两个g c 含 量较低的家族是l 1 ( g + c 3 8 ) 和1 , 2 ( 3 8 g + c 销) 。另外3 个是g c 含量较高的家族 i 1 1 ( 4 4 e e “8 ) ,h 2 ( 4 8 g + c o 表示g c 含量降低而群 0 则表示g c 含量上升。为了 方便起见,影被归一化到 0 , l 】。根据z 曲线的性质可以推导出只能取3 个值,即k : o ,1 2 ,1 ) 。以后如无特殊说明均指归一化后的值。由公式( 4 1 ) 可知( g + c ) 。= 1 一联,其中( g + c ) 。是在月和n + a n ,之间的g c 含量。以下的工 作就是对( g + c ) 。= 1 一七:进行小波变换多尺度分析。 4 2 3 小波变换多尺度分析 这里我们采用的是二进制离散小波变换。把( g + c ) 。= 1 - k :作为信号进行小 波多尺度分析的,也就是令,印】;( g + c ) 。= 1 - k := a 0 i n 。在这里我们认为信号 是含有噪音的,根据第三章的介绍,首先把信号进行小波分解,认为有用信号表 第四章s o e h o r e 边界的识别 现为低频信号获释一些比较平稳的信号,而噪声信号通常表现为高频信号。分解 的最高层次是 对于每一个分解层次工( r ) 得到的高频系数选取一个阈值0 c j = 、厨函i ( 4 3 ) 其中l j :是d j n 的长度。对于每一层当以【】的值大于阈值勺时保留嘭【h 】值不变, 当d j n 的值小于阈值q 时强制令其取0 。用处理以后得到的系数重构后得到 - 0 n ,而不是原始信号a o n ,实际上这也是一个消噪过程。 4 2 4 分界点的识别和区域的合并 给定一条d n a 序列,对计算出来的信号( g + c ) 。= 1 一k :采用h a a r 小波进行 前文所述多尺度分析,从原始信号陋 - 1 一k :重构得到消噪后的信号_ n 【n 。我 们注意到在重构后的信号瓦【”】中存在一些跃变点,这些跃交点位于所研究序列 的分界点处,在分界点两侧序列的g c 含量的变化是相当大的。对于给定的序列, 分界点的数目取决于阈值c ,的选取。根据公式所选的固定阈值可以得到相当多分 界点。本文中把任意相邻的两个分界点中间序列称作“区域”,而构成区域的分 界点称作“区域的边界”简称为“边界”。为了研究序列的i s o c h o r e 结构,对于 相邻的区域还运行了两个合并程序。合并原则一:如果两个相邻区域属于b e m a r d i 定义的同一个i s o c h o r e 家族,那么就把两个区域合并成一个更大的区域。这是一 个迭代的过程,直至任意两个相邻的区域分别属于不同的i s o c h o r e 家族为止。合 并原则二:如果经过第一个回合的合并后,有的区域序列长度小于2 0 0 k b ( 我们 选择的i s o c h o r e 的最小长度) ,把它合并到相邻的区域从而构成一个更长的片段。 重复这个过程直到所有区域的长度都大于2 0 0 k b 。 4 3 结果和讨论 4 3 1 人类主要组织相容性复合体的is o c h o r e s 位于人类6 号染

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论