




已阅读5页,还剩49页未读, 继续免费阅读
(生物医学工程专业论文)基因组序列特征分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t a b s t r a c t t h e s i st l t l e :g e n o m i cs e q u e n c ea n a l y s i sb a s e do ns t a t i s t i c a lf e a t u 陀s g r a d u a t es t u d e n tn a m :e :j j a od i a n s u p e r v i s o rn a m e :s u nx i a o ( p r o f e s s o r ) s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y w i t ht h ea 州v a lo ft h ep o s t g e n o m ee 豫,r e s e a r c h e r sb e g i nt od e v e i o pv a r i o u st o o l so nb i o l o g i c a l d a t a b a s e si no r d e rt oa n a l y z eh u g ea m o u n to f b i o l o g i c a ld a t aa n dt u mj ti n t ok n o w l e d g e t h em a i ng o a 】o fs e q u e n c ef e a t u r ea n a 】y s i sj st oc o m p a r et h es e q u e n c e sh o w e v e t h et r a d i t i o na 1 m e t h o do fa l i g n m e n tr e s t c t e db yt h ea l g o r i t h mi t s e 】ci sn o ts a t i s f a c t o r yj np r o c e e di o n gs e q u e n c e s b e c a u s eo fj t sp o o re f n c i e n c y w ed e a lw i t has t a t i s t i c a la n a i y s i so fg e n o m i cs e q u e n c e s ,w h i c ha r e t h em o s ta b u n d a n c eb i o 】o g i c a 】d a t ai nd a t a b a s e st o d a ya n da r ea b 】et or e 日e c tt h ee s s e n c eo f e v o l u t j o n , a n de x t r a c t e dt h ef e a t u r e so ft h el o c a l n f o r m a t i o no ft h e m ,a n dt h e np e 渤咖e dg e n o m j cs e q u e n c e a n a l y s i s t h u s ,w en o to n l ys o i v e dt h ep r o b l e mo fl a 唱e - s c a l ec o m p u t a t i o no f1 0 n gs e q u e n c e s ,b u t a i s oo b t a i n e da b u n d a n td a t ar e s o u r c e s i no r d e rt or e a l i z ef a s ta n de f f b c t i v es e a r c ho fs i m i l a rs e q u e n c e si nt h es c a l eo fg e n o m e s ,w e ,i nt h i s a r t i c l e ,d e s i g n e dag e n o m j cs e q u e n c ed a t a b a s eu p o nf e a t u r e s i tu s e sp r o g r a m st oc o m p u t ef e a t u r e s o fg e n o m i cs e q u e n c e sa n ds t o r e st h e s ef e a t u r ev a l u e sa n dt h es e q u e n c e si n t ot h ed d t a b a s e t h i s s e a r c h i n gs c h e m ee n a b l e su st o 行n do u tt h e s es e q u e n c e ss m i l a ri nf u n c t j o na n ds t c t u r eb u tn o t o n l ys i m i l a ri nb a s ea 盯a n g e m e n ti nas h o r tp e r i o do f t i m e w i t ht h eh e i po fo u rg e n o m i cs e q u e n c ef e a t u r ed a l a b a s e ,w em a i n l ys e l e c t e dt h eb a s e b a s e c o r r e l a t i o nf e a t u r e ( b b c ) t oa n a l y z eg e n o m j cs e q u e n c e s s o m ei n t e r e s t n gp h e n o m e n aa r ef o u n d o u t d n as e q u e n c e sa m o n gt h es a m eg e n o m eu s u a l l yh a v es i m i l a rf e a t u r e s ;h u m a ng e n o m eh a s s o m er e l a t j v e sj nt h eg e n o m e so fm o u s ea n dr i c ew 油s i m i l a rf e 咖r e s ;t h e r ea r es o m es p e c s e g m e n t si n s i d eh u m a ng e n o m ew i t he ) ( t r a o r d i n a r yf e a t i l r e sw h i c hm a k e st h e mm o r ec l o s et oo t h e r s d e c i e s h o r i z o n t a lg e n et r a n s f e r ( h g t ) c a nb er e g a r d e da so n eo fl h em o s tj m p o r t a 小f a c t o ri nt h e e v o i u t i o nw eu s eb b cf e a t u r et os c a ns o m ep m k a r y o t i cg e n o m e s ,a n d 行n ds o m er e g i o n sw j t hw e i r d f e a t u r ev a l u e s ,w h i c hm a yb er e g a r d e da sp o t e n 右a 】h o r i z o n t a ig e n e s c o m p a r e dw i t ho t h e rm e t h o d s t od i s c o v e rhg ,l th a sb e e nt e s t m e dt h a tb b cf e a t u r ec a nb ea p p l i e da sau s e f u is t a n d a r dt od e t e c t a b s n a c l h g to nb a c t e r i a lg e n o m es e q u e n c e s s e a r c h i n gs i m i l a rs e q u e n c e si nt h es c a l eo fg e n o m e sa n da n a l y z i n gg e n o m i cs e q u e n c e sw j t hf e a t u r e s h e l pu ss t u d yt h er e i a t i o n s h i pa m o n gs p e c i e s ,a n dp e r f o n ne v 0 1 u t i o n a r ya n d p h y l o g e n e t i ca n a i y s i s k e y w o r d :g e n o m e ,s e q u e n c e ,d a t a b a s e ,f e a t u r ea n a i y s i s ,h g t 1 i i 第一章绪论 第一章绪论 1 1 生物信息学和基因组序列分析 人类基因组计划( h u m a ng e n o m ep r o j e c t ) 已基本完成,但是对于整个基因组的研究来说, 3 0 亿个碱基对的测序并不是终极目标,对这些象天书一样的序列进行收集、整理、检索,分析 序列及其表达蛋白质结构与功能的信息,找出规律,揭开生命的秘密,才是最终目的。这些工作 是所谓的后基因组时代( p o s t g e n o m ee r a ) 的任务,也是生物信息学的研究的方向。 基因组序列数据数量惊人,并且存在着复杂的关系,从序列中挖掘出生物学知识和生物学规 律是一件不容易的事情。自然语言的文本可以从字、词、短语、从句、语法利句子结构等方面进 行分析,而基因组序列是由a 、t 、c 、g 四种字符组成的,看似排列的杂乱无章,其实有自己 的一套“语法”和“结构”。因此我们可以借鉴计算机科学的字符串处理方法对基因组序列进行 类似的分析( v n g a a l m e i d a ,2 0 0 3 ) 。 作为目前基因组学的一个重点,基因组序列分析工作有很多研究方向,包括基因组的功能注 释( f u n c t i o n a la n o t “o n ) ,模体分析( m o t j f a n a l y s i s ) ,基因识别( g e n ed i s c o v e r y ) ,d n a 结合位 点预测( 阱q a - b i n d i n gs i t ep r e d i c t i o n ) ,比较基因组学( c o m p a r a t i v eg e n o m j c s ) 等分支。总的来说, 可以分为以下几个主要的方向( c a l j f a n o ,2 0 0 1 ) : ( 1 ) 同源性模型( c o n s e n s u sm o d e l s ) ,建立在那些分享共同的结构和功能的特点的序列家 族之上。其中模式识别,正则表达和位置特异的打分矩阵被广泛的应用于功能聚类和 序列注释中。 ( 2 ) 比较基因组学,特别是从基因组的组织结构中挖掘隐藏的与基因功能相关联的信息, 在基因组序列分析中的地位越来越显著。 ( 3 ) 序列特征分析,也就是利用计算机科学、数学和统计学等学科的方法从基因组序列中 提取有效的信息。 以上第三个方向,也就是基因组序列特征分析是本课题研究的重点,将在以下章节中展开讨 论。 东南大学硕士学位论文 1 2 基因组特征提取 如何解读人类基因组这本由a 、t 、c 、g 四种字符构成的浩瀚的“天书”呢? 仅仅从基因序 列本身很难得到有意义的生物学信息,但我们知道序列决定蛋白质结构,决定生物体功能,因此 需要对序列数据进行分析和处理,从而预测其功能和作用。序列特征分析是近年来比较常用的对 基因组序列进行研究的一种方法。 基因信息特征的提取是序列特征分析中至关重要的一个步骤。对于基于全基因组的序列特征 分析,要求提取整个或者人部分基因组的信息特征。这些信息特征有两大类,第一类是基因组整 体特征,就是可以从序列排列上发现的一些特征,比如基因内容( g e n ec o n t e n t ) ,即一个基因组 所包含的所有基因( b e r e n d 酣口,1 9 9 9 ) ,对一个基因组进行分析的时候,这个特征是最简单最 直接的;还有基因次序( g e n eo r d e r ) ,即基因在染色体上的排列顺序( t a m a m e s ,2 0 0 1 ) ,基因次 序在亲缘关系近的生物之间用较大的保守性而在亲缘关系远的生物之间保守性较少,所以基因 次序是一个有价值的信息特征,可以用来分析物种之间的关系;蛋白质折叠结构( p m t e j nf o l d l n g s t r u c t u r e ) ,即对一个生物体基冈组所包含的蛋白质折叠结构的种类和数目进行统计,也可以作 为基因组的信息特征。理论上认为,蛋白质的序列中包含有蛋白质结构的信息,并且蛋白质的结 构比序列的保守性更强。因此将未知结构的蛋白序列与己知结构的蛋白序列比对,我们就可以预 测基因组中大部分蛋白质的结构。 另外一类特征是核酸序列的统计特征,即通过统计学的方法从序列中提取出来的特征 ( r i c k a r d “口f ,2 0 0 1 ) 。核酸序列,即d n a 或r n a 是由四种核苷酸排列而成的序列,对它最简 单的建模就是将它看成是由四种字符组成的字符串。既然核酸序列带有遗传信息,在生命的过程 中作为遗传物质代代相传,并且生物体各种各样外表,生命的代谢等都是由它决定的,它是本质 所在,那么核酸序列就不可能是随机序列,它应该具有一定的统计特征。 最简单的核酸序列统计特征是g c 含量( z h a n g ,2 0 0 4 ) ,也就是鸟嘌呤g 和胞嘧啶c 在整条序 列上的比重。对各种动物的基因组碱基组分的研究指出,基因组有g c 碱基含量相对较高的区域 和a t 含量较高的区域,基因组中大部分是g c 贫乏区也就是a t 丰富区,其余是g c 丰富区和g c 极 端丰富区,在基因组中富含g c 碱基的区域,其基因密度较人且内含子的平均尺寸较小。 单核苷酸含量,二联核苷酸含量,三联核苷酸含量( b a s u “甜,2 0 0 1 ) 等统计特征也可以作 为基因组序列的信息特征。这些寡核苷酸频率是描述大型基因组序列的有效特征,它具有反映基 冈组结构特点的功能,而且可以通过寡核苷酸在d n a 序列上分布的不同来鉴定不同物种之间的 系统发生关系。大量研究成果表明寡核苷酸频率在对较氏基因组序列降维的同时,保留了其中反 一2 一 第一章绪论 映生物意义的结构信息。关于这个特征我们将在第二章中作详细介绍。 s a r n u e l k 训i n 和他的同行们提出了双核苷酸相对丰度( d i n u c l e o t i d e r e l a c i v ea b d c e ) 这 个概念,也被称为双核苷酸机会比率( d i n u c l e o t i d eo d d sr a t i o ) ,这个特征反映了两个邻近的碱 基之间的关联性,被广泛地应用于基因组特征分析。大量试验结果表明,双核苷酸相对丰度具有 物种的特异性,因此能够作为基因组的标记区分来自不同生物体的d n a 序列。关于双核苷酸相 对丰度的算法我们将在第二章中作详细说明。 另外,同义密码子的选择、氨基酸使用偏性等序列统计量,也能在不同程度上标识一条序列 的来源。遗传密码又称为三联体密码,它说明d n a 序列三个连续的碱基为一个蛋白质的氨基酸 编码。已知自然界中的蛋白质由2 0 种不同的氨基酸所组成,而3 个连续碱基可能形成的密码子 共有6 4 个,由于三联体密码的密码子数目大于氨基酸种类数目,对于一种氨基酸,可能存在多 个密码子,编码同一个氨基酸不同的密码子称为同义密码子。密码子的第一位和第二位极少有选 择的余地,所以同义密码子一般在第三位发生变化。基因对同义密码子的使用存在着偏爱,但 不同种属偏爱的密码子不同,并且偏爱程度也不同。特别的是,根据统计。在人类基因组中密 码子第三位取a 、u 的情况占9 0 ,而第三位取g 、c 仅占1 0 。密码子中三个碱基所处的位置, 与它所编码的氨基酸性质存在着某种联系。一种氨基酸可以由几种不同的密码子决定,一种氨基 酸可以只有一个密码子,如色氨酸只有u g g 一个密码子,也可以有数个密码子。如精氨酸有6 个密码子c g u 、c g c 、c g a 、c g g 、a g a 、a g g 。但是对于多个密码子的氨基酸,每种密 码子的编码频率是不一样的,就算对于同一个密码子在不同物种基因组序列里的使用偏性也是 不同的。 1 3 序列特征在基因组分析中的应用 在基因组序列分析研究中,序列特征的应用主要体现在两个方面:旨在发现探测序列上的那 些特殊的功能区域的局部特征,以及可用于序列间比较的反映序列整体特性的全局特征。 1 3 1 基因组序列的局部特征 首先,核酸序列上有一些有特殊的元件,包括蛋白质编码区、操纵子( o p e r o n ) 、d n a 复制 起始位点、调控因子和转移基因等等,这些片段不仅在机理和作用上比较特殊,而且在碱基的组 织排列上也与其他部分有定的区别。某些局部特征能够反映出这些信号的特点和规律,从而被 - 3 一 东南大学硕士学位论文 用来对这些特殊元件的定位和探测( b u r g e ,1 9 9 8 ) 。 搜索基因的另一种常见的方法是序列片段相似性搜索( f i c k e t t ,1 9 9 6 ) 。由于功能上的限制, 基因在序列结构上具有很强的保守性,因此对于一条未知的核酸序列,可以把上面的某些片段与 现有的基因数据库里的片段进行比较,从而发现可能的功能序列。 然而相似性搜索必然要受到基因数据库规模的限制,由于目前很多物种的基因组还未完全测 序,因此这种方法还有很火的局限性。相比之f ,基于密码学和信号处理的特征分析方法就要行 之有效的多。 基于统计的方法能够对序列的编码区和非编码区进行区分,并且能够预测蛋白质编码的功 能。此类方法的核心是针对序列的某种编码策略( c o d i n gm e a s u r e ) ,对序列片段进行计算,得 到一个数值或者一个向量,来测量和功能区域相关的序列的特性。这些方法包括六联碱基 ( h e x e r ) 频率的测量,密码子原型( c o d o np r o t o t y p e ) 的测量,碱基位置不对称性( p o s i t i o n a s y m e t r y ) 的测量,自相关方法( a u t o c o r r e l a t i o n ) ,f 0 u r i e r 变换重复子( r e p e a t ) 的测 量等等( f i c k e t t ,1 9 9 6 ) 。 基于信号处理的模式识别方法能够发现序列上的p r o m o t e r 区、起始终止子和剪切位点等区 域。比如神经网络方法和决策树方法等。由于d n a 序列信号的信息含量很低,因此有时候需要把 多种方法综合起来对序列特殊位点的特征进行分析( r o g i c ,“以,2 0 0 1 ) 。 鉴于真核生物和原核生物在基因组上的差别,在序列上搜索基因的方法也不尽相同。下面我 们将以序列结构更加复杂的真核生物为例作进一步论述。 衡量序列上特殊片段的探测方法的准确程度的标准主要体现在两个方面:灵敏性 ( s e n s “i v “y ) 和特异性( s p e c i f i c i t y ) ,一个准确而且全面的基因预测的方法应该在这两个 方面同时达到一定的高度。大部分基因预测的方法都是针对外显子( e x o n ) 的,根据其位置和特 征的区别,识别外显子的信号可以分为三种类型:转录信号( t r a n s c r i p t i o n a ls i g n a l ) ,翻译 信号( t r a n s l a t i o n a ls ig r i a l ) 和剪接信号( s p l i c i n gs i g n a l ) 。不同类型的外显子对基因探 测的要求不一样,而且不同方法对于识别不同外显子的能力也有区别。 ( 1 ) 转录信号 转录信号中能够被探测的主要是位于转录起始位点( t s s ) 的起始子和帽子信号以及位于起 始位点上游3 0 b p 处的t a t a _ b o x 信号。由于这些转录因子结合位点的位置多变,而且估计它们组合 行为的难度比较大,因此目前并没有一种绝对可靠的方法来对p r o t o r 区进行准确的预测。 转录因子结合位点的寻找方法主要有两种,共有矩阵( c o n s e n s u ss e q u e n c e ) 和加权矩阵 ( w e i g h tm t r i x ) ,其中后者的方法更为有效。加权矩阵的思路是,首先将含有转录信号的多 4 第一章绪论 条序列并列在一起,计算某一位置各核苷酸出现的频率,当矩阵与查询序列并列时,可立刻算出 得分,将每个位置的得分加起来即可得到加权矩阵在此特定位置的总分。为了避免假阳性的出现, 可以利用神经网络的方法,以含有真正转录因子的序列来训练,即调整加权矩阵中的分数,使其 能正确的辨别转录因子。 ( 2 ) 翻译信号 最重要的两个用于基因探测的翻译信号是位于起始密码子a t g 的上游区域的“k o z a k 信号”以 及终止密码子。只有当预测转录起始和终止位点的方法有所改进之后,才能减少需要搜索的序列, 这样才有可能对翻译的起始和终止位点进行正确的预测。利用简单的打分矩阵对k o z a k 信号和终 【 信号进行描述,对翻译起始位点和终止位点的预测准确率可以高达7 0 以上。 ( 3 ) 剪接信号 因为大部分的脊椎动物、非脊椎动物和植物的基因都包含几个外显子,因此对这些生物的基 因结构进行准确的预测,很大程度上依赖于对微弱的剪接信号的预测能力。核信使r n a 上的内含 子被一个称作为剪接体( s p l i c e s o m e ) 的大型核蛋白复合物从最初的转录物上切割了下来。剪接 体能够识别内含子的5 和3 端以及基因内部的分支点,事实上,除了极少的例外,剪接体的内含 子都以g t 起始、a g 终止,因此大部分识别基因的方法都根据这个基本不变的规律来缩小可能的外 显子和内含子界限的搜索范围。 1 3 2 基因组序列的全局特征 相似序列的搜索是基因组序列研究中的一种重要的手段,序列比对方法是在数据库中搜索相 似序列、评估同源性最常用的方法,比如著名的b l a s t ( a l t s c h u l 甜口f ,1 9 9 0 ) 和f a s t a ( p e a r s o n ,1 9 9 0 ) 算法。尽管序列比对方法的结果令人满意。然而还是有一些不足的。第一,序 列比对的方法只能用于比较相对较短的序列当处理几k 甚至几百k 长度的核酸序列时就捉襟见肘 了。而且就算比较短序列时,一般的比对算法也是相当耗时的。第二序列比对是建立在假定同 源片段是保守的基础上的,而序列中的基因重组与此理论相矛盾。另外。序列比对仅仅考虑了两 个序列在字母排列上的相似性,虽然理论认为,相似的序列有相似的结构相似的功能,但是这 样分析的结果使得当我们想要查找相似功能的序列时,会遗漏那些功能上相似但序列在字母排列 上却不是很相似的序列。 为了能够弥补比对算法的缺陷通过序列特征来比较序列的分析方法成为目前国际上关注的 热点。序列特征分析的一个重要功能是,通过比较基因组序列的特征,找到它们之间的异同,从 东南大学硕士学位论文 而研究物种基因组之间或物种基因组之内序列的关系。这里所说的特征是指反映整条序列的全局 性特征,通常可以作为基因组的标志。下面列举了几种比较常见的对序列的全局特征进行分析的 方法。 ( 1 ) 统计学和信息论的方法( r e i n e r t ,“口f ,2 0 0 0 ) 我们知道染色体序列不是随机序列并且现在的一些研究表明寡核苷酸在序列中出现的频 率、g c 含量、同义密码子的选择、氨基酸使用偏性等简单的序列统计量。都能在不同程度上标 识一条序列的来源( 无论这个序列来自编码区还是非编码区) ,即这些统计特征有物种差异性。 这种统计学和信息论的方法的生旨是把序列转化成另外一种形式,能够用线性代数或统计学的工 具方便的进行分析。这样,通过提取序列上一定长度的单词的统计和概率的特征,可以把一条原 始序列映射到一个简单的向量,然后对向量进行比较。 ( 2 )s o m 方法 神经网络方法在生物信息学中的应用十分广泛,1 酞a s h ia b e 等人提出了一种新的神经网络方 法用于序列特征的分析,那就是自组织映射方法( s e i f - o 唱i z i n g m a p ,s o m ) ( a b e “以,2 0 0 3 ) 。 自组织映射方法是一种非训练的神经网络方法,可以用来计算基因组序列中二联、三联和四联核 苷酸频率。对于处理多个物种的大量序列,s o m 方法能够有效地对高维数据进行聚类和可视化, 把具有复杂非线性关系的高维数据转化成具有简单几何关系的二维数据。1 址h i 等人用s o m 来 描述序列的密码子使用模式,从而使学习过程和映射结构与输入数据的顺序无关。对2 9 个细菌物 种进行研究发现,对于1 2 0 0 0 0 个1 0 k b 的序列,s o m 方法能够有效地识别物种特异性特征。 ( 3 )混沌理论 上面提到的方法需要对一定长度的单词进行统计,我们希望能够有一种特征描述方法完全独 立于规模的( s c a l e i n d e p e n d e n t ) ,与前后序列无关。基于混沌理论的方法脱离了单词的概念, 从而对两条序列的特征进行全局性的比较。j e 虢r e y 于1 9 9 0 年提出了c g r 一一c h a o sg a r n e r 印r c s e n t a t i o n 的方法( j e 彘r c y ,1 9 9 0 ) ,运用迭代公式对d n a 序列建立特征矩阵。他的理论被推 广和改进,于是发展出了新的u s 【一u n i v e r s a ls e q u e n c e m 印s 方法( a l m e i d a 锄d v i l l g a ,2 0 0 2 ) , u s m 适用于任意长度的基因组序列,用这种方法表现的序列特征通过映射间的距离来估计序列间 的相似程度。u s m 新颖的双向映射的特性,使得在多维连续空间准确地描述序列特征成为可能。 ( 4 ) k d i m o g o m v 复杂性理论 算法复杂性通常可以作为随机数的判据。k o l m o g o r o v 复杂性理论的基本原理是通过比较压 缩算法的复杂性来测量序列间的相似程度( l i 甜f ,2 0 0 1 ) 。由于目前为l 没有绝对的方法测量算 法的复杂性,因此只能对其进行估计( v y u g i n ,1 9 9 9 ) 。用这种方法对哺乳动物的线粒体基因 6 第一章绪论 组进行分析,发现序列的特征距离与它们的进化关系相吻合。虽然没有作更全面的实验但是 k o l m o g o r o v 理论仍不失为一种有效的序列特征分析方法。 ( 5 ) 功率谱方法( p 0 w e rs p e c n u ma n a i y s i s ) d n a 序列的周期性研究对于搞清楚基因组的基本结构非常重要。真核生物的基因组存在着 很大一部分的重复序列,比如卫星d n a 序列,小卫星d n a 序列,微卫星d n a 序列和转座元件等。 调查这些重复序列的不同的周期,可以从一个独特的角度阐明基因组的结构和功能的特征。 a t s u s h if u k u s h i m a 等人提出了一种基于功率谱分析的测量真核生物基因组周期性的方法。为了方 便处理,功率谱方法首先把基因组序列转化为二进制的序列。然后对序列进行频率空间内的变形 之后,提取序列的周期模式。那些隐藏在序列中的周期信号在功率谱中表现为峰值。 1 4 本课题的任务及主要研究成果 1 4 1 课题任务 现今对于物种的基因组序列分析主要依赖于序列的比对,或者是基于物种全基因组的基本特 征比如基因内容、基因次序等。前者的困难在于多序列比对的可靠性,并且在序列很多很长时, 比对几乎成为不可能:后者的困难在于对于直向同源基因的辨识,即排除基因传递和趋同进化等 的影响。本课题的任务就是用生物信息技术和方法,首先从最基本的d n a 序列中直接提取出能 够表示序列特征的信息,在此基础上建立基因组特征数据库,提供依据序列特征进行基因组相似 序列搜索机制:为了能够实现资源共享和远程访问的功能,适应在不同操作系统平台上具有通用 性的要求,避免重复开发的浪费,应采取跨平台的网页技术。然后用它作为分析工具研究不同物 种的基因组之间的关系,生物的进化分析等等,并且初步探索基于序列特征的基因组水平转移分 析方法。 1 4 2 主要成果 目前为止,基因组序列特征数据库系统( g s f d ) 已经完成了软件的整体设计,整体结构的 搭建和主要算法的实现。系统基于o r a c l e 数据库,采用c + + 语言开发后台管理系统,使用j s p 技术作为网页开发。完成了从后台下载原始序列数据,主要特征算法的实现。包括碱基对相关性、 双核苷酸相对丰度等算法,数据的存储,到前台用户搜索界面的设计。用户可以在数据库范围内, - ,- 东南大学硕士学位论文 指定需要搜索的序列以及相应的特征,来进行搜索查询。 然后借助于g s f d ,我们对人类基因组的序列进行了特征分析。实验结果发现,人基因组内 大部分序列都具有比较相近的特征值,说明彼此同源性比较高。另外人、小鼠、大鼠三者之间也 在基因组序列特征值上表现出了一定的相似程度,从而进一步论证了这三个物种的亲缘关系。 此外,我们还对r b b c 特征稳定性研究和基于b b c 特征的序列特征研究中发现的一些特别现 象做了更进一步的研究。发现了在人的基因组第7 号、1 0 号、1 6 号、1 9 号和y 号染色体上有一 些特征值和其他片段比较远的特异序列。推测其有可能从其他生物基因组转移而来。 最后我们利用b b c 特征对原核生物的水平转移基因进行了预测,对于b b c 特征和整体差别 较大的序列片段,我们推测其为可能的转移基因。与文献中其他的统计方法进行比较,发现用 b b c 特征探测出来的水平转移基因区域和其他方法统计出来的区域在很大程度上重合。 g s f d 系统的开发为相似序列在基因组范围内的搜索提供了良好的平台,有利于今后在基因 组序列特征分析方面进行进一步的工作。 8 第二章序列统计特征的理论基础 第二章序列统计特征的理论基础 与传统的基因组特征提取方法相比,统计方法提取序列特征的优点在于: ( 1 ) 不依赖于序列比对的可靠性: ( 2 ) 用比较小的序列片段计算出的特征可以反映出整条染色体序列的特征,所以一方面可 以节约计算的时间,另一方面染色体序列不完整不会造成麻烦: ( 3 ) 因为是完全基于序列基本信息的统计和计算,所以拥有的数据源很丰富,对于实验数 据的依赖性很小; ( 4 ) 它适用的研究范围较广,所提取的特征可以用来进行系统发生分析,也可以用来分析 序列来源以及特殊功能片段识别等。 本文选择的特征主要有两类,一类是基因组序列的碱基组成,另一类是碱基的相关性。这些 统计特征,从不同的角度提取出核酸序列的局部结构特性,经检验证明能够有效地对不同物种的 基因组序列进行区分,因此被选择作为本系统采用的特征。 2 1w f 特征 既然每条核酸序列都是由代表四个碱基的a 、t 、c 、g 这四个字母组成的,能够想到的最简 单的统计规律肯定就是d 1 q a 序列的单词频率( 。如果用k 表示要统计单词的长度,对于k 1 的 任何一个整数,w k 表示所有可能的长度为k 的单词组合的集合,很明显,对于一条特定的核酸 序列和一个属于集合w k 的单词w ,会有4 。中可能的单词组合,我们用f w 来表示单词w 在序列中 的相对频率,于是就可以把这个4 。维的向量( f w ) 。m 作为一条核酸序列的统计形式进行计算。 计算公式如下: f w = 警 - , 这里用n 。表示需要统计的单词在序列中出现的次数,l 代表序列的长度。 n u s s i n o v 对来自原核与真核生物的不同序列进行了深入的二联碱基频率的分析( n u s s i n o v , 1 9 8 4 ) ,由此研究不同d 1 q a 序列的组成异质性( c o m p o s i t i o n a i h e t c m g e n e 时) 。k a d i n 和他的同行 东南大学硕士学位论文 们对噬菌体,细菌和一些真核生物基因组的序列的不同碱基长度的单词频率( 主要是二联,三联 和四联碱基) 进行了细致的研究( k a r l i na n d c a r d o n ,1 9 9 4 ) 。c h r i s t i n e 等人认为( d u f h i g i l e 盯以, 2 0 0 5 ) ,单词越长,单词频率的特异性越强,而扫描窗口很小的情况下,单词过长也不会得到可 靠的估计。 尽管单词频率是一个十分简单的概念,但却是研究d n a 序列的一个非常有用的统计特征。 对于如今不断增长的庞大的基因组序列数据,很有必要运用单词频率从数据中获取信息。 事实证明,碱基单词频率这个特征能够很灵活的用来捕捉同一个生物体或者具有同源性的生 物核酸序列上存在的结构模式。而且已经发现不同生物种群的基因组序列通常反映出不太相同的 单词频率。因此我们可以把这样一个简单的统计特征作为研究大型d 】q a 序列的有用的工具 ( s i n h a t o m d a ,2 0 0 0 ) 。 2 2d r a 特征 d r a = 联核苷酸相对丰度( d i n u c l e o t i d er c l 砒i v ea b u n d a n c e ) ,是1 9 9 4 年k a d i ns 和 l a d u n g ai 提出的( k a r l i na 1 1 dl a d u n g a ,1 9 9 4 ) ,其计算公式如下: 瓦:旦 ( 2 2 ) p l pj 其中a 表示单个核苷酸出现的频率,凡表示二联核苷酸出现的频率。对于完全随机的序列并 且序列中相邻的两个核苷酸相互独立,那么理论上珊= a | d ,则巧的值应该为l ,所以一条序 列巧的值相对l 的偏差可以作为这条序列对该二联核苷酸偏性的评测。 用该公式分别计算线虫( c a e n o r h a b d i t i se l e g a l l s ) 的6 条染色体、小鼠( m u sm u s c u l 吣) 的 2 0 条染色体、果蝇( d m s 0 p h i l am e l a i l o g a s t c r ) 的6 条染色体和人( h o m os 叩i 明s ) 的2 3 条染色 体,结果如图2 1 所示。 可以看出,同一物种的染色体特征向量惊人的相似,不同的物种之间存在明显的差别。同样 用这个公式计算这些物种的线粒体序列,可以看出就u 特征来说,线粒体与常染色体有很大 的区别这也符合线粒体内共生起源的假设。这些结果初步表明了:d r a 特征可以作为物种的 一个特征提出来分析物种的基因组序列。 - 1 0 第二章序列统计特征的理论基础 ( a ) 线虫 ( c ) 小鼠( d ) 人 图2 1 线虫、小鼠、果蝇和人的染色体以及线粒体d r a 特征向量图 2 - 3 b b c 特征 b b c 特征反映的是碱基对的关联性( b a s e - b ec o n e l a t i o n ) ,是由孙啸教授提出的,该特征 由序列的互信息( m u t l l a li n f o m a t i o nf u n c t i o n ) 定义而来。序列的互信息计算公式如下: m ) = 毫绀l o g :( 等) ( 2 ,) | j ;lr t r l 其中p ,表示单个核苷酸n e a ,gc ,t 出现的频率, ( k ) 表示一对被k 个核苷酸分隔的核苷酸 n i 和n j 出现的频率。这样i ( 1 ( ) 表示,当识别到核苷酸x ,得到相距k 个核苷酸的核苷酸为y 时产 生的信息量( 以比特为单位) 。举两个例子来直观地说明l 的含义。 例子一:考虑一条随机序列,组成序列的各个核苷酸是独立无关的。直观上就可以看出,我 东南大学硕士学位论文 们不能从x 中得到任何y 的信息,所以对于任意k ,i ( k ) 都为零。事实上从公式( 2 - 3 ) 中也可 以得到相同的结果。由于所有的核苷酸统计上相互独立,所以由统计学公式可以得到:对所有的 i 、j 和k , ( k ) = rp j 。把这个式子代入到公式( 2 _ 3 ) 中,就可以得到l o g 中的因子为1 ,所以 i 就为零。 例子二:假设一条序列中每种核苷酸出现的概率都是l 4 并且一个核苷酸仅由它前一个位 置上的核苷酸决定,这样我们就可以计算出x 关于y 的信息量是2 ,即i ( k ) = 2 。如果随着k 的 增加,i ( k ) 的值单调递减,那么说明x 关于y 的信息量随着距离k 的增加而减少了,即x 和y 的相关性随着距离增大而减少。 由此我们可以定义序列的b b c 特征如f : 驰) = 扣) 1 0 9 2 ( 筹) 注。, 其中p i 和凡( 1 ) 的含义同上。k ( k ) 表示不同间隔的二核苷酸组合在k + l 长度上的平均相关性, 反映了核苷酸序列的一种局部特征。 同样用b b c 特征分别计算线虫、小鼠、果蝇和人的基因组序列,得到了与d r a 类似的结 果,如图2 2 所示。 经过计算分析,各个不同生物体的基因组本身存在着稳定性的差异,但是就b b c 特征的稳 定性来讲,k 值取2 时稳定性最好,这可能与蛋白质编码有关。因此本文中主要采用k = 2 时的 b b c 特征值。 1 2 第二章序列统计特征的理论基础 图2 2 线虫、小鼠、果蝇和人的染色体以及线粒体b b c 特征向量图 2 4 特征的扩展 d r a 特征反映的是两个碱基之间的相对丰度,当然也可以在此基础上进行扩展,计算三联 碱基的相对丰度,也就是1 1 认特征( t n n u c l e o 伽er e l a l i v ea b i l l l d n c e ) 。公式定义如下: :l ( 2 5 ) p l p ,p o 与d i 认类似,这里的p 独表示三联核苷酸出现的频率( k a r l i n 卸dc a r d o n ,1 9 9 4 ) 。 因为d n a 是双链螺旋结构,它的两条链是反向互补的,所以可以考虑对称性,使得d r a 和b b c 特征适应d n a 的结构。所以原来的维数为1 6 的特征向量将合并成维数为l o 的特征向 量,合并的规律如下: 查堕查堂堡主堂堡堡苎 a a = a a + 下r ,a g = a g + c t ,a c = a c 十g t ,a t = a t g a = g a + t c ,g g = g g + c c g c = g c c a = c a + t g ,c g = c g ,t a = 1 a 合并的方法有两种: ( 1 ) 简单地将d r a 和b b c 的1 6 维向量合并为1 0 维的向量,即先计算出d r a 和b b c 特 征向量,然后将特征向量的分量按照上面的规则合并。我们把这种方法合并后的特征向量分别称 为s d r a 和s b b c 。 一 ( 2 ) 在计算的时候就考虑反向互补序列,改变d r a 和b b c 特征的计算公式为如下: 岛户杀鬻篇 s , t 岛= 乃v ,( t ) = ( 弓( ,) + 只,( ,) ) l o g 我们把这种方法得到的特征向量分别称为c d f h 和c b b c 。 1 4 岛( ,) + ( ,) 2 ( b + 肼) o j i 历 ( 2 7 ) 第三章基因组序列特征数据库系统( g s f d ) 的设计 第三章基因组序列特征数据库系统( g s f d ) 的设计 在本章中,我们将详细介绍基因组序列特征数据库系统( g s f d ) 。首先将阐述g s f d 的总 体设计思想和系统架构,然后说明各个模块的具体设计。 3 1g s f d 系统的需求分析 g s f d 系统面对的用户群是从事功能基因组学研究的科研工作者,包括本实验室的学生和老 师以及校外的同行。因此,g s f d 系统应当提供从大规模基因组数据的录入,到序列统计特征的 计算,进而到按照序列特征之间的距离在全基因组范围内搜索相似序列,以及撮终对搜索结果进 行可视化的完整过程,并具有良好的跨操作系统平台性能,从而为用户提供一个完整且便于使用 的基于特征的基因组序列分析平台。 ( 1 ) 数据的下载和预处理 一些大型公共数据库比如g e n b a n k 等,提供了已经基本完全测序的物种基因组序列,包括 人、小鼠、大鼠、酵母、果蝇等。这些数据将成为我们的g s f d 的来源。可是每个物种的基因组 序列不是一个完整的文件,例如人有2 4 条染色体,每个染色体是由很多序列片段c o m i g 组 成的,每个c o n t i g 都是一个独立的文件,有自己的登陆号,这样人类整个基因组就有2 0 0 多个 c o n t i g 组成,所以如果手动的进行下载将是一件很繁琐的工作,因此我们的系统应该提供一个智 能工具进行自动下载。 另外每个下载的文件都有自己固定的格式,不能直接存储到我们的g s f d 数据库中,而是要 进行预处理,对文件进行解析,提取有效的信息和数据,这样才能为g s f d 数据库所容纳。 ( 2 ) 序列特征值的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 62552-3:2015+AMD1:2020+AMD2:2025 CSV EN Household refrigerating appliances - Characteristics and test methods - Part 3: Energy consumption and volume
- 重庆股票知识培训课件
- 人教版八年级物理上册 第四章《光的色散》分层作业练习题
- 重庆小面培训课件
- 图文转换分析(知识清单)-2026年高考语文一轮复习解析版
- 中建三局安装公司(智慧事业部)工艺标准库-电气篇试行版
- 重庆二造培训课件
- 重庆一日游课件
- 《学位论文写作》课程介绍与教学大纲
- 《翻译理论与实践2》课程介绍与教学大纲
- 教科版四年级上册科学全册教案
- 图形动画毕业设计
- 工会劳动竞赛课件
- 2025-2026学年苏教版小学数学五年级上册教学计划及进度表
- 2025年建筑工程-安全员C证-安全员(C证·上海)历年参考题库典型考点含答案解析
- 光伏项目施工组织设计方案
- 2025政府采购评审专家入库题库与答案
- 仪表安全知识培训课件
- 2025年三级老年人能力评估师考试题库(附答案)
- 婴幼儿营养与喂养理论知识考核试题及答案
- GB/T 18705-2002装饰用焊接不锈钢管
评论
0/150
提交评论