(概率论与数理统计专业论文)关于基因预测算法准确性度量标准的分析.pdf_第1页
(概率论与数理统计专业论文)关于基因预测算法准确性度量标准的分析.pdf_第2页
(概率论与数理统计专业论文)关于基因预测算法准确性度量标准的分析.pdf_第3页
(概率论与数理统计专业论文)关于基因预测算法准确性度量标准的分析.pdf_第4页
(概率论与数理统计专业论文)关于基因预测算法准确性度量标准的分析.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川大学硕士学位论文 摘要 关于基因预测算法准确性度量标准的分析 概率论与数理统计专业 研究生孙红卫指导教师朱允民教授 本文分析了评价基因预测算法准确性的两个主要标准一相关系 数c g ( c o e l a t i o nc o e f f i c i e n t ) 和近似相关系数a g ( a p p r o x i m a t ec o r r e i a t i o n c o e f f i c i e n t ) 的关系。首先在概率框架下给出了g e 和a g 的统计描述,阐明了 二者在概率意义上的差异,并系统的给出了1 a c i i g c i 的证明以及等号成立 的充分必要条件,最后用计算机模拟的方法显示了a g 与g c 之间大小差别的 影响因素,得出预测准确性的高低和假阳性和假阴性绝对差的大小是两个影 响i a g g a i 大小的主要原因。 关键词d n a 序列:基因预测算法;评价标准;核甘酸;相关系数;近似相 关系数。 四川大学硕士学位论文 a b s t r a c t a na n a l y s i so ft h em e a s u r e sf o rg e n ep r e d i c t i o na c c u r a c y m a j o r :p r o b a b i l i t ya n ds t a t i s t i c s a u t h o r :h o n g w e is u ns u p e r v i s o r :y u n m i nz h u t h ew i d e l yu s e dm e a s u r e sa ca n dg co fg e n ep r e d i c t i o na c c u r a c yh a v eb e e n a n a l y z e d f i r s t ,s t a t i s t i c a lf r a m e w o r k so fa ga n dc ch a v eb e e np r e s e n t e da n dt h e i r d i f f e r e n c ei ne s s e n c eh a v eb e e ne x p l a i n e d t h e ni ti sp r o v e dt h a ti a c i i g g lh o l d s e x c e p ts o m ep a r t i c u l a rc a s e sa n dt h ec o n d i t i o n sw h e na c = c ch o l d sh a v eb e e n p o i n t e do u t f u r t h e r m o r e ,i th a sb e e na n a l y z e dw h a ti n f l u e n c e st h ed i f f e r e n c eb e t w e e n a ca n dg ca n dc o n c l u d e dt h a tb o t ht h ep r e d i c t i o na c c u r a c ya n dt h ed i f i e r e n e eb e 、 t w e e nf pa n df nr e s u l ti nt h ed i f f e r e n c eb e t w e e na ea n dc c k e yw o r d s :d n as e q u e n c e ;g e n es t r u c t u r ep r e d i c t i o np r o g r a m s ;m e a s u r eo f t h ee v a l u a t i o n ;n u c l e o t i d e ;c o r r e l a t i o nc o e f f i c i e n t ;a p p r o x i m a t ec o r r e l a t i o nc o e f - f i c i e n t i i 四川大学硕士学位论文 第一章引言 生物学已经进入了基因组时代,人类基因组草图的绘制完成已经是几年前 的事情了,到目前为止,已有超过1 0 0 0 种物种的基因组测序工作完成或正在进 行中。所以解释这些d n a 序列所包含的意义,也就是基因组注释变得越来越重 要。而基因组注释的首要问题就是寻找基因,因为基因是能够最终被翻译成蛋 白的d n a 片断,是最有价值的部分。通过实验来发现基因的方法有很多,但是 它们非常耗时,耗资( 1 ) 。如果能找到准确而且快速的分析d n a 序列的计 算方法,将大大简化未标记序列的数据的分析。现在,许多可用的基因预测程 序都可以在英特网上找到,对这些程序的预测准确性的评价变得尤为重要,因 为基因预测算法的可靠性是使用者非常关心的问题。所以需要对这些基因预测 算法进行评价。 评价基因算法很重要的一点就是评价度量的选择,但是我们发现在这些评 价度量中有两个很重要的度量c c 矛d a c ,都是用来度量核苷酸水平上的全局准 确度,所以在评价预测准确性时,很多文章都是同时使用这两种度量,但是这 两个度量在有些情况下会相等,大部分情况下不相等,如何来解释这种情况? 这两个度量到底那个会更适合作核苷酸水平上的全局准确性的度量? 如何来解 释这两个度量的深层意义,以及二者之间有什么关系,什么原因会导致相等, 这对以后我们使用这两个度量时有了更深入的认识。下面我们先来介绍一下基 因组结构和基因预测算法。 1 1 基因组结构 众所周知,生命是由基因组决定的,每个生命都有基因组,携带着构成维 持该生命体生命形式所必须的所有生物信息。而基因组是由d n a ( 脱氧核糖核 酸) 组成,d n a 和r n a 都是由核甘酸单体构成的线性,无分支的多聚分子。每 个核苷酸包括三部分,一个单糖,一个磷酸基团和一个碱基。d n a 中,糖是2 一 脱氧核糖,碱基分别是腺嘌呤( a ) ,胞嘧啶( c ) ,鸟嘌呤( g ) 和胸腺嘧啶( t ) 。核 一l 一 四川大学硕士学位论文 苷酸之间通过磷酸二酯键形成包括几百万个核苷酸的d n a 多聚体或称多聚核苷 酸。活细胞中的d n a 是双链的,两链之间通过碱基对问的氢键维持着双螺旋结 构。碱基配对原则是a 与t 配对,g 与c 配对。因此,双螺旋中的两条d n a 链是 互补序列。 d n a 双螺旋是遗传信息的携带者,它在一定条件下可以准确地自我复 制。基因是d n a 分子中含有特定遗传信息的一段核苷酸序列,是遗传物质 的最小功能单位。基因信息由一些蛋白质来表达。基因信息表达成蛋白质 的过程分为”转录”( t r a n s c r i p t i o n ) 和”翻译”( t r a n s l a t i o n ) 两个过程。首先耍把 信息”转录”到单股的信使r n a ( 即m r n a ) 链上。m r n a 与d n a 的差别,仅在 于把d n a 序列中的t ( 胸腺嘧啶) 换成u ( 尿嘧啶) ,然后再有所剪接。细 胞液中有大量核糖体,他们是根据m r n a 上的信息制造蛋白质的生物化学工 厂,r n a 转录物中核苷酸序列代表的遗传密码决定了蛋白质的氨基酸序列。新 生的蛋白质耍折叠成特定的三维形状,才能有生物活性,在生命过程中发挥功 能。 生物学家将生物分为真核生物和原核生物。大多数真核生物的基因都是不 连续的,由包含蛋白质编码信息的外显子组成,这些外显子被非编码蛋白的 内含子所间断。而原核生物的基因组中,除少数几个例外,绝大部分是连续 基因,也就是一个基因中间没有内含子。在高等的真核生物中,除了一个基 因中含有非编码蛋白的内含子外,基因间也有很长的不编码蛋白的基因间序 列。所以在典型的高等真核生物中,能编码蛋白的序列只占很少部分,据估 计在染色体2 2 上只占3 ( 5 ) 。这样为了获得连续的编码序列,基因首先转 录成p r e m r n a ,然后经过复杂的过程,除掉中间的内含子,连接外显子,形 成m r n a ,然后再进行蛋白质的表达。 高等真核生物中,特别是人类基因绢中编码蛋白的序列含量少,这给基因 预测带来很大的困难。除此之外,尽管基因由基因间序列所隔开,但是有的基 因却嵌套在另外一个基因里面( 5 ) ,也就是一个基因位于另外一个基因的 内含子中,或者两个基因发生重叠( 7 ) 。还有分布在大量基因组序列中的 拟基因( 类似真基因的非功能序列) 进一步地使得基因预测变得复杂。 2 一 四j f i 大学硕士学位论文 调控区域在基因表达中起着重要的作用,它通常是一段d n a 序列,用于调 节其他基因的表达。它影响了一个基因表达的蛋白质在细胞中的功能,活性和 作用。也是用来进行基因预测很重要的信号。但是一个调控区域相对于它的目 标基因,位置并不总是固定的。比如,基本的调控位点,像t a t a 和c a t ,通常 位于接近转录起始位点的上游。而其他的位点像增强子和沉默子,可以位于离 个基因较远的上游和下游区域,有时甚至位于一个基因的内含子中。 以上关于基因组结构的简单回顾,让我们知道在未标识的d n a 序列特别是 在高等真核生物的d n a 序列中进行基因预测是非常复杂的工作。下面我们来介 绍基因预测算法,主要是针对较复杂的高等真核生物的预测算法。 1 。2 基因预测算法 在过去将近2 0 年里,研究者一直在发展能够自动方便地识别基因的基因预 测算法。这些方法可大体分为两种:序列相似性搜索和整合的成分与信号搜 索,后者又称为从头分析基因预测。 序列相似性搜索是一种用得很广泛并取得很大成功的一种基因发现方法。 是基于序列之间的保守性,用来搜索未标记序列与公共数据库中已标记序列之 间的相似性区域,如果它们之间有显著的相似性,就表明它们是同源的,也就 是有共同的进化祖先。我们就可以用己标记序列的信息去推断未标记序列的基 因结构和功能。虽然序列相似性搜索方法在很多情况下是有用的,但是己表明 在新发现的基因中大约有5 0 在数据库中没有相似的同源基因( 5 】) 。这些 结果表明了序列相似性搜索的局限性。 第二种基因预测的计算方法是将编码统计量和信号检测整合到一个框架 下。由于在编码区和非编码区的统计性质有差别,比如每个核甘酸出现的频率 在外显子,内含子,以及基因间序列中是不同的。核甘酸的相关性( 两个特定 核甘酸同时在两个特定位置出现的可能性) 在这三个区域里也是不同的。这些 可通过统计模型的编码统计量来检测。d n a 序列中的用来调控基因的表达的调 控序列,如启动子元件,转录终止信号,剪接过程中的供体位点和受体位点, 翻译中的起始密码子和终止密码子,可以被用来作为预测基因的信号。许多不 四川大学硕士学位论文 同的模式识别的方法可以被用来做信号传感器,如权重矩阵,神经网络,决策 树以及隐马尔可夫模型等。单独用编码统计量,会错过短的外显子,因而无法 很可靠的预测外显子内含子边界,而单独用信号预测,虽然可以预测出真实的 外显子内含子边界,但也会产生大量的假阳性位点。因此正确的基因预测方 法是综合编码统计量和信号检测,这样才能大幅度的增加基因结构预测的准确 性。另外,编码统计量和信号模型都要从训练集中学习:从训练集里计算在基 因不同区域( 外显子,内含子以及基因间区域) 低聚核甘酸发生的频率;通过 训练集里的信号序列比对来建立信号模型( 3 ) 。 基因预测算法的发展经过了只能识别简单的基因结构到现在能识别比较复 杂的基因结构的变化,开始时的预测算法只能识别出只含有一个基因的序列, 很少识别出启动子位点。现在新发展起来的算法能够识别比较复杂的基因组 结构,包括整个完整的d n a 序列或一部分d n a 片断上的任何数目的基因。这 些算法有g e n i e ,g e n e m a r k ,g e n e s c a n ,和h m m g e n e 。但是,仍有一些调控区 域,p o l y a 位点,重叠的基因以及嵌套的基因等没有识别出来。然而对于编码 蛋白序列的预测已经是很重要的进步,并且应用广泛,并取得很大的成功。 1 3 评价度量的选择 现在已有的基因预测算法有很多,它们的预测能力可以从二个水平上进行 衡量:核苷酸水平,外显子水平。预测算法主要是识别出那些d n a 片断是能够 编码蛋白的基因片断,所以主要是看预测出的基因的准确程度。 1 3 1 核苷酸水平 由于d n a 序列由核苷酸组成,这些核苷酸要么是编码蛋白的,要么是不编 码蛋白的。在核苷酸水平上衡量预测算法的准确性,主要是看预测序列对每个 核苷酸是否是编码核苷酸的判断是否准确。在一条d n a 序列上,如果一个核苷 酸为编码核苷酸,预测算法判断也为编码核苷酸,则判断准确,在这条d n a 序 列上,所有正确判断为编码核苷酸的总数我们记为t p ( t r u ep o s i t i v e ) ;如果 一个核苷酸是非编码的,但是预测算法判断为编码的,则判断错误,我们将这 一4 四川大学硕士学位论文 n u c l e t i d el e v e l 献u 罄军毒哟 i i 、- 一l 、l 、1 j p r e d i c - :i t i o n 一三兰 _ l 三三一 图1 3 1 核甘酸水平上真实d n a 序列与预钡i i d n a 序列的比较。c o m p a r i s o no fr e a l i t y a n dp r e d i c t i o no nn u c l e o t i d el e v e l 条d n a 序列上所有判断错误为编码核苷酸总数记为f p ( f a l s ep o s i t i v e ) 。另外 还有判断正确为非编码核苷酸总数我们记为丁( t r u en e g a t i v e ) ,以及判断错 误为非编码核苷酸总数记为f ( f a l s en e g a t i v e ) 。这样t p + f 为d n a 序列 中真实的编码核苷酸总数,而t + f p 为d n a 序列中真实的非编码核苷酸总 数。同样,t p + f p 为预测算法判断为编码核苷酸总数,t + f 为预测算 法判断为非编码核苷酸总数。 敏感度( s e n s i t i v i t y ) 和特异度( s p e c i a l i t y ) 是两个广泛应用的度量。 沁熹蒜 印= # 簖 从定义可以看出,敏感度衡量的是预测算法预测准确的编码核苷酸相对于所有 真实编码核苷酸所占的比例。而特异度衡量的是预测算法预测准确的编码核苷 酸相对于预测出的所有编码核苷酸所占的比例。敏感度和特异度衡量了预测算 法在编码区预测的能力。值得注意的是,我们如果将所有的核苷酸都预测成编 码核苷酸,显然这不是好的预测,但是s 礼= l ,如果将只预测几个核苷酸作为编 四川大学硕士学位论文 码的,这也不是很好的预测,但是这也会得到很高的s ,所以要将s n : l z p 联 合起来看。另外,s 礼和s p 只涉及到编码区的预测准确性,没有考虑非编码区 的预测准确性,所以需要一个综合的度量能够衡量全局的准确性。 很多预测算法的文献更喜欢用相关系数c g ( c o r r e l a t i o nc o e f f i c i e n t ) 来衡 量预测算法的全局准确度, n n t px t n f pxf n ul 一:j = = = = = = = = = = = = = = = = = = = = = = = = = = = = = := = = = = = := = = = = := = = = = = = = = = = = 、( ? p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f ) 但是它的深层意义我们没有发现有文献讨论过。b u r s e t 和g u i g o ( 1 9 9 6 ) 在 他们的文章中指出,当分母中的四项中有一项为零,即t p + f ,t + f p ,丁尸+ f p 和t + f 中有一项为零,则g g 就会变得无意义。如t p + f p o ,意味着预测序列中全都是非编码核甘酸,这在预测中是有可能发生的, 但这只是极端的情况,不能因为极端的情况不适合,就否定c c 是个好的度 量。 为了能使以一h 极端情况也可以计算,b u r s e t 和g u i g o ( 1 9 9 6 ) 提出了一个 新的度量a c ( a p p r o x i m a t ec o r r e l a t i o n ) ,它在任何情况下都能计算。 a e p = ;( 羔+ 歹芦舌芋f 芦+ 揣+ 热) a c = ( a c p 一0 5 ) 2 后面我们会详细讨论这两个度量。 1 3 2 外显子水平 在这个水平上,是通过比较预测出的外显子与实际的外显子比较来衡量预 测的准确性。比较广泛应用的一种方法就是考虑一个外显子完全预测准确, 也就是预测出的外显子与实际的外显子完全对齐,才算这个外显子预测准确 6 一 四川大学硕士学位论文 ( 2 】) 。当然也可以考虑预测出的外显子有一边预测准确,而另外一边没有 预测准确的情况( 8 ) 。 b u r s e t 和g u i g o ( 1 9 9 6 ) 中也用敏感度和特异度来度量外显子水平上的准 确性,有的文献( ( 3 ) 为了区别核苷酸水平上的敏感度和特异度,用e s n 来 表示外显子水平上的敏感度,用e 却来表示外显子水平上的特异度。 胁= 耥然嚣鬻 预测准确的外显予总数 e s p 。丽丽霸丽两豆薇 从它们的定义可以看出,e s n 表示所有真实的外显子中被预测算法预测准 确的外显子所占的比例,而e s p 的定义表示预测算法预测出的所有外显子中预 测准确的外显子所占的比例。 b u r s e t 和g u i g o ( 1 9 9 6 ) 还提出了另外两个度量w e ( w r o n ge x o n ) 和w e ( m i s s i n ge x o n ) 。,。 待测序列中没有被预测到的外显子总数 朋占2 雨瓣霸丽移匝寻百西一 预测序列中完全预测错误的外显子总数 “ 预测序列的外显子总数 m e 表示所有的真实的外显子中没有被预测出的外显子所占的比例, 而w e 表示所有预测的外显子中完全预测错误的外显子所占的比例,这里的 “完全预测错误”的意思是指预测出的外显子与真实的外显子没有个核苷酸 重叠, 在外显子水平上进行评价主要是看预测算法对于一些d n a 序列的信号( 剪 切位点,起始密码子,终止密码子) 的鉴别能力,在核苷酸水平上具有高准确 度的预测算法,如果在大部分外显子的边界都是预测错误的,那么这个算法在 四川大学硕士学位论文 外显子水平上就是一个低准确度的算法。所以外显子水平上的度量是对核苷酸 水平上度量的一个补充。 现在新发展起来的预测算法,像h m m g e n e ,g e n s c a n ,g e n i e ,在核苷 酸水平上准确度都在0 9 ( a c 或c c ) 左右,但是在外显子水平上,却只 在0 7 o 8 ( ( e s n + e s p ) 2 ) 之间( 3 】) ,这说明了新发展起来的算法在 编码核苷酸的位置识别上已经达到很高的水平,但是对d n a 序列信号识别的能 力还需提高。 四川大学硕士学位论文 第二章主要结果的叙述 b u r s e t 和g u i g o ( 1 9 9 6 ) 系统的讨论了评价基因预测算法的度量选择问题, 为这个领域的度量标准化作出了贡献但是他们还有一些问题没有解决,特别 是衡量核苷酸水平上的全局准确性的两个度量g g 和a c ,这两个度量的作用是 一样的,但是会出现不同的值,b u r s e t 和g u i g o ( 1 9 9 6 ) 也没有找到否定e g 的 充分理由,只有同时使用两个度量,而且经过试验结果发现二者很接近,并且 发现i a c f f gc f l 成立。这使得我们对这两个度量产生兴趣,到底这两个度量 的深层意义是什么? 能否将i a c i 之j c o l 证出? 以及它们在什么时候会出现相 等? 什么导致了它们之间的差异? 我们的结果对于b u r s e t 并d g u i g o ( 1 9 9 6 ) 的工 作是一个补充,使研究者在使用时对这些度量时有了更明确的认识。 我们下面分为三部分,首先在统一的概率框架下给出g g 和a g 的统计描 述,得出g c 是衡量真实序列和预测序列编码分布之间的线性相关性,而a g 与 四个条件概率的算术平均密切相关。然后给出了i a c l2l g c l 的理论证明,并 指出a g = g g 当且仅当? p = r 或f p = f 或? j px ? = f p f 。最 后采用计算机模拟的方法,讨论了影n n a c 与c c 差别的因素,即预测准确度 和i f p f i 是影响a g 和c e 之间差别的两个主要因素。 9 、 四川大学硕士学位论文 第三章相关系数( g c ) 和近似相关a ( a c ) 自9 统计描述 为了在概率框架下给出c c 幂 1 a c 的统计描述,首先认为真实序列或预测序 列中任意个核甘酸位置上是编码核苷酸还是非编码核苷酸是随机的。用随机 变量表示真实序列任意一个核甘酸位置上是编码或非编码,用随机变量q 表示 预测序列里任意一个核甘酸位置上是编码或非编码, = 1 ) 表示真实序列中任 意一个核甘酸位置上是编码, = 一1 表示真实序列任意一个核甘酸位置上是 非编码,f ”= 1 1 表示预测序列任意一个核甘酸位置h 是编码, q = 一1 ) 表示 预测序列任意一个核甘酸位置上是非编码。 = 1 ,q = 1 真实序列和预测序列 同一个核甘酸位置上都为编码, = l ,? 7 = 一1 ) 表示在真实序列和预测序列的 同一个核甘酸位置上,真实序列中为编码核甘酸,预测序列为非编码核甘酸, 其他情况类似,即我们有 i 1在真实序列的任意一个核甘酸位置上是编码核甘酸 i l 在真实序列的任意一个核甘酸位置上是非编码核甘酸 j 1在预测序列的任意一个核甘酸位置上是编码核甘酸 i 一1 在预测序列的任意一个核甘酸位置上是非编码核甘酸 所以可以得出 p ( = 1 ) = t p + - f n ,尸 = 一1 ) = f p 1 + - t n p t = i ) = t p _ + - f p ,p q = 一1 ) = f n + 元t n p ( = l ,叩= 1 ) = 百t p ,p i e = 1 ,卵= 一1 ) = 百f n p = 一1 ,7 7 = 1 ) = 百f p ,眯= - 1 , 7 7 = 一1 ) = i t n 其e f n 表示序列长度,即一条序列中核甘酸的总数,t p ,丁,f p ,f 的意 义见第1 _ 3 1 节。 一1 0 四川大学硕士学位论文 用来衡量预测全局准确度的相关系数c c ( c o r r e l a t i o nc o e f f i c i e n t ) ,经过 计算发现: 口g 一必) ( 叩一勖) 仉2 页万i ;广 t p t n f p f n 、( t p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f n ) 我们将真实序列与预测序列放到概率框架下后,发现g g 正好等于随机变 量f 与7 7 的相关系数,也就是说c c 是衡量真实序列和预测序列编码分布之间的 线性相关性,在概率中,用相关系数来表示两个随机变量之间的相关性是很自 然的选择,所以用相关系数g g 来衡量两个真实序列和预测序列的相关性也是 很自然的。 但e g 有个缺点,就是在极端情况下是不可计算的( b u r s e t 和 g u i g o ( 1 9 9 6 ) ) 。如果c c 中分母中有一项为零,即t 尸+ f n ,t + f p ,t p + f p 和t + f 中有一项为零,则g g 就会变得无意义。如t 尸+ f p 0 ,意味着 预测序列中全都是非编码核甘酸,这在预测这种情况虽然极少,但是也是有可 能发生。 这种极端情况就是真实序列完全由非编码核苷酸组成,或者预测序列也 完全由非编码核苷酸组成,这种情况真实序列或预测序列在统计框架下只 能用常数随机变量来描述,而关于常数随机变量,在概率中,相关系数没有 相应的定义。于是b u r s e t 和g u i g of 1 9 9 6 ) 想用另外一个度量a c ( a p p r o x i m a t e c o r r e l a t i o n ) 来弥补这个缺陷。 在给出a c 之前,先给出两个度量s n 和跏的统计描述。 耻茄蒜却= t p + l f p 6 n 2 j 巧i _ = 丽。p 2 n s n 表示真实序列所有编码核甘酸中被预测准确的核甘酸所占的比例,称 为敏感度( s e n s i t i v i t y ) 。却表示预测序列所有编码核甘酸中预测准确的核甘酸 四川大学硕士学位论文 所占的比例,称为特异度( s p e c i f i c i w ) 。如果在上面的统计框架下,我们可以 这样来描述 s n = p 卵21 i = 1 ) 2 赫 下p s p2p = 1 1 q2 1 ) _ 赫 s n 和5 _ p 都是评价编码核甘酸的预测准确性,而没有涉及到非编码的预测 准确性,b u r e t 和g u i g o ( 1 9 9 6 ) 为了给出全局准确性,提出了近似相关系 数a c ( a p p r o x i m a t ec o r r e l a t i o n ) 。 a c 尸= 五1 ( 鼎+ 亍毛;f 芦+ 鼎+ 淼) a c = ( a c p 一0 5 ) 2 如果在统计框架下来描述它,即为 a c p = :( 尸 q = l k = 1 ) + p = 1 i 町= 1 ) + p q = 一1 1 = 一1 ) 4 - 尸 = 一1 l ? 7 = 一1 ) ) b p a c p ( a v e r a g ec o n d i t i o n a lp r o b a b i l i t y ) 为四个条件概率的算术平均,即 编码区预测的敏感度,特异度和非编码区预测的敏感度,特异度四项的算术平 均,也就是它是敏感度和特异度的一种平衡。 由于a c p 的值域是0 ,1 1 ,为了 e c c 作比较,把它变换成a c ,a c 的 值域为f 一1 ,1 1 ,与c c 相同。a c 在任何情况下都可以计算,如果有分 母为0 的项出现就计算剩下的项的算术平均。如果其中有一项为零, 如t p + f p = o ,则t + f o ,而t p + f o t n + f p o ,我们取其他不 等于零的三项作算术平均 四川大学硕士学位论文 a g p = 1 ( 鼎+ 蒜+ 志) 若有两项等于零,如t 尸+ f p = o 目t p + f = 0 ,则t + f o t n + f p 0 ,则我们取不等于零的两项作平均 a c p = ;c 熹+ 熹, 这样在任何情况下,a c 都是可以计算的。 虽然g g 在极端情况下不能计算,但是它是一个很自然的度量,不能因 为极端情况下不能计算而放弃它。我们从b u r s e t 和o u i g o ( 1 9 9 6 ) 和r o g u ee t a l ( 2 0 0 1 ) 对各个算法的评价中,计算了预测算法没能预测出任何编码核苷酸的 序列占所有待测序列的百分比,发现平均值为35 5 ,标准差为2 4 3 。也就 是平均2 0 0 条序列巾只有7 条左右是不能计算c g 的,只占很少一部分。所以我 们建议在比较两个预测算法时,同时用a c 和g c 两个度量,如果两个指标都是 算法a 都是高于算法b ,才肯定说算法a l t 算法b 预测准确,如果只有a c 这一 个指标算法a 比算法b 高,那么我们不能说算法a 比算法b 预测准确,因为虽然 在敏感度和特异度的综合水平上,a 优于b ,但是在真实与预测分布相关性意 义上,a 并不优于b 。 以上我们在概率框架下给出了a c 和c g 的意义,a c 考察了敏感度和特异 度的综合水平,而c c 衡量了真实与预测分布之间的线性相关性。它们的意义 不同,所以我们建议在衡量核苷酸水平上预测准确性时,最好同时使用两个度 量。 四川大学硕士学位论文 第四章 i a c lrl g g | 白勺证明 b u r s e t 和g u i g o ( 1 9 9 6 ) 通过实验发现l a g i c c l ,而且在9 0 的情况 下,a c 年 j c c f f j 差不超过00 5 。这意味着a c 和c c 在数值上还有一定的规律 性。我们证明了1 a c l l c c i 确实成立,而且找出- g a c 和c c 在什么情况下会 相等。下面我们以命题的形式给出这个结论,并给出证明过程。 命题当( t p + f ) ( 丁+ f p ) ( t p + f p ) ( t n + f ) o n ,i a c ik 1 c c l 成立,a c = c c 当且仅当丁p = t 或f p = f 或t p t :f 尸f 成 立。 证明 a c = ( a c p 一0 5 ) x 2 = ;( 焉- t 一t p 生+ f p + 蒜+ 志) 一, =互l 亍1 丽一十亍五r 丽十亍五f 丽j 一1 = ;( t pt nf p 开- + f n + 蓟f i 币一t p + f p f n t n j rf n t p ( t + f p ) ( t p + f p ) ( t + f ) 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) t ( t p + f ) ( t p + f p ) ( t + f ) 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) f p ( t p + f ) ( t + f 尸) ( 丁+ f ) 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) f ( t p + f ) ( 丁+ f p ) ( t p + f p ) 2 ( t p + f v ) ( t + f p ) ( t p + f p ) ( t + f ) :! ! 三! ! 型竺兰! 盟21 1 兰三翌二兰兰! 坐2 ! ! 坐! 竺21 1 兰! 型2 1 1 1 盟 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) 一1 4 四川大学硕士学位论文 一 ! ! ! ! 型2 ( ! ! ! 型2 1 坐! 1 2 ( t p + f ) ( t + f p ) ( t p + f 尸) ( t + f ) ( 丁p r 一f p f j v ) ( 2 ( t 尸t + f p f ) + ( t p + t ) ( f p 十f ) ) 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) ( t p 丁一f p f ) 2 ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) ( t p ( f p + t ) + 丁p ( f + t ) + f p ( f + t ) + f ( t + f p ) ) i 1 ( ( t p + f n ) ( t n + f p ) + ( t p + f p ) ( t n + f n ) ) ( t p t 一f p xf ) ( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) c c :三呈兰三些三竺呈兰兰些 、( t p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f ) ( ? p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f n ) ( t p xt 一f p f ) ( t p + f ) ( t + f p ) ( t p + f 尸) ( t + f ) 当( t 尸+ f ) ( t + f 尸) ( t p + f 尸) ( t v + f ) 0 ,t p x t n f p x f = o 时,a c = c g 兰0 。 当( t p + f ) ( 丁+ f 尸) ( t p + f 尸) ( t + f ) 0 ,t p x t n f p x f o 时,由于 1 i ( ( t p + f n ) ( t n + f p ) + ( t p + f p ) ( t + f ) ) 识开i 而项丽了再砸可可币丽可厕 i s 删i a c i l c g l 成立。 综上知,( t p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f n ) o 时,i a c i i c c l 成2 。 ( t p + f n ) ( t n + f p ) ( t p + f p ) ( t n + f n ) 0 ,t p x t n - f p x f n 5 一 四川大学硕士学位论文 0 时 a a = c c ;( ( t 尸+ f n ) ( t n + f p ) + ( t p + f p ) ( t n + f n ) ) = 抓开耳面顶砑汀可可z 西可可面订7 丽 ( t p + f ) ( t + f p ) = ( 丁p + f p ) ( t + f ) f p ( t p t ) = f ( t p t ) ( t p t ) ( f p f ) = 0 t p = t no tf p = f n 综上知,( t p + f ) ( t + f p ) ( t p + f p ) ( t + f ) 0 时,a c = c c 当且 仅当t p = t n 或f p = f 或t 尸t n = f p f n 。 从上面的结论中可以看出,当t p = t ,f p = f ,t p t = f px f 三个条件中有一个成立,则a g = g g 成立。其中t p t = f p f 可能 性很小,因为绝大部分的预测算法预测准确性都在0 6 以上,也就是正确预测的 核苷酸会超过错误预测的,即大部分情况下t p f p t f 。t p = t 的 情况下也比较少,因为在待测序列中编码核苷酸的数目都远远小于非编码核菅 酸的数目,正确预测成编码核苷酸总数( t p ) 也往往远远小于正确预测成非 编码核苷酸总数( t ) 。所以大部分情况下a g = g g 是由于f p = f ,即 将非编码错误预测成编码的核苷酸总数( f p ) 等于将编码错误预测成非编码 的核苷酸总数( f ) 。 1 6 一 甘 一 一 一 四川大学硕士学位论文 第五章影响a c 和g c 间距离的因素 在第四部分中,我们给出了 a g f c c 的证明,以及经过分析,大部 分情况下a c = c c 是由于f p = f ,但是二者到底差别的大小到底是由什 么决定的,还没有给出分析。我们发现二者的差别要受多个因素的影响,如 待测序列编码部分占的百分比,以及t p ,t ,f ,f p 等。我们发现在理 论上很难给出严格的结论,我们退而求其次,用计算机模拟的方法来分析影 响l a c g g l 的因素。我们做了不同序列长度,不同编码含量的序列,发现主 要的影响因素是预测准确度和f f p f f 的大小。 5 1 模拟一 假定一个长度为7 0 0 0 b p 的d n a 序列,7 0 0 0 b p 大概为n e w s e q ) 孛0 集中的 平均长度( n e w s e q 序列集为b u r s e t 和g u i g o ( 1 9 9 6 ) 评价预测算法时用的 待测序列集) ,编码核甘酸为1 0 0 0 b p ( 约占序列总长的1 4 ,为n e w s e q 序列 集中编码核甘酸所占的平均比例) 。在预测序列中,t p 在1 0 6 p 和1 0 0 0 6 p 之间 变化,t 在4 5 0 0 b p 和6 0 0 0 b p 之间变化,f = i 0 0 0 b p t 尸,f p = 6 0 0 0 b p t ,得n i a c c c l 与c c 的关系( 见图5 1 1 ) 。我们只计算了c c 0 6 的情 形,因为在b u r s e t 和g u i g o ( 1 9 9 6 ) 评价的所有算法在核甘酸水平上都达到 了0 6 。 为了比较一下不同编码含量序列在这个方面的不同,我们分别计算了编码 含量为1 7 和1 0 的序列,n 仍然取7 0 0 0 ( 见图5 12 ) 。 从图5 1 1 中可以看到,c c 和a g 非常接近,并且随着c c 的增大,i a c c g i 的最大值呈减小趋势;其次同一个c c 可以对应不同的i a c c c i ,这是由于 几个不同的预测序列,用c c 评价二者相同,但是用a c 评价是不同的,这样同 个c c 可以对应不同的a c 值,所以对应不同的1 a c c c i 。每个c c 值,对应 的不同的i a c c cj ,可以达到相对比较大,也可以达到最小值o 。 四川大学硕士学位论文 图51ll a c c c l 与c c 的关系( n = 7 0 0 0 编码约古1 4 ) 。t h er e l a t i o n s h i pb e t w e e n l a e g c la n d c c c o d i n g :l o c o d i n g :l7 图5 1 2 l a c g g i 与c c 的关系( n = 7 0 0 0 ,编码分别约占l o 和1 7 ) 。t h er e l a t i o n s h i p b e t w e e nl a c c c la n dc c 一1 8 一 四川大学硕士学位论文 可以对照一下图5 1 2 ,编码含量分别为1 7 和1 0 时的情况,图像的形状 跟图2 很类似,都是随着c c 的增大,l a c c c l 的最大值呈减小趋势,所以可 以总结出e g 即预测准确性是影n 向i a c c c i 大小的因素之一。不同的是,只是 编码含量为1 0 的图像中,i a c g c | 白最大值要大于编码含量为1 4 的,而 编码含量为1 7 的又小于编码含量为1 4 的,所以可以看出,相同的c g ,编 码含量越高的,f a c c c i 的最大值越小,也就是a g 与c c 越接近。 但是同一个g g ,对应不同的i a e c e i ,即a g 与a g 可能出现差别比较大 的情况,也可能出现差别比较小的情况。下面我们用另外一个模拟来分析一下 原因。 5 2 模拟二 在同样的序列中,取定g g 一个邻域【o 8 0 ,o 8 1 ,f a c e g f 与对应的i f p f n i 关系见图52 1 。 图5 2 1 0 8 0 茎c c 0 8 1 ,n = 7 0 0 0 ,编码约占1 4 时,l a g c c i 与1 f p f l 的关 系。t h er e l a t i o n s h i pb e t w e e ni a c c c la n dl f p f 1w h e n0 8 0 c cs0 8 1a n d n = 7 0 0 0 一1 9 一 四川大学硕士学位论文 图5 2 208 0 c cs08 1 ,n = 7 0 0 0 ,编码分别约占- 1 0 和1 7 时,i a c g c i 与l f p f l 的关系。t h er e l a t i o n s h i pb e t w e e ni a c c c ia n di f p f 1w h e n o8 0 c g 0 8 1a n dn = 7 0 0 0 从图5 2 1 中可以看到,图中都有两条曲线,即每个 f p f f 对应两 个i a c c c i ,这是因为当f p f 时。可以对应同一个i f p f 【,这样就会出现同一个l f p f f 对应两个a c 和c c ,所以对应两个r a c c e | o 其中上面一条线是f p f 时,对应的f a c c c f 。从图中看出这两条线都是单调递增的,即随 着i f p f 1 的增大,i a c c c l 增大。 从图5 2 2 可以看出,在不同的编码含量的序列中,图像的基本形状与 图4 相同,都随着1 f 尸一f i 的增大,i a c c cl 增大。只是编码含量大的,同 样的f f 尸一f f 对应的r a c c g f 要小一些,即a g 与g g 要更接近。 由以上分析,我们可以得出结论:当gc r 增大时,即预测越准确 时,f a c c c f 的最大值随之减小;在c c 的一个小邻域内,当f f p f f 越 小时,即f p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论