基因预测原理介绍_第1页
基因预测原理介绍_第2页
基因预测原理介绍_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因预测原理介绍基础概念:随机过程:一族无穷多个、相互有关联的随机变量。记为:&(t),tGT}由于参数t经常代表时间,故称为随机过程。T常为自然数,整数或区间。当参数取值为整数时,也称为随机序列。马尔可夫过程:取值为整数的随机过程,若t=i时刻的取值只与时刻i-1取值有关,

则称为马尔可夫过程,亦称为一阶马尔可夫链。(丁f}}{兀,T,fc}}隐马尔可夫模型:存在一个隐序列H,它是不可观测的,且由以下参数生成:a邓I门其中na为初始状态出现概率;Ta0为转移概率,即ta0=P(hi=pIhi-1=a);a,p属于{O};{O}为字符集,即隐序列由哪些字符组成。观测的结果称为明序列O,它由隐序列按照生成概率eaa生成。其中eaa=P(aIa);fa}为明序列字符集。隐马氏模型的三种典型问题:可能性问题:给定模型参数,当观察到一个明序列时,这一明序列确实由给定模型生成的概率有多大?解码问题:给定模型参数,当观察到一个明序列时,这一明序列所对应的最可能的隐序列是什么?学习问题:观察到足够多明序列时,如何估计转移概率和生成概率(有的地方叫发射概率)?基因组编码区的隐马模型:属于解码问题。假设基因组由两种功能区域组成,即编码区和非编码区。分别由字母c,n代表。转移矩阵为同种字母延伸或变为另一种字母的概率。初始状态概率为第一个字母出现c或n的概率。明序列由A,C,G,T四个字母组成,生成概率分别为编码区和非编码区四个字母出现的概率。半隐马模型:隐序列的每一个状态持续时间(持续长度)是一个取值为正整数的随机变量,它由另外的概率分布来描述。因为在隐马模型中,状态持续长度为几何分布,这与生物序列的实际情况不符,因而基因预测实际上采用基于编码区长度分度的半隐马模型。马尔可夫阶次:在马尔可夫链中,若t=i时刻的取值只与其相邻前N个时刻的取值有关,则称为N阶马尔可夫链。GENSCAN采用的是二阶半隐马尔可夫模型,即基因编码区某碱基的出现概率与其前两个碱基有关,加上其自身正好是一个密码子。BGF采用的是五阶半隐马尔可夫模型,加上其自身正好是两个密码子。基因,在本文仅指蛋白编码基因,暂不包括非编码RNA基因。发展背景:隐马尔可夫模型(HiddenMarkovModel),简记为HMM,是目前非常流行的数学方法,最初在语音识别领域得到成功的应用。HMM是一个双重随机过程,其中一个过程不能被观察到(即是隐藏的),但是这个随机过程却控制(或影响)另一个随机过程,而后者是可以被观察到的。在基因预测中,这个隐藏的过程对应着基因的真实结构(如外显子,内含子,剪接受体和供体位点,起始密码子,终止密码子,启动子等),而可观察到的过程对应着基因组序列(A,G,C,T)。基因预测属于HMM的三个基本问题中的第二个,即给定模型和观察序列,如何确定在某种意义上为最优的对应的状态序列,解决这个问题的算法叫Viterbi算法,实际上这就是动态规划算法,动态规划的出发点是Bellman提出的最优化原理。由于HMM只考虑相邻两个状态之间的联系,而不能考虑远程相关,因而在基因预测中实际采用的是改进了的HSMM(HiddenSemi-MarkovModels)。GENSCAN是从未注释的基因组序列中寻找基因的经典软件,它所用的数学方法是构造基因的HSMM概率模型。目标是确定编码外显子的位置,预测序列中的基因个数,既能处理完整的基因,也能处理不完整的基因,而且能够包含在正负两条链上的基因。基因模型中包含的基因特征有:剪接信号模型,外显子长度分布,启动子(promoter)和poly-A信号,考虑到不同的C+G组分区域在基因密度和结构(例如内含子长度)方面的差别。GENSCAN还能够对自己预测的可靠性给出有用的估计。还考虑了亚最优外显子,它们对应于基因的异常剪接。继GENSCAN之后发展起来的基因预测软件有Fgenesh,BGF,GlimmerM等。EoEIcIiFTFA图GEEinit态转移图EoEIcIiFTFA图GEEinit态转移图尚存问题:当前的基因预测并不完美,主要存在假阳性(FalsePositive,简称FP),假阴性(FalseNegative,简称FN),过界预测(OverPrediction,简称OP),片断化(Fragmentation),和融合化(fusion)等问题。评价预测的准确性是用cDNA定位或已知基因结构作为基准的。值得注意的是:对于一个基因,只能预测出一种剪接形式,而无法识别可变剪接;只能预测从起始密码子到终止密码子的区域,而不能预测两端的UTR区域;对于高等生物,基因组中存在着大量的转座子重复序列,将对基因预测造成严重的影响。假阳性:多预测了假的编码区,即在非编码区预测出编码区。假阴性:漏掉了真实的编码区。即将编码区预测为非编码区。过界预测:由于基因的边界很难准确定位,预测经常会超出实际的边界。片断化:内含子过大的基因,在预测时容易断裂成两个或多个基因。融合化:距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因。综合注释:基因预测为大规模和自动化基因组注释开辟了一条途径,但是目前的准确度还远远不能让人满意,因此在实际的基因组注释过程中,还要综合cDNA/EST,相邻物种homolog

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论