版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1基因识别基因识别v基因识别是生物信息学领域里的一个基因识别是生物信息学领域里的一个重要研究内容重要研究内容 v基因识别问题,在近几年受到广泛的基因识别问题,在近几年受到广泛的重视重视 当人类基因组研究进入一个系统测序阶当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知解释技术,以处理大量已测定的但未知功能或未经注释的功能或未经注释的DNA序列序列 第1页/共56页v原核基因识别原核基因识别重点在于识别编码区域重点在于识别编码区域第2页/共56页v非翻译区域(非翻译区域(untranslated reg
2、ions, UTR) 编码区域两端的编码区域两端的DNA,有一部分被转录,有一部分被转录,但是不被翻译,这一部分称为非翻译区但是不被翻译,这一部分称为非翻译区域域 v5UTR-基因上游区域的非翻译区域基因上游区域的非翻译区域 v3UTR-基因下游区域的非翻译区域基因下游区域的非翻译区域第3页/共56页v对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。v例如,序列ATTCGATCGCAAv这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)第4页/共5
3、6页一个开放阅读框(一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子是一个没有终止编码的密码子序列。序列。原核基因识别任务的重点是识别开放阅原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。读框,或者说识别长的编码区域。第5页/共56页基于基因密码子特性的识别方法基于基因密码子特性的识别方法v辨别编码区域与非编码区域的一种方辨别编码区域与非编码区域的一种方法法是检查终止密码子的出现频率是检查终止密码子的出现频率 终止密码子出现的期望次数为:终止密码子出现的期望次数为: 每每21个(个( 64/3)密码子出现一次终止密)密码子出现一次终止密码
4、子码子 第6页/共56页基本思想:基本思想:如果能够找到一个比较长的序列,其相如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这应的密码子序列不含终止密码子,则这段序列可能就是编码区域。段序列可能就是编码区域。v基本算法:基本算法:扫描给定的扫描给定的DNA序列,在三个不同的阅序列,在三个不同的阅读框中寻找较长的读框中寻找较长的ORF。遇到终止密码遇到终止密码子以后,回头寻找起始密码子。子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的这种算法过于简单,不适合于处理短的ORF或者交叠的或者交叠的ORF。第7页/共56页v识别编码区域的另一种方法是分析各识别编码区域
5、的另一种方法是分析各种密码子出现的频率种密码子出现的频率 将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列,则在氨基酸序列中上述序列,则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有例如,亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中,上述比例并不但是在真实的氨基酸序列中,上述比例并不正确正确这说明这说明DNA的编码区域并非随机的编码区域并非随机第8页/共56页v假设在一条假设在一条DNA序列中已经找到所有序列中已经找到所有的的ORF,那么可以利用密码
6、子频率进那么可以利用密码子频率进一步区分编码一步区分编码ORF和非编码和非编码ORFv马尔柯夫链模型马尔柯夫链模型v利用这种方法,可以计算一个利用这种方法,可以计算一个ORF成成为编码区域的可能性。为编码区域的可能性。第9页/共56页v一个简单的统计模型一个简单的统计模型假设相继的密码子是独立的,不存在前后依假设相继的密码子是独立的,不存在前后依赖关系。赖关系。 令令fabc代表密码子代表密码子abc在编码区域出现的频在编码区域出现的频率率给定序列给定序列a1,b1,c1, a2,b2,c2, an+1,bn+1从密码子从密码子a1b1c1开始的阅读框,其开始的阅读框,其n个密码个密码子的出现
7、概率为子的出现概率为nnncbacbacbafffp.2211111第10页/共56页v第二种和第三种阅读框第二种和第三种阅读框n个密码子出现的概个密码子出现的概率分别为率分别为1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffp第11页/共56页v第第i个阅读框成为编码阅读框的概率个阅读框成为编码阅读框的概率计算:计算:v算法:算法:在序列上移动长度为在序列上移动长度为n的窗口,计算的窗口,计算Pi根据根据Pi的值识别编码的阅读框的值识别编码的阅读框321ppppPii第12页/共56页基于编码区域碱基组成特征的识别方法基于编码区域碱基组成特
8、征的识别方法v编码序列与非编码序列在碱基组成上编码序列与非编码序列在碱基组成上有区别有区别单个碱基的组成比例单个碱基的组成比例多个碱基的组成多个碱基的组成v通过统计分析识别编码序列通过统计分析识别编码序列第13页/共56页分析实例分析实例第14页/共56页第15页/共56页 真核基因远比原核基因复杂:真核基因远比原核基因复杂:v一方面,真核基因的编码区域是非连一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片续的,编码区域被分割为若干个小片段。段。v另一方面,真核基因具有更加丰富的另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因调控信息,这些信息主要分布在基因
9、上游区域。基因上游区域。 第16页/共56页第17页/共56页第18页/共56页基因识别基本思路基因识别基本思路 找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区 终止区终止区 在启动区下游位置寻找翻译起始密码在启动区下游位置寻找翻译起始密码子子 识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点第19页/共56页v各种不同的方法有不同的适应面,而各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高不同的方法有时可以结合起来以提高基因识别的准确率。基因识别的准确率。v关键问题是如何提高一个识别算法的关键问题是如何提高一个识别算法的
10、敏感性(敏感性(sensitivity,Sn)和特异性和特异性(specificity,Sp)。)。 第20页/共56页两大类识别方法:两大类识别方法:v从头算方法(或基于统计的方法)从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间别,通过统计值区分外显子、内含子及基因间区域区域 v基于同源序列比较的方法基于同源序列比较的方法利用数据库中现有与基因有关的信息(如利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发序列、蛋白质序列),通过同源比较,帮助发现新基因。现
11、新基因。v最理想的方法是综合两大类方法的优最理想的方法是综合两大类方法的优点,开发混合算法。点,开发混合算法。第21页/共56页v基因识别方法有基因识别方法有 : (1)基于规则的系统)基于规则的系统 (2) 语义学方法语义学方法 (3) 线性辨别分析(线性辨别分析(LDA) (4) 决策树决策树 (5) 动态规划动态规划 (6) 隐马尔柯夫模型隐马尔柯夫模型 (7) 剪切对比排列剪切对比排列 (spliced alignment)第22页/共56页两类方法两类方法 :v基于特征信号的识别基于特征信号的识别 内部外显子内部外显子剪切位点剪切位点5端的外显子一定在核心启动子的下游端的外显子一定在
12、核心启动子的下游3端的外显子的下游包含多聚信号和端的外显子的下游包含多聚信号和终止编码终止编码 v基于统计度量的方法基于统计度量的方法 根据密码子使用倾向根据密码子使用倾向双联密码统计度量等双联密码统计度量等第23页/共56页v在一个基因中,第在一个基因中,第i个(个(i=1,64)密码子相对使用密码子相对使用倾向倾向RSCUi的定义如下:的定义如下:vObsi是该基因中第是该基因中第i个密码子实际出现的次数个密码子实际出现的次数Expi是对应密码子期望的出现次数是对应密码子期望的出现次数 aai是统计的第是统计的第i个密码子出现的次数个密码子出现的次数 syni是所有与第是所有与第i个密码子
13、同义密码子出现的次数个密码子同义密码子出现的次数vRSCU大于大于1表示相应密码子出现的次数比期望次表示相应密码子出现的次数比期望次数高,而小于数高,而小于1则表示出现次数相对较少。则表示出现次数相对较少。iiiExpObsRSCU iiisynaaExp(5-66) (5-65) 密码子使用倾向密码子使用倾向第24页/共56页v设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为: fk是从第k位开始的双联密码的频率Fk是该双联密码随机出现的频率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(j
14、kkikijkkikijkkikiFfFfFfjiIF(5-67)双联密码统计度量双联密码统计度量第25页/共56页通过相似搜索发现编码区域或者外显子通过相似搜索发现编码区域或者外显子 EST(Expressed Sequence Tags)cDNA 蛋白质序列蛋白质序列第26页/共56页v目前大多数预测程序都将数据库相似目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程性搜索的信息结合进基因预测过程v同时考虑序列特征信号和统计度量同时考虑序列特征信号和统计度量GRAIL用人工神经网络识别编码区域用人工神经网络识别编码区域第27页/共56页输入是一系列反映功能位点信号特征和序列编码
15、统计特征的参数输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段输出就是对一段DNA序列是否是编码区域的判别结果序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性第28页/共56页v基因识别最终任务是建立完整的基因结构模型v一个理想的基因识别程序应该能够发现完整的基因结构 (,e1, i1, , in-1, en , ) ATG-外显子1内含子外显子外显子n-UAG第29页/共56页v基因剪切位点基因剪切位点 剪切给体(剪切给体(donor)位点位点- “gt” 接受体(接
16、受体(acceptor)位点位点- “ag”第30页/共56页基因的可变剪切基因的可变剪切第31页/共56页gene A基因可变剪切示意基因可变剪切示意第32页/共56页构建基因模型方法构建基因模型方法 v剪切位点形成外显子和内含子的边界剪切位点形成外显子和内含子的边界 搜集候选外显子搜集候选外显子 候选基因候选基因第33页/共56页第34页/共56页v候选基因是一条候选基因是一条非相交非相交的外显子和内的外显子和内含子的链,表示为含子的链,表示为 (i0, e1, i1, , en, in) 其中其中ij代表内含子(代表内含子(0 j n) el代表外显子(代表外显子(1 l n) i0和和
17、in并非真实的内含子,它们分别代表并非真实的内含子,它们分别代表基因两侧的非编码序列基因两侧的非编码序列第35页/共56页v候选基因位于给定的候选基因位于给定的DNA序列,并满足下列序列,并满足下列一致性条件:一致性条件: (1)所有外显子加起来的长度是)所有外显子加起来的长度是3的整数倍;的整数倍; (2)在各个外显子内部(除最后一个外显子)在各个外显子内部(除最后一个外显子的最后一个密码子),没有终止编码;的最后一个密码子),没有终止编码; (3)第一个内含子)第一个内含子-外显子边界(外显子边界(i0, e1)是翻是翻译起始编码,而最后一个外显子译起始编码,而最后一个外显子-内含子边界内
18、含子边界(en, in)是终止编码。是终止编码。第36页/共56页另设两个特殊的顶点,即起点(另设两个特殊的顶点,即起点(source)和终点(和终点(sink)。从起点到终点的任何一条路径代表一个可能的基因结构。从起点到终点的任何一条路径代表一个可能的基因结构。第37页/共56页例如例如: 位点图上的路径位点图上的路径第38页/共56页v候选基因所对应的道路图中的路径候选基因所对应的道路图中的路径第39页/共56页v求最优路径求最优路径每一条弧附加一个权值每一条弧附加一个权值外显子、内含子度量每个节点附加权值每个节点附加权值剪切位点度量 综合评价综合评价 第40页/共56页v隐马尔柯夫模型隐
19、马尔柯夫模型HMM是一条状态不可见是一条状态不可见的马尔柯夫链,其当前状态的输出是可的马尔柯夫链,其当前状态的输出是可见的。见的。每个状态按照一定的概率分布随机地从字每个状态按照一定的概率分布随机地从字母表中取出字符并释放。母表中取出字符并释放。 v扩展的隐藏马尔柯夫模型(扩展的隐藏马尔柯夫模型(GHMMs )对对HMM进一步抽象,产生更一般的马尔柯进一步抽象,产生更一般的马尔柯夫模型,以分析复杂的脊椎动物基因夫模型,以分析复杂的脊椎动物基因 。第41页/共56页v将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点,用HMM来进行分析 第42页/共56页内含子区域
20、内含子区域 外显子区域外显子区域 保守位点保守位点 根据对比排列,根据对比排列,形成具有形成具有19状态状态的的HMM模型。模型。 第43页/共56页v对前一节所介绍的对前一节所介绍的HMM模型进行修改,模型进行修改,可以处理双联核苷酸的问题,即将可以处理双联核苷酸的问题,即将4种种概率分布扩展为概率分布扩展为16种。种。v假设一段序列为假设一段序列为ACTGTC,则,则 P(ACTGTC)=p1(A) p2(C A) p3(T C) p4(G T) p5(T G) p6(C T) 其中其中p1是状态是状态1对于对于4种核苷酸的概率,种核苷酸的概率,p2(x y)状态状态2的条件概率。的条件概
21、率。第44页/共56页第45页/共56页v由于密码子的长度为3,因此密码子模型的最后一个状态应该至少为2阶。v对于2阶的状态,具有64种概率分布,可根据已知编码区域进行统计计算而得到64种分布。例如:p(ACA)=c(CAA)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(CCA)=c(CAC)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(GCA)=c(CAG)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(TCA)=c(CAT)/c(CAA)+c(CAC)+c(CAG)+c(CAT) 其中,c(xyz)是密码子xyz的计数。v这样的模型可以检测无结
22、束编码的区域,因为对应于三个结束编码TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自动为0。第46页/共56页第47页/共56页v将上述模型扩展,使之可以识别具有多个外显子的基因。 v改进后的模型见下图第48页/共56页第49页/共56页v基本思想是:利用数据库中的同源信息进行基因识别,包括DNA、RNA和蛋白质数据库。 v其方法是:首先通过分析所有可能的剪切接受体位点和剪切给体位点,构建一组候选的外显子。然后进一步分析候选外显子,探查所有可能的外显子组合,寻找一个与已知目标蛋白质或其他表达序列最匹配的组合 第50页/共56页v一种半自动的综合方法识别基因过程:(1)选择所有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 呼吸系统解剖与生理护理
- 2026贵州贵阳市阅山湖小学春季临聘教师招聘6人考试参考题库及答案解析
- 2026年安徽医科大学临床医学院博士人才引进45名考试备考试题及答案解析
- 2026年蚌埠市工农小学招聘小学英语教师笔试参考题库及答案解析
- 2026年青岛酒店管理职业技术学院单招职业技能考试题库及答案解析
- 2025年江阴职业技术学院单招职业适应性测试题库及答案解析
- 2026辽宁大连市旅顺口区征兵笔试模拟试题及答案解析
- 2026年嘉兴平湖农商银行春季招聘考试备考题库及答案解析
- 推动公共数据运营培育数某省市场
- 2026年阜阳市颍东区托育综合服务中心等单位劳务派遣人员公开招聘16名笔试模拟试题及答案解析
- 2026年鄂尔多斯职业学院单招职业适应性测试题库附答案解析
- AI助力社区青少年活动的应用与前景【课件文档】
- 2026年南京旅游职业学院单招职业倾向性测试题库及答案详解(夺冠)
- 新人教版八年级数学(上册)期末试卷及答案(真题)
- 搅拌站安全技术交底
- 2026年湖南高速铁路职业技术学院单招职业倾向性考试题库及参考答案详解
- 中国当代文学史试题与答案(8套)
- 椎管内麻醉-椎管内解剖课件
- 第三讲-就业信息的收集与处理课件
- 天津大学讲义-工程成本管理概述
- 环境与可持续发展ppt课件(完整版)
评论
0/150
提交评论