已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因的测定与预测方法 基因预测的背景 生物学家开始研究基因结构主要是在实验的基础上进行的 构建cDNA文库 PCR扩增 Northernblot和测序等 随着全基因组测序计划的实现 大量的基因组DNA序列产生 但对基因的注释远落后于基因测序 因此 应用计算机程序从DNA序列中寻找基因 尤其是那些编码蛋白质的基因 成为研究人员考虑的重要问题 一旦获得一个基因组序列 除了将这段序列通过数据库相似性和同源性比较 还可以计算DNA的碱基组成 分析密码子的偏好性 简缩重复序列 寻找DNA的特殊位点或信号 以及鉴定DNA的编码区 用外显子 内含子结构和每个预测基因的位置信息 以及基于数据库搜索的任何功能信息来注释基因组DNA序列 随后可以鉴别最可能的蛋白质编码区 基因预测的同源比较算法和预测模型1同源比较算法 Smith Waterman算法 它是将一条序列代替另一条序列所需的 最小代价 Weight FASTA算法是用来进行DNA DNA DNA 蛋白质 将DNA按6个ORFs翻译成氨基酸序列 再与蛋白质比较 和蛋白质 蛋白质的同源比较 2隐马尔可夫模型 HiddenMarkovModel HMM 它将DNA看成是一个随机过程 根据编码和非编码的DNA序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的规律 广义隐马尔可夫模型 GeneralizedHiddenMarkovModel GHMM 是通过对HMM简化和在HMM下建立了相应的子模型 使其具有很大的可扩展性 是第二代基因预测软件的基础 3动态规划法用来将预测的各个可能外显子和内含子拼接成完整的基因 这种算法将各种可能的拼接进行记分 从而得出最可能的基因结构 4神经网络预测方法该法是使用一个训练数集来训练神经网络 使其达到局部极小 然后 神经网络去掉这些最小权重 将最低预测值加到整体预测值上 经过数据修剪后 再次训练神经网络使其达到局部极小 这个过程不断被重复 直至达到规定的误差值 最后给出一个预测结果 除了以上几种外 目前用于基因预测的算法还很多 如基因结构的线性判别式分析和概率模型等 不过大多数算法都是基于已知基因顺序 所以需要深入研究 寻找基因不同的内在规律 但目前最为流行的预测模型是HMM改进后的广义隐马尔科夫模型 GHMM GHMM比HMM的模型框架更具有良好的可扩展性 下面介绍几种以HMM和GHMM为模型而发展的计算机识别软件 第一代基因识别软件 GENMARK GeneID和GRAIL 等 它们采用的方法包括神经网络 隐Markov模型等 但是它们通常假定序列中正好包含了一个完整的基因 因而预测的正确率不高 第二代基因识别软件 包括GenScan HMMGene FFG GeneMark hmm等等 它们一般不需要假设序列中正好包含一个完整的基因 而且其预测正确率也有大幅提高 它们的模型的框架基本上都是采用的广义隐Markov模型 是对GHMM在简化方法和子模型的构建方上存在不同 GeneScanGeneScan是一种广义上的目的基因预测软件 用来分析多个物种的DNA序列 包括人类 其他脊椎动物 无脊椎动物和植物的基因组 它可以从下面网站获得 http genes mit edu GENESCAN html 其参数设置选定一个模式生物 脊椎动物 拟南芥或玉米 并选取一个亚适的截断值 1 0 0 50 0 25 0 10 0 05 0 02 0 01 HMMGeneHMMGene是专门为脊椎动物和线虫未知DNA序列的基因预测 可以预测整个质粒基因 甚至更长的DNA序列 同时也可以预测剪切位点和起始 终止密码子 如果一段序列的一些特征是已知的 如ESTs 蛋白质或重复元件 那么这些区域就被认定为编码区或者非编码区 甚至于在这一约束下找出最优的基因结构 这个程序是建立在HMM HiddenMarkovmodel 模型上的 HMM模型是一个基因结构概率模型 能够为一段序列提供多个最优的预测结果 PombePombe专门设计来寻找S pombe的基因和预测外显子 内含子结构 识别 位点 外显子 内含子 和 假位点 假内含子 假外显子 同时可以识别起始位点 供体位点和受体位点 而对于外显子和内含子的预测必须要结合线性判别分析 而且还要考虑到其他的因素如少数核苷酸偏好 三联体位点偏好和ORFs的定位 同时把这些分析结果与动态分析程序相结合来预测基因的结构 http argon cshl org genefinder pombe pombe htmGeneMarkGeneMark依赖编码与非编码二者的非同源Mark链模型 是建立在已知基因和已确定其功能的基础上 用来预测E coli 的DNA序列 甚至可以重新训练来预测H influenz M jannaschia和其他的生物 GeneMark Genesis是用来分析M jannaschia和H pylori的软件 是确定可用于训练和能预测到单独使用Genscan或BLASTX所不能检测到的编码区 GeneMark hmm算法是对DNA序列片段的编码和非编码区域的概率分析 力求更准确地找出明确的基因边界 以S pombe和拟南芥 A thaliana 为模式生物 HumGeneHumGene是一个采用广义隐Markov模型 GHMM 的人类基因预测软件 是利用人类基因的结构特点 采用概率模型为基因结构中各个特定区域建立了独立的子模型 能够获得全局统一的评价指数 使得系统整体框架具有一定的扩展性 采用一种新的简化算法 有效地降低了计算的复杂度 FFGFFG是根据N crassa基因的序列特征统计分析建立起来的 可以直接对N crassa基因进行预测 1编码区含有较高的GC含量 表现出对C的偏好 对G的偏好其次 2终止子 UAA比UAG和UGA更为常用 3起始密码子ATG及其周围的共有序列 CAMMATGGCT4研究发现N crassa许多基因至少有一个内含子 52 691 平均为63 中等长度为70 而长度变化范围较宽 在3 5367 平均为509 中等长度为148 55 供体位点 G GTAAGTnnYCnYY 剪切分支点 WRCTRACMnnnnnnYY 3 受体位点 WACAG GSA GeneStructureAssembly GSA程序就是由ATT和Genscan综合而成的 GenomeScan是Burge对自己的Genscan的延伸并结合BLASTX或BLASTP的方法而来 该法在信息相似性方面是最可靠的 能预测到单独使用Genscan或BLASTX所不能检测到的编码区 FGENESH 和FGENESH C是用已存在的FGENESH算法延伸去提高基因预测 FGENESH是针对蛋白质或cDNA序列的相似性的预测方法 基因预测中遇到的问题 1真核生物序列重复序列大量存在 2大多程序都有特定生物物种适用性 3许多程序只能特定适用于基因组DNA数据或者只适用于cDNA的数据 4序列的长度也是一个重要因素 例如 用鸟枪法测序得到的单个序列片段很少能用在序列中搜寻整个基因的老式程序 预测程序存在的局限性1很多算法目前只适用少数物种 2所有的程序 除了GENSCAN 在输入序列中包含有多基因或者部分基因时 所预测的外显子可靠 但所预测的基因结构就不一定可靠 3由于受许多未知因素的影响 预测的精确度能比预期的低得多 尤其是对新发现的基因 4大多算法都明显对测序错误十分敏感 5象交替剪接 重叠基因和启动子结构等这样的基因语法结构仍超出当前程序的处理能力 涉及基因转录起始和终止的信号1启动子原核生物 10元件 TATAAT 35元件 TTGCA 特定启动子的变异 1 G或A 各种相关因子的结合位点真核生物 Pol 30 TATAA 60 的具有该序列 有时为CAAT box或GC box 1 inr区 20 50 下游启动子元件dpe 果蝇特有 各种相关因子的结合位点 2转录终止信号原核生物 茎环结构后跟随一串Un 真核生物 AATAAA 上游或下游元件 真核生物从DNA 成熟的mRNA 其除去内含子有一些特殊模式即 5 供体位点AG GT 3 受体位点YAG GT 分支点YNYTRAY 在酵母中为TACTAAC 多聚腺苷化位点AATAAA 基因的识别可以分为三个步骤找出序列中的非编码区 找到基因 鉴定找到的基因 要找出DNA序列中的非编码区一般涉及以下几个元素去掉序列中的载体污染 载体 接头和PCR引物 转座子和插入序列 DNA RNA样品的纯度不高等 常用NCBI的 VecScreen 和EMBL的分析工具 Blast2EVEC 屏蔽重复序列 在真核生物和原核生物中都广泛存在重复序列 人类基因组中约有30 而瓜蟾蜍有70 的重复序列 重复元件有 SINE ALU MIR LINE LTR MALR ERVL 小RNA 卫星DNA 简单重复序列和低复杂度序列 应用工具有 RepeatMasker和XBLAST 然后可以用REPEATView和HMM N TUPLE 开放阅读框 ORF 的识别一个起始密码子和终止密码子之间的序列称为一个ORF 当一个DNA序列被测定以后 还不知道其编码的蛋白质时用此术语 常见起始密码子为ATG 终止密码子为TAA TAG和TGA 一个双链DNA有6个潜在的ORF 3 和3 ORF 一个ORF就是一个潜在的蛋白质编码区 要确定DNA的编码区 就必须要检测它有多少个ORF 原核生物中一个编码区就是一个单独的ORF 真核生物基因的编码区被内含子分隔成若干不连续的编码片段 因此 首先要找出编码区内含子和外显子的边界 若用cDNA序列 问题可大大简化 常用工具 NCBI提供的分析工具 ORFFinder CpG岛 HTF岛 CpG岛是一些富含GC 50 的小区域 它可能有几百bp至几千bp 其中CpG通常出现在管家基因或频繁表达的启动子周围 具有抵抗序列甲基化的作用 通常出现在脊椎动物基因的5 端 80 的人类基因转录起始位点前面就有CpG的存在 因而CpG岛是发现基因的重要线索 CpG岛的计算工具很多 常用EMBL提供的工具 CpGPlot CpGReport Isochore该工具网址 http www ebi ac uk emboss cpgplot 基因编码区的预测1启动子与转录因子结合位点的识别其应用工具 TRES 神经网络法和DragonPromoterFinder 2其它顺式作用元件的预测其应用工具 Cister Cis elementClusterFinder 剪切位点预测5 donorsites CAGGTGAGA CTATCCTTCTCACAGG 3 acceptorsites可以用HMM 碱基频率 权重矩阵等判别式分析方法和神经网络方法 使用的工具SpliceView和NetGene2结合综合应用 基因预测方法的评价当预测完后就要对预测结果的精确度和可靠性进行评估 一般而言 预测的精确度要从以下三个方面评估 编码的核苷酸水平 外显子结构水平和预测的蛋白质水平 用灵敏度Sn sensitivity 和Sp specificity 分别表示预测编码的正确性和非编码的正确性 Sn TP TP FN 或真阳性 实际阳性 Sp TP TN FP 或真阳性 预测阳性 常用度量相关系数 CorrelationCoefficient CC TP TN FP FN CC TP FN TN FP TP FP TN FN 转录终止信号由于mRNA有一段polyA DNA序列中有一段特意序列 AATAAA 可以用基于权重矩阵预测方法工具GRAIL来预测 同时又引入Hamming Clustering网络技术 然后用polyA分析工具Hcpolya分析可能的转录终止位点 基因序列的从头分析GeneBuilder就是一个很好的分析工具 网址 r it webgene
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年在线职业培训平台开发可行性研究报告及总结分析
- 2025年废弃物处理与资源回收项目可行性研究报告及总结分析
- 事业单位招聘工作人员28人笔试模拟试题及答案解析
- 2025年零售行业电子价签安装维护协议
- 2025年华为ICT大赛考试题库 含答案
- 2025年粮食收购返利协议
- 2025年高级化验员(理论知识)考试真题试题 含答案
- 2025年(新版)质量月质量知识竞赛考试题库 含答案
- 2025年社交媒体营销综合平台项目可行性研究报告及总结分析
- 学院单招职业适应性考试题库含答案详解【研优卷】
- 素养立意的义务教育化学学业水平考试试题研究
- 2024年全国职业院校技能大赛中职组(婴幼儿保育赛项)考试题库-上(单选题)
- 【基于JSP的图书管理系统设计开题报告文献综述4500字】
- 钱钟书名著导读《十七世纪英国文学里的中国》
- 安全使用无线网络的技巧
- 业绩提成协议书
- 点亮生命-大学生职业生涯发展与就业指导全套教学课件
- 《意象对话技术》课件
- 小学生必背古诗“飞花令”100令(低年级版)
- 第三单元一《伐檀》公开课一等奖创新教案-【中职专用】(中职语文高教版2023-2024-基础模块上册)
- 重型颅脑创伤指南(第四)
评论
0/150
提交评论