基因预测的基本分析内容_第1页
基因预测的基本分析内容_第2页
基因预测的基本分析内容_第3页
基因预测的基本分析内容_第4页
基因预测的基本分析内容_第5页
免费预览已结束,剩余22页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章基因预测和基因结构分析 II 生物信息学 基因预测和基因结构分析 生物信息学中的重要内容之一预测编码蛋白质的基因 排除重复序列确定开放阅读框 openreadingframe ORF 确定基因的调控区 启动子 一 基因预测的基本分析内容 二 基因预测的基本方法 1 序列相似性搜索 ExtrinsicApproaches 基因组DNA序列 在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析 如Blastx 对EST数据库中同一生物的cDNA序列进行比较分析 如Blastn 确定基因数目和对应的ORF Similarity basedGenePrediction forsequencesthatencodeaknownproteinoraproteinwithaknownhomolog 分析举例 水稻Xa21基因序列 U37133 CDS 1 2677bp处和3521 3921bp处Blastx分析结果 检索蛋白质数据库 与水稻蛋白质序列比较 Blastn分析结果 检索estother数据库 与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度通过 Distancetreeofresults 查看与U37133序列同源的其它EST序列 有些蛋白质序列是推测获得的 2 根据模式序列预测基因 AbInitioApproaches 各种基因预测软件取决于人们对已知基因结构特征的认识采用统计学方法 基于一个或多个已知序列模式对未知序列进行分类 密码子偏爱性对发现的模式进行统计检验 启动子结构外显子 内含子 原核生物 E coli 与RNA聚合酶互作位点 10 35区 LexArepressor的结合位点 启动子区段 CTGNNNNNNNNNNCAG核糖体结合位点 转录起始位点后 GGAGG 真核生物 基因结构复杂已知外显子 内含子 外显子边界 启动子序列特征 目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因 Matheetal 2002 不同的基因预测软件分析结果有差异综合多个基因预测软件的分析结果 根据模式序列预测基因 一种分析工具可选择分析基因的不同结构 exon poly A promoter重复序列 某些分析工具可选择物种模式 matrix 作为参照比较对象某些分析工具可用不同的方式呈现分析结果 文字或图形 根据模式序列预测基因 分析举例 1 GeneFinding Softberry GeneFindinginEukaryotaOperonandGeneFindinginBacteriaGeneFindinginViruses每一大类包括多个分析软件 在Softberry主页选择 GeneFindinginEukaryota 类中的 FGENESH 在FGENESH网页输入D63710序列 fasta格式 选择物种 human 作为参照 分析结果 文字和图像 GenScan http genes mit edu GENSCAN html 用三个物种模式作为参照 VertebrateArabidopsisMaize 在GenScan主页输入D63710序列 选择物种 Vertebrate 作为参照 分析结果 文字和图像 分析举例 2 GenScan 分析举例 3 GeneMark GeneMark http exon biology gatech edu 用于真核 原核和病毒等基因的预测多种物种参照 在GeneMark的分析主页选择 GeneMark E 在 GeneMark E 网页输入D63710序列 选择物种 H sapiens 选择输出格式 分析结果 CombineextrinsicandabinitioApproaches http bioinf uni greifswald de augustus http www yandell lab org software maker html combineextrinsicandabinitioapproachesbymappingproteinandESTdatatothegenometovalidateabinitiopredictions 3 利用比较基因组预测基因 ComparativeGenomicsApproaches 依赖于全基因组测序结果亲缘关系相近生物的基因序列具有保守性 分析举例 N SCAN Twinscan http mblab wustl edu nscan 选择N SCAN在线分析 需免费注册 输入待分析序列 选择masking clade species和informant 分析结果 基因预测存在主要问题 假阳性 FalsePositive 多预测了假的编码区 即在非编码区预测出基因假阴性 FalseNegative 漏掉了真实的编码区 即将基因预测为非编码区过界预测 OverPrediction 由于基因边界很难准确定位 预测经常会超过实际边界片段化 Fragmentation 内含子太大的基因 在预测时容易断裂成两个或多个基因融合化 Fusion 距离过近的两个或多个基因 在预测时容易被融合成一个很大的基因 包括多种基因预测软件NNPP分析启动子位点 在BCM的分析主页选择 GeneFeatureSearches 在 GeneFeatureSearches 网页粘贴D63710序列 选择 NNPP Eukaryotic eukaryoticpromoterprediction 分析结果 BCMhttp searchlauncher bcm tmc edu 三 基因精细结构分析 Promoter2 0predictstranscriptionstartsitesofvertebratePolIIpromotersinDNAsequences 分析启动子位点 Promoter2 0PredictionServerhttp www cbs dtu dk services Promoter 在 Promoter2 0 网页粘贴D63710序列 分析结果 分析转录因子结合位点 Cis actingelement 顺式元件 和trans actingelement 反式元件 的互作 分析举例PROSCAN 在Proscan网页粘贴序列 FASTA格式 分析结果 http www bimas cit nih gov molbio proscan 分析结果 分析举例 PLACE ADatabaseofPlantCis actingRegulatoryDNAElement http www dna affrc go jp PLACE index html 在PLACE主页点击 SignalScanSearch 在 PLACEWebSignalScan 网页粘贴序列 FASTA 三种结果呈现方式 groupedbysignalmappedtosequencescanbysequenceorder 点击相关链接查看什么类型的转录因子结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论