基因预测的基本分析内容_第1页
基因预测的基本分析内容_第2页
基因预测的基本分析内容_第3页
基因预测的基本分析内容_第4页
基因预测的基本分析内容_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因预测的基本分析内容第1页/共28页基因预测和基因结构分析生物信息学中的重要内容之一预测编码蛋白质的基因排除重复序列确定开放阅读框(openreadingframe,ORF)确定基因的调控区-启动子

(一)基因预测的基本分析内容第2页/共28页(二)基因预测的基本方法1.序列相似性搜索(ExtrinsicApproaches)基因组DNA序列在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx)对EST数据库中同一生物的cDNA序列进行比较分析(如Blastn)确定基因数目和对应的ORFSimilarity-basedGenePrediction:forsequencesthatencodeaknownproteinoraproteinwithaknownhomolog第3页/共28页分析举例:水稻Xa21基因序列(U37133)CDS:1-2677bp处和3521-3921bp处Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较Blastn分析结果(检索estother数据库):与水稻cDNA序列比较取决于数据库中EST数据的数量和长度通过“Distancetreeofresults

”查看与U37133序列同源的其它EST序列有些蛋白质序列是推测获得的第4页/共28页2.根据模式序列预测基因(AbInitioApproaches)各种基因预测软件取决于人们对已知基因结构特征的认识采用统计学方法基于一个或多个已知序列模式对未知序列进行分类密码子偏爱性对发现的模式进行统计检验启动子结构外显子、内含子第5页/共28页原核生物(E.coli)与RNA聚合酶互作位点(-10、-35区)LexArepressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG核糖体结合位点(转录起始位点后)GGAGG第6页/共28页真核生物基因结构复杂已知外显子、内含子-外显子边界、启动子序列特征第7页/共28页目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Matheetal.2002)不同的基因预测软件分析结果有差异综合多个基因预测软件的分析结果人类基因数目1000005000025000根据模式序列预测基因第8页/共28页一种分析工具可选择分析基因的不同结构exon,poly-A,promoter重复序列某些分析工具可选择物种模式(matrix)作为参照比较对象某些分析工具可用不同的方式呈现分析结果(文字或图形)根据模式序列预测基因第9页/共28页分析举例(1)GeneFindingSoftberry(/berry.phtml)的GeneFinding工具,分三大类GeneFindinginEukaryotaOperonandGeneFindinginBacteriaGeneFindinginViruses每一大类包括多个分析软件在Softberry主页选择“GeneFindinginEukaryota”类中的“FGENESH”在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照分析结果(文字和图像)第10页/共28页GenScan(/GENSCAN.html)用三个物种模式作为参照VertebrateArabidopsisMaize在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照分析结果(文字和图像)分析举例(2)GenScan第11页/共28页分析举例(3)GeneMarkGeneMark(/)用于真核、原核和病毒等基因的预测多种物种参照在GeneMark的分析主页选择“GeneMark-E”在“GeneMark-E”网页输入D63710序列、选择物种“H.sapiens”,选择输出格式分析结果第12页/共28页CombineextrinsicandabinitioApproacheshttp://bioinf.uni-greifswald.de/augustus//software/maker.htmlcombineextrinsicand

abinitio

approachesbymappingproteinand

EST

datatothegenometovalidate

abinitio

predictions.increasetheaccuracyofthegeneprediction第13页/共28页3.利用比较基因组预测基因

(ComparativeGenomicsApproaches)依赖于全基因组测序结果亲缘关系相近生物的基因序列具有保守性分析举例N-SCAN/Twinscan(/nscan/)选择N-SCAN在线分析(需免费注册)输入待分析序列,选择masking,clade,species和informant分析结果第14页/共28页第15页/共28页基因预测存在主要问题假阳性(FalsePositive):多预测了假的编码区,即在非编码区预测出基因假阴性(FalseNegative):漏掉了真实的编码区,即将基因预测为非编码区过界预测(OverPrediction):由于基因边界很难准确定位,预测经常会超过实际边界片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因第16页/共28页包括多种基因预测软件NNPP分析启动子位点在BCM的分析主页选择“GeneFeatureSearches”在“GeneFeatureSearches”网页粘贴D63710序列、选择“NNPP/Eukaryotic-eukaryoticpromoterprediction”分析结果BCM

/(三)基因精细结构分析第17页/共28页Promoter2.0predictstranscriptionstartsitesofvertebratePolIIpromotersinDNAsequences.分析启动子位点Promoter2.0PredictionServerhttp://www.cbs.dtu.dk/services/Promoter/在“Promoter2.0”网页粘贴D63710序列分析结果第18页/共28页分析转录因子结合位点Cis-actingelement(顺式元件)和trans-actingelement(反式元件)的互作第19页/共28页分析举例PROSCAN在Proscan网页粘贴序列(FASTA格式)分析结果/molbio/proscan/分析结果第20页/共28页分析举例PLACE(ADatabaseofPlantCis-actingRegulatoryDNAElement)

http://www.dna.affrc.go.jp/PLACE/index.html在PLACE主页点击“SignalScanSearch”在“PLACEWebSignalScan”网页粘贴序列(FASTA)三种结果呈现方式:groupedbysignal

mappedtosequencescan

bysequenceorder点击相关链接查看什么类型的转录因子结合在相关cis-element上植物第21页/共28页Gene-findingsoftwareandresourcesSoftware

TutorialsBooks…Abeginner’sguidetoeukary

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论