




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息软件综合实践第六章基因预测和基因结构分析Where are the Genes in the Genome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA CAGAAAGTGGAAGAAGAGGAGAGTGACGG
2、GCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACA
3、CCTTGAAGCAGAGGAAAATGGAAGA GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAG
4、CAACAAGAA CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC AGTTAT
5、ATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT CCCAGCAGCGTTAGCTAGTCCT
6、TCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGA
7、GTCAAGAATTTATAGGGAATCCCGAGGGCGTG GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCA
8、AAAAGCTGCGCATTGG TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT
9、 GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAGGene a基因预测和基因结构分析u 生物信息学中的重要内容之一u 预测编码蛋白质的基因(Protein-coding gene)u 预测非编码RNA基因(Non-coding RNA gene)(一) 基因预测的基本分析内容u 排除重复序列(/)u 确定基因的结构u 开放阅读框(open reading frame, ORF)u 基因的调控区启动子如果已知mRNA序列v 确定开放读码框(ORF)ORF
10、 finder/orffinder/输入序列或注册号,选择 表显示结果,进行选择注意:本方法只适合于原核生物或mRNA序列(二) 基因预测的基本方法1. 序列相似性搜索(Extrinsic Approaches)基因组DNA序列A. 在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx)B. 对EST/TSA数据库中同一生物的cDNA序列进行比较分析(如Blastn)确定基因数目和对应的ORFSimilarity-based Gene Prediction: for sequences that encode a kn
11、own protein or a protein with a known homologu 分析举例:水稻Xa21基因序列(U37133)v CDS:1-2677 bp处和3521-3921 bp处v Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较 有些蛋白质序列是推测获得的v Blastn分析结果(检索est数据库):与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度 通过“Distance tree of results ”查看与U37133序列同源的其它EST序列u 分析举例:水稻Xa21基因序列(U37133)v CDS:1-2677 bp处和3521-39
12、21 bp处v 先通过Blastx获得同源蛋白,再通过GeneWise(http:/www.ebi.ac.uk/Tools/psa/genewise/) 预测基因结构 优先选用最相似的蛋白(通过Total score排序,再看Query coverage、E- value) 使用其他物种的同源蛋白也可准确获得基因结构2. 根据模式序列预测基因(Ab initio Approaches)u 各种基因预测软件u 取决于人们对已知基因结构特征的认识u 采用统计学方法v 基于一个或多个已知序列模式对未知序列进行分类 启动子结构 外显子、内含子v子偏爱性v 对发现的模式进行统计检验u 原核生物(E.co
13、li)v 与RNA聚合酶互作位点(-10、-35区)v LexA repressor的结合位点(启动子区段)CTGNNNNNNNNNNCAGv 核糖体结合位点(转录起始位点后)GGAGGu 真核生物v 基因结构复杂v 已知外显子、内含子外显子边界、启动子序列特征根据模式序列预测基因u 目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Mathe et al. 2002)u 不同的基因预测软件分析结果有差异u 综合多个基因预测软件的分析结果人类基因数目1000005000025000根据模式序列预测基因u 分析工具需要能识别基因的不同结构v exon, poly-A, prom
14、oterv 重复序列u 某些分析工具可选择物种模式(matrix)作为参照比较对象u 某些分析工具可用不同的方式呈现分析结果(文字或图形)分析结果(文字和图像)分析举例(1)Gene Findingu Softberry (/berry.phtml)的Gene Finding工具,分三大类v Gene Finding in Eukaryotav Operon and Gene Finding in Bacteriav Gene Finding in Virusesv 每一大类包括多个分析软件在Softberry主页选择“Gene Findin
15、g in Eukaryota”类中的“FGENESH”在FGENESH网页输入D63710序列(fasta格式)、选择物种(human)作为参照分析举例(2)GenScanu GenScan(/GENSCAN.html )用三个物种模式作为参照评价v Vertebratev Arabidopsisv Maize在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照分析结果(文字和图像)分析举例(2)GenScanA predicted exon is said to be exactly correct if it matche
16、s a true (annotated) exon precisely, i.e. both endpoints correct; partially correct if one endpoint is correct; overlapping if neither endpoint is correct, but it overlaps one or more true exons; and wrong if it does not overlap a true exon.分析举例(3) AUGUSTUSu AUGUSTUS(http:/augustus.gobics.de/ )v 用于真
17、核基因的预测v 多种物种参照在AUGUSTUS的分析主页选择“web interface”输入D63710的序列、选择物种“H. sapiens” 分析结果分析举例(4)GeneMarku GeneMark(/ )v 用于真核、原核和病毒等基因的预测v 多种物种参照在GeneMark的分析主页选择“Gene Prediction in Eukaryotes”在“Gene Prediction in Eukaryotes”网页输入D63710的序列、选择物种“H. sapiens”,选择输出格式选项3. 利用比较基因组预测基因(Compa
18、rative Genomics Approaches)u 结合模式法和同源序列法u 亲缘关系相近生物的基因序列具有保守性分析举例N-S CAN/Twinscan (/nscan/)选择N-SCAN在线分析(需免费注册) 输入待分析序列,选择masking, clade, species和informantSoftBerry FGENESH+分析举例 输入待分析序列及同源序列,选择对应的物种分析结果 文字 图形各种基因预测方法的比较/index.php/Results NGASP The nematode g
19、enome annotation assessment project Softwares AGENE, CRAIG, EUGENE, FGENESH, FGENESH+, G3A/mGene, GENEMARKHMM, SNAP, AUGUSTUS, ENSEMBL, EXONHUNTER, GENEID, GLIMMERHMM, MAKER, NSCAN, SGP2 Results基因预测存在主要问题v 假阳性(False Positive):多预测了假的编码区, 即在非编码区预测出基因v 假(False Negative):漏掉了真实的编码区, 即将基因预测为非编码区v 过界预测(Ove
20、r Prediction):由于基因边界很难准确定位,预测经常会超过实际边界v 片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因v 融合化(Fusion):距离过近的两个或多个基因, 在预测时容易被融合成一个很大的基因(三)基因精细结构分析NNPP分析转录起始位点/seq_tools/promoter.html分析结果:分析转录起始位点Promoter 2.0 Prediction Serverhttp:/www.cbs.dtu.dk/services/Promoter/Promoter2.0 predicts
21、 transcription start sites of vertebrate PolII promoters in DNA sequences.在“Promoter 2.0”网页粘贴D63710序列 分析结果分析转录起始位点PromID: human promoter prediction by deep learning.sa/PromID/index.html分析转录因子结合位点Cis-acting element(顺式元件)和trans- acting element(反式元件)的互作分析举例JASPARhttp:/jaspar.gen
22、/选择物种分类,在网页左侧选择转录因子结合位点模型,右侧粘贴序列(FASTA格式) 分析结果分析举例PROSCAN/molbio/proscan/在Proscan网页粘贴序列(FASTA格式) 分析结果 分析结果(四)非编码RNA基因预测/wiki/List_of_RNA_structure_ prediction_softwarev 包括多种RNA结构预测及基因鉴别软件v 假阳性是最大的问题A practical guide to the art of RNA gene pred
23、ictionGene-finding software and resourcesSoftware Tutorials Books综合多种方法且 酝 啦 utAssenihledScaffoldsTE MaskingMaskedGenon1-e勹G已1.e IPredictionSmall RNA Data & R比m NONCODEtRNA.江 a1l-5E RNAmmeBLASTP,Sign alP, 丘 getP, tmHMM,InterProSc.fil1鱼Ps eu doch ro n1oso m encRNAsGene Models& Functional Ass电nnen tVi
24、sualizationTra 平 so nPSI 氐 严 凶 aska LTR压 运&FindltrGene Finders: FgenesH GeneID Gensca!ll啦 n me rHMMuoP品P巳dVNH吕IOther Pro anlS BLAST suituoi:oeuyullG四GeneWise TopHat /Bio氏 ope cllfflinksEvidences EST.databasePiotein databaseRNA-seq data Rl.IA-PET data半. l.1AZ 十沁 NG 窟AGR ICU素L ru R A丈L u N I V学ERS ,六(
25、五)miRNA靶基因预测MethodType of MethodRefMethod AvailabilityData availabilityResourceStark et. alComplementary(Stark et. al., 2003) Online searchYeshttp:/www.russell.embl.de/miRNAsmiRandaComplementary(John et al., 2004)DownloadYesmiRanda MiRBaseComplementary(Enright et al., 2003) Onl
26、ine searchYeshttp:/microrna.sanger.ac.ukmiRWalk-Online searchYeshttp:/www.umm.uni- heidelberg.de/apps/zmf/mirwalk/index.htmlTarget Scan Seed Complementary (Lewis et al., 2005) Online searchYesDIANAmicroTThermodynamics(Kirakidou et al.,2004)DownloadYeshttp:/diana.cslab.ece.ntu
27、a.gr/PicTarThermodynamics(Krek et al., 2005)N/AYeshttp:/pictar.mdc-berlin.de/RNAHybridThermodynamics &Statistical model(Rehmsmeier et al., 2004)DownloadYeshttp:/bibiserv.techfak.uni-bielefeld.de/rnahybridmiRGen+Baynesian Inference(Huang et al.,2007b)Mathlab CodeYes/genmirMiT
28、argetSupport VectorMachineMiRtaget2Support VectorMachine(Kim et al. 2006)Online searchYeshttp:/cbit.snu.ac.kr/miTarget(Wang and El Naqa, Online searchYes 2008)TarBaseExperimentallyValidated Targets(Sethupathy et al., 2006)N/AYeshttp:/diana.cslab.ece.ntua.gr/tarbase/From https:/www.exi
29、/microrna-target-prediction(五)miRNA靶基因预测miRDB/miRDB/mining.htmlmiRecords/miRecords/v 主要预测动物miRNA靶基因TargetRNA2/btjaden/TargetRNA2/v 只能预测细菌sRNA靶基因WMD3/cgi-bin/webapp.cgiv 主要用于预测植物miRNA靶基因基因预测或基因结构分析原则1. Similarity-based or Comparative BLAST - Do other organisms have similar sequence? (Is sequence similar to known gene or protein)2. Ab initio = “from the beginning” Predict without explicit comparison with cDNA or proteins via “rule-based” gene models - but rules a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 62909-1:2025 FR Bi-directional grid-connected power converters - Part 1: General and safety requirements
- 卓别林的课件
- 惠州市高三模拟数学试卷
- 湖南湘教版初一数学试卷
- 合肥一中数学试卷
- 河南体育单招数学试卷
- 健康童年暑期活动课件
- 2020-2025年中国土壤化肥速测仪行业市场调研分析及投资前景预测报告
- 中国煤泥行业调查报告
- 辽宁省丹东市通远堡高中2025年物理高二下期末达标测试试题含解析
- 2025年中小学暑假安全教育主题家长会 课件
- 2025年佛山市南海区图书馆招聘题库带答案分析
- 基于学科核心素养的初中化学单元整体教学设计课题研究的阶段小结基于学科核心素养的初中化学单元整体教学设计研究
- GMP质量管理体系文件 玻璃器皿检定规程
- 三年级英语阅读理解(打印)
- 多彩全动画像素游戏风格PPT模板
- GB/T 4169.19-2006塑料注射模零件第19部分:浇口套
- GB/T 31586.1-2015防护涂料体系对钢结构的防腐蚀保护涂层附着力/内聚力(破坏强度)的评定和验收准则第1部分:拉开法试验
- 领导干部的决策力与执行力
- 史上最全最权威妇产科icd编码培训【版】课件
- 运梁便道施工技术方案(填土)
评论
0/150
提交评论