




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 基因预测和基因结构分析 (I),生物信息学,/courses/genomics/method/shotgun.html,基因组测序策略,Genome sequencing: QUICKER, SMALLER, CHEAPER,Nature Biotechnology 26, 1135 - 1145 (2008),13 years $3 billion,/genomes/static/gpstat.html,Nature Biotechnology 26, 1135 - 1145 (2
2、008),identifying new genes,looking at chromosome organization and structure,finding gene regulatory sequences,comparative genomics,Applications of sequencing,Where are the Genes in the Genome?,GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCTGCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCT
3、TACTGACCCTGATTTACCTCAGGAGTTTGAAAGGATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGACAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCAACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCCCACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGC
4、CCCACACAACTCATCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGGGAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGAGCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAGCTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAAGGCAACT
5、CATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCAGAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAACAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCCAGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGCTGCCCAGCAAGGATTCCTCCTCCCTCC
6、AGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTTCAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGCAGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGGCAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAAAGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAA
7、GACCTCTGATGGCAAATCACCCACATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGTCCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTCACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGAAGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGA
8、GAGTCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAATCTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTGGTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAAGATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCTATGACAAACCTAGAGAA
9、ACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGTACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGGTGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCACAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTCACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCC
10、AGAGCCTGGGATGCCTGTTATCCAGAGCACTTACGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTATGATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAG,Genes (i.e., protein coding) But. . . only 2% of the human genome encodes proteins Other than protein coding genes, what is th
11、ere? genes for noncoding RNAs (rRNA, tRNA, miRNAs, etc.) structural sequences (scaffold attachment regions) regulatory sequences non-functional “junk” ? Its still uncertain/controversial how much of the genome is composed of any of these classes The answers will come from experimentation and bioinfo
12、rmatics.,Complexity of genome,Published by AAAS,Science 306, 636-640 (2004),The ENCODE Project: ENCyclopedia Of DNA Elements,/ENCODE/,Protein coding genes. In long open reading frames ORFs interrupted by introns in eukaryotes Take up most of the genome in prokaryotes, but only a
13、 small portion of the eukaryotic genome RNA-only genes Transfer RNA, ribosomal RNA, snoRNAs (guide ribosomal and transfer RNA maturation), intron splicing, guiding mRNAs to the membrane for translation, gene regulationthis is a growing list Gene control sequences Promoters Regulatory elements Transp
14、osable elements, both active and defective DNA transposons and retrotransposons Many types and sizes Repeated sequences. Centromeres and telomeres Many with unknown (or no) function Unique sequences that have no obvious function As a general rule, each part of a genomic sequence has only one functio
15、n: protein-coding gene, RNA gene, control signal, transposable element, repeat sequence, maybe no functional at all. But, most sequence elements overlap only slightly if at all.,Whats in a genome?,protein-coding genes, nonprotein-coding genes,easier to find than other functional elements why? genes
16、are transcribedwhich means that we can identify them by looking at RNA traditionally this has been done by cDNA or EST sequencing, more recently by microarray, SAGE, MPSS, etc.,protein-coding genes have recognizable features open reading frames (ORFs) codon bias known transcription and translational
17、 start and stop motifs (promoters, 3 poly-A sites) splice consensus sequences at intron-exon boundaries,Finding protein-coding genes,Finding nonprotein-coding genes,e.g., tRNA, rRNA, snoRNA, miRNA, various other ncRNAs Harder to find than protein-coding genes Why? often not poly-A taileddont end up
18、in cDNA libraries no ORF constraint on sequence divergence at nucleotide not protein level, so homology is harder to detect So, how do we find these?,secondary structure homology, especially alignment of related species experimentally isolation through non-polyA dependent cloning methods microarrays
19、,Finding nonprotein-coding genes,包括多种RNA结构预测及基因鉴别软件 假阳性是最大的问题,/wiki/List_of_RNA_structure_prediction_software,非编码RNA基因预测,A practical guide to the art of RNA gene prediction,第六章 基因预测和基因结构分析 (II),生物信息学,基因预测和基因结构分析,生物信息学中的重要内容之一 预测编码蛋白质的基因,排除重复序列 确定开放阅读框(open reading frame, ORF) 确
20、定基因的调控区启动子,(一) 基因预测的基本分析内容,(二) 基因预测的基本方法,1. 序列相似性搜索(Extrinsic Approaches),基因组DNA序列,在6个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如Blastx) 对EST数据库中同一生物的cDNA序列进行比较分析(如Blastn),确定基因数目和对应的ORF,Similarity-based Gene Prediction: for sequences that encode a known protein or a protein with a known homolog,分析举例:水稻Xa21基因序列(U37
21、133),CDS:1-2677 bp处和3521-3921 bp处 Blastx分析结果(检索蛋白质数据库):与水稻蛋白质序列比较,Blastn分析结果(检索est other数据库):与水稻cDNA序列比较,取决于数据库中EST数据的数量和长度 通过“Distance tree of results ”查看与U37133序列同源的其它EST序列,有些蛋白质序列是推测获得的,2. 根据模式序列预测基因(Ab Initio Approaches),各种基因预测软件 取决于人们对已知基因结构特征的认识 采用统计学方法,基于一个或多个已知序列模式对未知序列进行分类,密码子偏爱性 对发现的模式进行统计
22、检验,启动子结构 外显子、内含子,原核生物(E.coli),与RNA聚合酶互作位点(-10、-35区),LexA repressor的结合位点(启动子区段)CTGNNNNNNNNNNCAG 核糖体结合位点(转录起始位点后)GGAGG,真核生物,基因结构复杂 已知外显子、内含子外显子边界、启动子序列特征,目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Mathe et al. 2002),不同的基因预测软件分析结果有差异 综合多个基因预测软件的分析结果,根据模式序列预测基因,一种分析工具可选择分析基因的不同结构,exon, poly-A, promoter 重复序列,某些分析
23、工具可选择物种模式(matrix)作为参照比较对象 某些分析工具可用不同的方式呈现分析结果(文字或图形),根据模式序列预测基因,分析举例(1) Gene Finding,Softberry ( Finding工具,分三大类,Gene Finding in Eukaryota Operon and Gene Finding in Bacteria Gene Finding in Viruses 每一大类包括多个分析软件,在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH”,在FGENESH网页输入D63710序列(fasta格式)、选择物种(
24、human)作为参照,分析结果(文字和图像),GenScan(/GENSCAN.html)用三个物种模式作为参照,Vertebrate Arabidopsis Maize,在GenScan主页输入D63710序列、选择物种(Vertebrate)作为参照,分析结果(文字和图像),分析举例(2) GenScan,分析举例(3) GeneMark,GeneMark(/),用于真核、原核和病毒等基因的预测 多种物种参照,在GeneMark的分析主页选择“GeneMark-E”,在“GeneMark-E”网
25、页输入D63710序列、选择物种“H. sapiens”,选择输出格式,分析结果,Combine extrinsic and ab initio Approaches,http:/bioinf.uni-greifswald.de/augustus/,/software/maker.html,combine extrinsic andab initioapproaches by mapping protein andESTdata to the genome to validateab initiopredictions.,3. 利用比较基因组预
26、测基因(Comparative Genomics Approaches),依赖于全基因组测序结果 亲缘关系相近生物的基因序列具有保守性,分析举例,N-SCAN/Twinscan (/nscan/),选择N-SCAN在线分析(需免费注册),输入待分析序列,选择masking, clade, species和informant,分析结果,基因预测存在主要问题,假阳性(False Positive):多预测了假的编码区,即在非编码区预测出基因 假阴性(False Negative):漏掉了真实的编码区,即将基因预测为非编码区 过界预测(Over Predic
27、tion):由于基因边界很难准确定位,预测经常会超过实际边界 片段化(Fragmentation):内含子太大的基因,在预测时容易断裂成两个或多个基因 融合化(Fusion):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因,包括多种基因预测软件 NNPP分析启动子位点,在BCM的分析主页选择“Gene Feature Searches”,在“Gene Feature Searches”网页粘贴D63710序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction”,分析结果,BCM /,(三)基因精细结构分析,Promoter2.0 pred
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年房地产抵押贷款合同模板
- 二零二五年度智能车库车位租赁与增值服务合同
- 二零二五版建筑工程保修合同范本
- 2025版新型城镇化建设合作协议书范本指引
- 2025年财务人员离职保密协议与财务审计信息保密合同
- 2025年度道路养护劳务承包合同字样规范
- 2025版教师劳务派遣与教育资源共享合作协议
- 二零二五版外贸代理及国际商业风险控制合同
- 二零二五年度社区安保服务劳务派遣合同模板
- 2025版附期限还本付息的企业融资借款合同
- 投资合作协议及投资细则说明
- 2025广西公需科目考试答案(3套涵盖95-试题)一区两地一园一通道建设人工智能时代的机遇与挑战
- 闺蜜合同协议书模板模板
- 2025年7月浙江省普通高中学业水平考试数学试卷(含答案)
- DB32/T+4643-2024+超声波岩盐气溶胶治疗呼吸系统疾病技术规范
- 变压器保护的整定计算
- 复盘+把经验转化为能力
- 2022年江西机电职业技术学院教师招聘考试真题
- 《HSK标准教程2》第6课课件
- 建筑工程施工质量保证大纲
- 专家论证高边坡安全专项施工方案
评论
0/150
提交评论