基因组序列注释寻找DNA序列中的基因ppt课件_第1页
基因组序列注释寻找DNA序列中的基因ppt课件_第2页
基因组序列注释寻找DNA序列中的基因ppt课件_第3页
基因组序列注释寻找DNA序列中的基因ppt课件_第4页
基因组序列注释寻找DNA序列中的基因ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Xiaofang Xie College of Life ScienceFujian Agriculture and Forestry University E-mail:So Many Choices, So Little MoneyWhat to do next?GENOMICSGENOMICS基因组的基本结构基因组的基本结构 基因组研究的基因组研究的首要目标首要目标是获得生物是获得生物的整套遗传密码。的整套遗传密码。最终目的:最终目的:揭示大量揭示大量基因及蛋白质数据中所蕴藏的内在规律,基因及蛋白质数据中所蕴藏的内在规律,从而更好地认识生命体。从而更好地认识生命体。 COLLEGE OF

2、 LIFE SCIENCE 基因组学研究已从结构基因组基因组学研究已从结构基因组-功能基因组功能基因组 为了得到基因表达的功能图谱为了得到基因表达的功能图谱: : 1) 1)在核酸层次上是在核酸层次上是-DNA-DNA芯片技术芯片技术; ; 2) 2)在蛋白质层次上是在蛋白质层次上是-二维凝胶电泳和测序质谱技二维凝胶电泳和测序质谱技 术,等术,等 大规模基因功能表达图谱的分析大规模基因功能表达图谱的分析-无论是生物芯无论是生物芯 片还是蛋白质组技术的发展都更依赖于生物信息学理片还是蛋白质组技术的发展都更依赖于生物信息学理 论、技术与数据库的发展。论、技术与数据库的发展。 COLLEGE OF

3、LIFE SCIENCE 基因组序列注释基因组序列注释genome annotationgenome annotation基因组功能注释为功能基因组学的主要研功能基因组学的主要研究目标究目标,包括应用生物信息学的方法,高通量地注释基因组所有编码产物的生物学功能。该领域已成为后基因组时代的研究该领域已成为后基因组时代的研究热点。热点。GENOMICSGENOMICS COLLEGE OF LIFE SCIENCE 寻找寻找DNA序列中的基因序列中的基因 COLLEGE OF LIFE SCIENCE1、依据基因结构的特点采用abinition软 件预测;2、同源性比较,在同一物种或不同物种 中查

4、找已有的基因序列;3、基序(motif)和功能域(domain)分 析,主要用于基因功能分析。根据基因结构特征搜寻基因根据基因结构特征搜寻基因 通过通过ORF来识别基因来识别基因1、起始密码子和终止密码子起始密码子: ATG终止密码子: TAA, TAG,TGA 2 、ORF:以起始密码子(通常为ATG)开始,以终止密码子(TAA, TAG,TGA)结束的一段DNA序列。 COLLEGE OF LIFE SCIENCE根据基因结构特征搜寻基因根据基因结构特征搜寻基因 通过通过ORF来识别基因来识别基因 ORF(open reading frame,开放阅读框)由起始密码(ATG)和终止密码(T

5、AA、TAG或TGA)来确定。理论上可以预计,在随机的随机的DNA序列中,可能出现的ORF的长度一般都不超过50个密码子。而基因的ORF的长度一般都在50个密码子以上。因此,以150bp的ORF长度为界,原则上就能可靠地原则上就能可靠地识别出基因。识别出基因。 COLLEGE OF LIFE SCIENCE决定决定ORF真伪的重要因素:真伪的重要因素:1、ORF长度终止子:TAA、TAG、TGA随机出现的概率? (假设:GC含量50%)在基因组中随机出现终止密码子的概率: 43=64 bp 考虑GC含量的影响,每100-200 bp会随机出现一个终止密码子,那么长度150 bp(50个密码子)

6、的ORF编码功能肽链的可能性较大。 COLLEGE OF LIFE SCIENCE寻找寻找DNADNA序列中的基因序列中的基因 通过通过ORF来识别基因来识别基因由于原核生物基因组中没有内含子,而且很少有间隔序列,因此这种简单的ORF搜索方法在原核生物中的应用十分有效。但是,该法在真核生物中却效果很差,这是因为真核生物中存在内含子和大量的间隔序列及重叠基因和基因内基因等情况。所以,不能用简单的ORF搜索方法来识别真核生物的基因。 COLLEGE OF LIFE SCIENCE真核生物基因的模式结构真核生物基因的模式结构 COLLEGE OF LIFE SCIENCE4 4、内含子和外显子的序列

7、组成的不同、内含子和外显子的序列组成的不同1、内含子的A/T比例明显高于外显子。 COLLEGE OF LIFE SCIENCEAC2、如果以内含子作为编码序列,会出现高比例的终止密码子。 COLLEGE OF LIFE SCIENCE COLLEGE OF LIFE SCIENCEORF的预测内含子和外显子密码子的偏好密码子的偏好 COLLEGE OF LIFE SCIENCE解决的方法:1、密码子偏好 (Codon bias) COLLEGE OF LIFE SCIENCE真正的外显子会表现出密码子偏倚而随机序列却不会,因此生物的密码子偏倚已被写入ORF扫描软件中。2、外显子-内含子边界(

8、exon-intron boundaries)上游边界序列:上游边界序列:5-AG GTAAGT-3下游边界序列:下游边界序列:5-PyPyPyPyPyPy NCAG -3(Py为嘧啶核柑酸,为嘧啶核柑酸,T和和C)迄今为止,外显子迄今为止,外显子-内含子边界预测仍未完全解决?内含子边界预测仍未完全解决? COLLEGE OF LIFE SCIENCE3、上、下游功能元件:、上、下游功能元件:(1) 启动子及上下游调控元件:增强子(enhancer)CpG岛 (CpG island) COLLEGE OF LIFE SCIENCE人各条染色体基因密度与人各条染色体基因密度与CpG岛密度之间的关

9、系岛密度之间的关系 COLLEGE OF LIFE SCIENCE4、启动子分析、启动子分析 启动子是基因表达所必需的重要序列信号,找出启动子是基因表达所必需的重要序列信号,找出启动子对功能基因的分析十分重要。有一些程序根据启动子对功能基因的分析十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际效果不理征,并依次作为启动子预测的依据,但实际效果不理想,遗漏和假阳性严重。想,遗漏和假阳性严重。 启动子是值得继续研究探索的难题。启动子是值得继续研究探索的难题。翻译终止信号翻译终止信号 PolyA

10、 PolyA和翻译终止信号不象起始信号那么重要,但和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。也可以辅助划分基因的范围。 COLLEGE OF LIFE SCIENCE每个基因都有一个启动子?每个基因都有一个启动子? 哈佛大学George Church教授领导的研究小组在酵母的基因转录时发现,当两个基因距离非常近时,可共用一个启动子。 COLLEGE OF LIFE SCIENCE 综合基因预测工具综合基因预测工具 许多用于基因预测的工具,大多把各个方面的分析许多用于基因预测的工具,大多把各个方面的分析综合起来,对基因进行整体分析和预测。多种信息的综综合起来,对基因进行整体

11、分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有局限:合分析有助于提高预测的可靠性,但也有局限:1)物种适用范围的局限;)物种适用范围的局限;2)对多基因或部分基因,有的预测出的基因结构不可)对多基因或部分基因,有的预测出的基因结构不可靠;靠;3)预测的精度对许多新发现基因比较低;)预测的精度对许多新发现基因比较低;4)对序列中的错误很敏感;)对序列中的错误很敏感;5)对可变剪接、重叠基因和启动子等复杂基因语法效)对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。果不佳。 COLLEGE OF LIFE SCIENCE相对不错的工具有相对不错的工具有GENSCAN,可通过,可通过

12、Web页页面或面或Email获得获得GENSCAN服务。服务。 GENSCAN的网址:的网址: /GENSCAN.html此外,还有此外,还有NCBI提供的提供的ORF Finder/gorf.html COLLEGE OF LIFE SCIENCEGENSCANGENSCAN的网址:的网址:/GENSCAN.html COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 通过同源来识别基通过同源来识别基因因基因数据库中不仅存有已知功能的基因序列,而

13、且还存有大量的未知功能的基因的表达序列(cDNA)。目前许多重要植物中都在进行大规模的cDNA序列工作。因此,以后通过同源搜索确定基因将变得非常容易。 COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 基因之间序列的比较基因之间序列的比较将两条序列相同的元素标在点阵(dot matrix)里。若两条序列是相同的,则会沿点阵的对角线方向形成一条直线(左图);而两条无关的序列之间相同元素的点在点阵中则是无序分布的(右图)。 COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 酵母基因组序列同源搜索结果酵母基因组序列同源搜索结果30为原来已鉴

14、定的基因;30为同源分析鉴定的基因;10为数据库中存在同源序列,但功能未知,称为孤儿家族;剩下30在数据库中无同源序列,其中7%很可能不是基因,23看起来像基因,称为单身孤儿。 COLLEGE OF LIFE SCIENCE4、可通过同源比对进行验证 原理? 风险? COLLEGE OF LIFE SCIENCE基本概念基本概念孤独基因:孤独基因:在基因分类时,那些缺少同源序列的ORF被称为孤独基因。同源性:同源性:指起源于同一祖先但序列已经发生变异的序列。一致性:一致性:是指同源DNA序列的同一碱基位置上相同的碱基成员或蛋白质中的同一氨基酸位置相同的氨基酸成员的比例。相似性:相似性:同源蛋白

15、质的氨基酸序列中的一致性氨基酸和可取代氨基酸所占的比例。 COLLEGE OF LIFE SCIENCE实验确认基因实验确认基因1. 杂交可以检验某一片段是否含有表达序列2. 由EST和cDNA指认基因3. 精确定位转录物末端的方法4. 准确定位外显子-内含子边界 COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 cDNA 的测序的测序在高等生物中,编码序列只占基因组的很小一部分,而这部分又是基因组中最重要的。因此,cDNA测序既可以节省大量开支,又可获得基因组的主要信息。从cDNA序列有助于准确地判断外显子和内含子,从而能够更准确地了解基因组中的基因数量和种类,

16、有利于基因组的注释。高等生物中还存在选择性剪接的现象,使得一个基因可以编码多种mRNA和蛋白质。这只能通过cDNA测序才能了解到。 COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 cDNA 的合成的合成提取提取mRNA。以寡。以寡dT为为引物,在反转录酶作用引物,在反转录酶作用下合成下合成cDNA第一链。第一链。除去除去mRNA链。第一链链。第一链3端(因碱基厌水而形端(因碱基厌水而形成发夹结构)或未除尽成发夹结构)或未除尽的的mRNA3端为引物,端为引物,由由DNA聚合酶合成聚合酶合成cDNA第二链。第二链。用用S1酶除去发夹单链,酶除去发夹单链,由由DNA聚合酶填补缺口,聚合酶填补缺口,形成平末端。形成平末端。 COLLEGE OF LIFE SCIENCE基因组序列的注释基因组序列的注释 EST与与cDNA用寡dT引物反转录常常到不了5末端。采用随机引物进行反转录则可获cDNA的5端序列。这些不完整的cDNA称为表达序列标签(Expressed Sequence Tag,EST)。使用高性能的RACE(Rapid Amplification of cDNA Ends)试剂盒和适当的技术,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论