chap基因组序列诠译_第1页
chap基因组序列诠译_第2页
chap基因组序列诠译_第3页
chap基因组序列诠译_第4页
chap基因组序列诠译_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于:1)基因组序列中所包含的全部遗传信息是什么;2)基因组作为一个整体如何行使其功能。 这二项任务都必须依赖于对基因组序列的正确注解或诠释,首先是从已知序列中搜寻基因4.1、搜寻基因 有二种方法: 1)根据已知的序列人工判读或计算机分析寻找与基因有关的序列; 2)试验研究,看其是否能表达基因产物及其对表型的影响4.1.1、根据序列分析搜寻基因 如果一段DNA序列中含有编码基因,那么这段序列的碱基就不会是随机排列的,一定存在某些可辨的特征。目前还没有一个能适用于所有情况的“基因序列”的标准,只能根据已知的某些规律来推测那些序列可能是基因。开放

2、读码框 开放读码框有一个起始密码(ATG)和终止密码(TAA、TAG和TGA)。从DNA序列搜寻基因从ATG开始,而后向下游寻找终止密码。 获得了DNA双链之后,我们不知道那条单链是编码链,也不知道转录起始点从那个碱基开始。由于每条链有三种可能的读框,2条链共计6种读框,计算机可以很快给出结果。ORF扫描的关键是终止密码子在6种读框中出现的频率1)如GC含量为50,则三个终止密码子出现的机率为64bp一次2)如GC含量大于50,则每隔100200bp才会出现1个终止密码子3)随机碱基排列的ORF长度预计不超过50个密码子,即150bp, 以ATG起始计算长度更短4)大多数基因的ORF均多于50

3、个密码子,因此最可能的选择是ORF不少于100个密码子的读框 细菌基因组中缺少内含子,非编码序列11,对读框的排查干扰较少。 高等真核生物DNA的ORF阅读比较复杂,其原因在于:1)基因间存在大量非编码序列;2)绝大多数基因含有非编码的内含子,多数外显子的长度少于100个密码子,有些不到50个密码子内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描程序时要作许多修改,加入一些相应的规则:1)密码子偏爱,不同种属之间使用同义密码的频率有很大差异。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布。根据已有生物密码子偏爱的资料在编写相应的计算机程序时可加入

4、这些限制。2)外显子内含子边界,边界区有明显的特征:如内含子的5端常见的序列为AGGTAAGT;3端多为PyPyPyPyPyPyCAG。3)上游控制序列,如CpG岛同源查询 利用已存入数据库中的基因顺序与待查的基因序列进行比较,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法称为同源查询,它可弥补ORF扫描的不足。其依据是生物体不同种属之间具有功能和结构相似的直系基因成员,它们在起源上一脉相承,存在保守的序列,另外,同一物种中由于基因重复所产生的基因家属成员也有保守的序列特征。开放读码框 开放读码框有一个起始密码(ATG)和终止密码(TAA、TAG和TGA)。从DNA序列搜寻基因从ATG开始,而后向下游寻找终止密码。 获得了DNA双链之后,我们不知道那条单链是编码链,也不知道转录起始点从那个碱基开始。由于每条链有三种可能的读框,2条链共计6种读框,计算机可以很快给出结果。同源查询 利用已存入数据库中的基因顺序与待查的基因序列进行比较,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法称为同源查询,它可弥补ORF扫描的不足。其依据是生物体不同种属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论