基因组序列注释的方法_第1页
基因组序列注释的方法_第2页
基因组序列注释的方法_第3页
基因组序列注释的方法_第4页
基因组序列注释的方法_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组序列注释的方法,一、基因组序列注释,以基因组序列为基础,确定全基因序列中基因的确切位置,二、注释的方法,1、根据开放阅读框(ORF)预测1)起始密码子ATG:第一个ATG的确定依据Kozak规则,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律:,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基,2)终止密码子:终止密码子:TAA,TAG,TGAGC%=50%终止密码子每64bp出现一次;GC%50%终止密码子每100200bp出现一次;由于多数基因ORF均多于50个密码子,因此最可能的选择应该是ORF选择不少于100个密码子。,细菌基因组的ORF阅读相对比较简单,错误的概率较少,但单纯的ORF扫描对高等真核生物DNA效果不佳。内含子使ORF扫描复杂化,对ORF扫描的基本程序的编写要考虑以下几个问题:a、密码子偏倚编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。,特定生物体的基因中并不是所有密码子的使用频率都是平等的。如Leu的密码子有6个(TTA、TTG、CTT、CTC、CTA、CTG),在人类基因中,绝大多数Leu都是由CTG编码的,而且几乎不由CTA和TTA编码。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。,b、外显子内含子边界,外显子和内含子的边界有一些明显的特征如:内含子的5端常见的顺序为5-AGGTTAAGT-3;3端多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T或C);,上游外显子-内含子边界的共有序列在真正基因中发现的真实序列之间的关系。,运用外显子内含子边界特殊序列的方法来注释基因的成功率不高。,c、上游调控顺序,几乎所有基因(或操纵子)上游都有调控序列,它们与DNA结合蛋白作用,控制基因表达,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(TheTRADATProject,EukaryoticPromoterDatabase,EPD.http:/www.epd.unil.ch/)。另外个别基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有大约1kb长的CpG岛。,2、同源查询,利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例用于界定基因的方法。,A.DNA序列某些片段完全相同;B.开放阅读框排列类似;C.开放阅读框翻译成的氨基酸序列的相同;D.模拟多肽高级结构相似。一般认为,氨基酸序列的相似性在25%以上可视为同源基因。这些结果均可作为基因判定的指标,可单独用,也可综合用。,基因注释软件,1)目前基因注释程序的编写主要依据两种信息内涵:1.signalterms(信号指令),如起始密码,终止密码,终止信号,多聚嘧啶顺序,分支点等保守的顺序组成;2.contentterms(内容指令),如密码子使用偏好.对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中,存在许多可能误判的信号指令.2)常用的注释软如GenScan主要偏重于内容指令,而FgeneSH则着重于信号指令.由于每种生物都有种属专一性的密码子偏好,也存在某些非保守的信号指令,因此在超长基因注释中常出现正向错误(false-positive,多注释)或负向错误(false-negetive,少注释).引自:Naturereviewsgenetics,4:741-749,2003.,3、通过实验确认基因,a、确认基因的存在:通过Northern杂交确定DNA片段是表达序列;由EST或cDNA指认基因。EST和cDNA是基因转录加工后的产物,可以确切无疑的代表相应基因成员的存在。,b、确定基因的位置:获取基因全长cDNA序列。根据已知片段设计引物,通过RACE技术得到基因的全长cDNA序列;确定DNA顺序中基因的位置。通过对全长cDNA序列的测序,并与基因组DNA的比较,确定基因所在的区域;OR通过物种已建立的遗传图和物理图来确定基因的位置,三、基因组序列注释的应用,1、Jim工程吉姆工程是美国454生命科学公司(基因技术公司)在2005年前给“DNA之父”称誉的美国科学家詹姆斯沃森绘制完整的个人基因组图谱的工作,美国这家基因技术公司将相关工作所以命名为“吉姆工程”是因为沃森名字“詹姆斯”昵称“吉姆”。“DNA之父”沃森的个人基因组图谱于2007年05月31日首次向全世界公开,成为世界首份个人基因组图谱;将来普通人只需1000美元就可掌握自己的“生命天书”。,吉姆工程成果吉姆工程耗时两年复查6次,通过所提取的沃森血样,454生命科学公司在两年时间里逐个识别沃森基因的30亿个碱基对,并用67天时间为这些碱基对排序,从而绘制了沃森的基因组图谱。,吉姆工程的意义个人基因组图谱隐藏的遗传信息好似“生命密码”,如果破译,可以自人们出生之日起就采取相应对策,减少患上特定疾病的风险,防患于未然。沃森举例说,如果一个孩子的基因组图谱显示,这个孩子患上糖尿病的风险较高,那么就应该严格控制这个孩子的体重。这样一来,在这个孩子学会走路之前,他患上糖尿病的风险已经大大降低。还有不少科学家认为,绘制出个人基因组图谱,意义不仅在于降低患病风险,还可以铲除疾病根源。,2、ENCODE计划TheEncyclopediaofDNAElementsProject:即“DNA元件百科全书计划”,简称ENCODE计划。2003年9月由美国国立人类基因组研究所(NationalHumanGenomeResearchInstitute)组织的又一个重大的国际合作计划。其目的是解码基因组的蓝图,鉴定人类基因组中包括基因、启动子、增强子、抑制子/沉默子、内含子等已知的和还不知功能的多个物种的保守序列等在内的所有功能元件。ENCODE计划中提出的每一类元件都是已经被发现过的,所不同的是现在要在全基因组的范围内进行系统的研究。,ENCODE计划成果4年来,通过建立一个目录,详尽地描述1人类基因组的全部生理功能基础。该结果高度肯定了鉴定和归类人类基因组功能元件的工程的成功,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论