细菌的基因预测以及注释_第1页
细菌的基因预测以及注释_第2页
细菌的基因预测以及注释_第3页
细菌的基因预测以及注释_第4页
细菌的基因预测以及注释_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Whole-genome Annotation of an A.baumannii strain A.baumannii ACICU 摘 要 随着新一代测序技术的进展,微生物全基因组测序的成本大大削减,DNA序列的生成速度已远远超过其基因的注释速度。功能基因组学的争辩已经成为当今争辩的主流。然而如此多的数据对现有的基因注释工具提出了巨大的挑战。本争辩通过对A.baumanii ACICU染色体序列使用GeneMarks进行基因猜测,猜测到了3718个基因,然后使用RAST进行基因注释,共注释到了3683个功能基因,将得到的结果与原文献中所注释到的基因进行对比。最终得到结论,基因的猜测与注释都需

2、要综合不同软件的结果进行分析,才能得到较为精确的结果。本争辩为原核生物全基因组的注释提方法供了参考。关键字:基因注释 全基因组 鲍曼不动杆菌 GeneMarks RAST名目1.引言(Introduction)31.1.背景介绍31.2.全基因组注释软件31.3.A.baumannii ACICU相关42.材料与方法(Methods and Materials)52.1.使用GeneMarks进行ORF猜测52.2.使用RAST进行功能基因注释63.结果与争辩(Results and Discussion)83.1.使用GeneMarks猜测ORF的结果以及分析83.2.使用RAST进行功能基

3、因注释结果以及分析93.3.综合分析10参考文献101. 引言(Introduction)1.1. 背景介绍 一个完整的基因组是指组成一个生物体全部DNA的集合。想要完全了解一个生命体,首先需要知道它的全基因组序列,由于生命体本身的遗传信息是不会轻易转变的。基因组争辩包括两方面内容:(1)以全基因组测序为目标的结构基因组学(2)以基因功能鉴定为目标的功能基因组学,也叫后基因组(postgenome)争辩。其中结构基因组学的重点就是利用高通量测序仪进行全基因组测序。随着测序的完成,功能基因组学争辩成为争辩的主流。功能基因组学的争辩内容很多,主要包括:基因组表达调控的争辩、基因信息的识别和鉴定、基

4、因功能信息的提取和鉴定、基因多样性分析、比较基因组学等。随着新一代测序技术的进展,微生物全基因组测序的成本大大削减,DNA序列的生成速度已远远超过其基因的注释速度。现阶段超过300个细菌基因组序列已可以在公开数据库中查询,同时有更多的微生物基因组序列测序工作即将完成并在近期发布。如何利用这些原始序列信息来更好的了解微生物中诸如基因的识别和注释、蛋白质的结构和功能等生物学学问,这是我们现阶段要做的重要工作。 传统上,人们用试验方法验证基因组中的蛋白质编码基因,但这种方法费时费劲,且带有较大的盲目性。因此,基因组注释不行避开要依靠自动化注释软件,接受自动化注释对生物序列特殊是大规模的基因组序列进行

5、分析和注释,从而对传统生物学试验产生有益的方向性指引是当前争辩的热点。然而,自动化注释必定会引进和传播一些错误的注释信息,其结果往往需要人工修正,数据库中收录的已测序和注释的基因序列数量巨大,手工修正全部的注释序列也是不行行的1。基因组注释的精确性已变得越来越为重要,新的注释方法不断研发,如依据序列组成特征或核苷酸消灭频率模式等多种参数对蛋白质编码基因起始位点、假蛋白基因和RBS位点的的识别方法。这些争辩加上不断完善的数据库信息和新的试验验证学问,在不久的将来无疑会对基因组注释的精确度起到更好的作用。1.2. 全基因组注释软件目前,针对基因组学争辩的各个方向都有很多现成的软件。这些软件都是争辩

6、者或商业公司针对某些分析方法开发的,为后来争辩者供应了巨大的便捷。基因组注释是在得到全基因组序列后首先要做的。它是利用生物信息学方法,对基因组全部基因的生物学功能进行功能注释,包括基因猜测和基因功能注释两个方面。目前已经有很多的基因猜测工具或者在线注释网站。基因猜测的方法主要有 3 种:(1)分析mRNA和EST数据直接得到结果;(2)通过相像性比对从已知基因和蛋白质序列得到间接证据;(3)基于各种统计模型和算法从头猜测,比如隐马可夫模型。其中通过相像性比对得到猜测基因的方法最常见。例如,现在流行的做法是先通过 Glimmer、GeneMarks等软件猜测出基因组的ORF。然后通过 Blast

7、方法将ORF同其他物种的基因进行比对。有同源基因的ORF被注释为同样功能的基因,没有同源性的ORF被舍去或注释为假说蛋白(hypothetical protein)。由于注释需要大量的数据库,为了使注释变得简洁,一些争辩机构将不同功能的注释软件整合在一起,供应在线的注释服务。如 RAST2、Xbase等,NCBI的PGAAP能供应人工的注释服务。这些网站只需要用户将序列和序列的所属物种分类信息提交即可。注释好的结果为 gbk 格式文件(包含序列和注释信息)3。GeneMarks4 软件的原理都是使用统计学模型的从头猜测(ab initio)方法,不依靠任何先验学问和阅历参数,通过描述DNA序列

8、中核苷酸的离散模型,利用编码区和非编码区的核苷酸分布概率不同来进行基因猜测。GeneMarks是不需要人为干预和相关DNA或rRNA基因的资料即可对新的细菌基因组进行猜测,测试表明GeneMarks对GeneBank数据库中已注释的枯草芽孢杆菌的猜测精确度达到82.9%,而对已通过试验方法证明注释功能的大肠杆菌的猜测高达93.8%,其对新测序基因组的猜测与Glimmer存在同样问题,即相当一部分基因在数据库并不能发觉同源,只能作为假蛋白基因存在。如何在没有明确试验证据的前提下鉴定此类基因猜测的精确性,切实可行的方法就是综合利用多个猜测软件对猜测结果进行比较,分析其中的异同点1。1.3. A.b

9、aumannii ACICU相关本争辩所接受的菌株A.baumannii ACICU是鲍曼不动杆菌比较有代表性的菌株,关于这株菌的具体信息可查看Iacono M et.al5。近年来由于鲍曼不动杆菌的耐药性的不断增加,关于鲍曼不动杆菌耐药机制进行了大量争辩,已经有35株鲍曼不动杆菌完成了全基因组基因测序与注释。序列大小/bp编码区比例/%GC%猜测基因数(ORF)编码蛋白基因数(CDS)染色体序列390411684.8739.0337583670上表格显示了A.baumannii ACICU 菌株的全基因组的注释状况其由整个染色体以及两个质粒组成。其中染色体大小为3904116bp,编码区占整

10、个基因组的84.78%,含有猜测基因数(ORF)为3758个,其中编码蛋白质的基因数为3670个5。上图为NCBI上所显示的A.baumannii ACICU的相关状况,其中编码蛋白质基因数为3613,与原文献中所载有较大差别,可能是随着时间的推移,基因注释方法有所改进,有所变化所致。本争辩主要以A.baumannii ACICU染色体序列为例对基因猜测与注释的方法进行分析,以找到合适的基因猜测与注释的方法。2. 材料与方法(Methods and Materials)下面我们利用从NCBI上下载的A.baumannii ACICU全基因组染色体序列(不包含质粒序列)(.fasta格式)为例,

11、分别使用GeneMarks(/GeneMark/genemarks.cgi)进行ORF(开放阅读框)基因猜测, RAST(/)进行功能基因(CDS)注释,对比原结果进行分析。2.1. 使用GeneMarks进行ORF猜测(1)第一步是上传A.baumanii ACICU染色体序列,并设置合适的参数,填加自己的邮箱。全部设置好之后,点击Start GeneMarks开头注释。如下图所示:(2)第一步上传结束序列之后,会消灭如下界面,提示序列已成功提交,注释好的文件会发到所填邮箱。2.2. 使用RAST进行功能基因

12、注释(1)上传A.baumanii ACICU(.fasta格式)序列,上传结束后点击Use this data and go to step 2进行下一步。如下图所示:(2)其次步填加必需的的参数,Domain选择Bacteria,Genetic Code选择11,然后点击Use this data and go to step 3进行下一步操作。如下图所示:(3)如下图所示,选择好合适的参数后点击Finish the upload,即可等待结果,注释结束后,其会发邮件告知3. 结果与争辩(Results and Discussion)3.1. 使用GeneMarks猜测ORF的结果以及分析

13、使用GeneMarks进行猜测后,生成了gms.out gms.out.faa gms.out.fnn gms.out.ps四个文件:其中gms.out文件如下显示(其中一部分,使用linux系统cat或者head命令查看): Gene Strand LeftEnd RightEnd Gene Class # Length 1 - 76 468 393 1 2 - 506 2974 2469 1 3 - 3027 4109 1083 1 4 - 4124 5272 1149 1 5 - 5370 6767 1398 1 6 + 7438 7572 135 1 7 + 7602 7994 393

14、 1 8 + 8005 8325 321 1 9 + 8331 10091 1761 1 10 + 10182 11537 1356 1 3711 + 3894879 3896006 1128 1 3712 + 3896134 3896979 846 1 3713 - 3897035 3897370 336 1 3714 - 3897495 3898499 1005 1 3715 - 3898842 3899849 1008 1 3716 - 3900105 3901109 1005 1 3717 + 3901366 3903297 1932 1 3718 + 3903549 3904106

15、558 1其中gms.out.faa氨基酸序列文件显示如下(其中之一):>gene_3718|GeneMark.hmm|185_aa|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genomeMNFIDFITNFEQFLPILIQEYGAWVYAILFLIIFSETAFVFMFFLPGDSLLLTVGALCSVVELMHLGYMITLLTVAATLGYIVNYSIGRHFGNRIFEAKSRFIKKEYLNKTNRYFLQHGGKTILLARFIPFAR

16、SFAPLAAGSSNMSYGKFLIYNVAGAILWICILLTAGYLFGHALIQVTDFVEN其中gms.out.fnn核苷酸序列如下所示,起始密码子为ATG,终止密码子为TAA TGA和TAG(其中之一):>gene_3718|GeneMark.hmm|558_nt|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genomeATGAATTTTATTGATTTTATTACTAATTTTGAACAATTTTTACCTATTTTGATTCAGGAG

17、TATGGTGCATGGGTTTATGCCATACTCTTTTTGATTATTTTTTCTGAAACTGCTTTTGTGTTTATGTTCTTTTTACCTGGAGATAGCTTACTTTTAACTGTAGGTGCACTGTGCTCGGTGGTTGAACTGATGCATCTTGGTTATATGATTACTCTGCTCACCGTTGCAGCAACATTAGGCTATATCGTCAATTATTCTATTGGCCGCCATTTTGGAAACCGTATTTTTGAAGCAAAATCACGTTTTATTAAAAAAGAATATTTGAATAAAACGAACCGCTATTTCTTGCAACATGGCGGT

18、AAAACTATTCTTTTAGCACGTTTTATTCCTTTCGCACGTTCTTTTGCACCCCTCGCTGCCGGCTCAAGCAATATGAGCTATGGAAAATTTTTGATTTACAATGTGGCAGGAGCTATTTTGTGGATCTGCATCCTTTTAACGGCTGGCTACCTATTTGGCCATGCACTCATTCAAGTTACAGATTTTGTTGAAAATTAA由此可知A.baumannii ACICU全基因组经GeneMarks猜测到了3718个基因。3.2. 使用RAST进行功能基因注释结果以及分析 以上两图是使用RAST对A.baumannii ACICU

19、染色体序列进行注释的结果菌株A.baumannii ACICU染色体基因组经RAST功能基因注释,共注释到3683个功能基因。其中分布于不同功能子系统(457)的有1831个,确定的基因(non-hypothetical)有1736个,不确定(hypothrtical)的有95个;其余的编码基因不分布于这些不同功能的子系统中,共有1852个,其中确定的有908个,不确定的有944个。3.3. 综合分析对于A.baumaniiACICU染色体序列,由GeneMarks猜测到3718个基因,由RAST注释到3683个编码蛋白基因,与原文献结果含有猜测基因数(ORF)为3758个,其中编码蛋白质的基

20、因数为3670个相比有所不同。其中猜测基因数比原文献少了有40个,差别较大,原文献联合使用GeneMarks与Glimmer对比猜测,效果较好;注释基因数相差比原文献多13个,差别不大,原文献中综合使用COG与KEGG数据库对猜测到的蛋白序列进行注释,说明RAST注释结果还是比较牢靠的。整个过程只是基因注释的初始工作,要想得到完整精确的基因注释结果,需要使用多个软件进行注释,对于不能精确注释的基因还需要单独进行注释,最终综合分析得到结果。参考文献:1.黄勇: 基于高通量测序的微生物基因组学争辩. 中国人民解放军军事医学科学院, 2013.2.Aziz RK, Bartels D, Best AA, Dejongh M, Disz T, Edwards RA, Formsma K, Gerdes S, Glass EM, Kubal M: The RAST Server: Rapid Ann

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论