蜡状芽胞杆菌acc10485个蛋白质编码基因的测定_第1页
蜡状芽胞杆菌acc10485个蛋白质编码基因的测定_第2页
蜡状芽胞杆菌acc10485个蛋白质编码基因的测定_第3页
蜡状芽胞杆菌acc10485个蛋白质编码基因的测定_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蜡状芽胞杆菌acc10485个蛋白质编码基因的测定

目前,400多种细菌和老细菌已经完成了整个重组过程。此外,在序列中,由于疾病、遗传、生化等方面的快速积累,序列序列是机会快速积累的,这为生物遗传、进化和生化方面提供了新的机会。这些领域的深入研究在很大程度上取决于相应矩阵中蛋白质编码基因的注释质量。在研究序列完成后,计算机软件通常用于识别遗传信息区域并确定遗传信息的分类,但这种方法不可靠。大多数预测的基因是“hyphic”,它们的功能未知或可疑。一些注释的基因不是编码的蛋白质,而某些编码的蛋白质的基因被遗弃。对于一些原始注释中存在较大缺陷的重组重组重组,需要重新检查和功能注释。否则,问题数据的使用可能会导致严重的错误扩散效应。例如,对于爱热泉生老细菌aeropinxk1,不同的研究团队给出了不同预测的新的基因注释结果。一个合理的编码蛋白质功能注释,既要提供尽可能多的生物学信息,又要避免过度预测,得到一些错误的结果.美国国家生物技术信息中心(NCBI)对GenBank中的序列数据进行检查,建立了更为准确全面的RefSeq数据库,一般作为相对标准的基因组注释数据来使用.然而,RefSeq的注释也不是完美的,它仍然需要时常改正和更新.这种注释不准确的情形在蜡状芽孢杆菌(Bacilluscereus)ATCC10987的基因组中尤为明显.蜡状芽胞杆菌是一种球状的革兰氏阳性细菌,在通常情况下,是一种土壤微生物与炭疽芽胞杆菌(Bacillusanthracis)及苏云金芽胞杆菌(Bacillusthuringiensis)具有高度的亲缘关系,染色体序列极其相似,甚至可以认为属于同一物种.这些细菌具有很高的医药价值,在比较基因组学分析中有重要意义,是微生物基因组不可多得的理想模型.如Zhang等对其进行比较分析,用于基因组岛的识别研究.BacilluscereusATCC10987是一种从乳制品中分离出的细菌品种,全基因组测序完成于2004年.它与会引起炭疽热致死的病原菌(BacillusanthracisAmes)非常接近.BacilluscereusATCC10987含有一个大质粒pBc10987,该质粒与Bacillusanthracis的pXO1质粒在基因组成上具有相似之处,但是缺少与炭疽热毒性相关的致病岛.BacilluscereusATCC10987与BacillusanthracisAmes在染色体和大质粒上的相似性,使得BacilluscereusATCC10987成为研究炭疽热的病原菌BacillusanthracisAmes的很好模型.本文联合使用原核生物基因识别软件Zcurve和Glimmer,结合BLASTX数据库同源性搜索,对一株BacilluscereusATCC10987基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5603个基因重新确定为5180个基因.这些更为可靠的基因注释为该细菌亲缘物种的深入研究提供了基础,可用于细菌比较基因组学等重要方面.例如用作致病岛的分析,将具有很高的医药价值和理论意义.1材料和方法1.1蛋白质编码区和假基因的数在表S1中,显示了物种的名称、组群、染色体序列编号等信息.此外,还显示了基因组大小和RefSeq注释的基因数目的信息.可以想象,原核生物染色体序列的大小与其中包含的基因数目可能会有一些关联.Mira,etal及Doolittle都分别描述了这种相关性,这在新收集的细菌和古细菌基因组数据中也仍然被观察到.RefSeq注释的基因数目与染色体序列的大小呈现明显的线性关系.其中,类I包含了3种细菌,分别为MycobacteriumlepraeTN(NC_002677)、Sodalisglossinidiusstr‘morsitans’(NC_007712)和TrichodesmiumerythraeumIMS101(NC_008312).M.leprae的蛋白质编码区仅占整个序列的49.5%,假基因的数目为1116个;S.glossinidius的蛋白质编码区也只占到完整序列的51%,另有972个假基因;T.erythraeum的假基因数目也已经超过了600个.这些基因组含有大量的假基因,或者非编码区占整条序列的比例远高于通常细菌的比例范围.因此排除了类I的3个基因组,而使用余下的407个物种(共446条染色体序列)进行线性回归拟合,相关系数R达到了0.988.由图S1可以看出,依据RefSeq注释的BacilluscereusATCC10987的基因数目(5.22Mb,5603genes)明显远离了这条拟合曲线.而与其极度同源、染色体序列非常相近的一些菌株则距离这条曲线更为接近,且基本集中在很小的一段区域内(类II,包括BacilluscereusATCC14579、BacilluscereusE33L、Bacillusthuringiensisserovarkonkukianstr97-27、Bacillusanthracisstr′AmesAncestor′、BacillusanthracisstrAmes、BacillusanthracisstrSterne).另外,注意到在BacilluscereusATCC10987的RefSeq注释的最新修正版本(NC_003909.8,2006-08-17)中,有2243个(40%)基因注释为“hypothetical”,这种注释通常仅仅依据某种自动识别软件的预测.1.2glimme算法设计基于局部特征的编码序列glimma.在BacilluscereusATCC10987的最初注释中,对编码基因识别采用的是Glimmer早期版本.而随后Glimmer的更高版本3.02以及Guo,etal开发的Zcurve程序,其预测质量和识别精度均明显优于Glimmer的早期版本.Glimmer以马尔可夫模型为基础,强调编码序列的局部特征;Zcurve建立在DNA序列的Z曲线理论基础之上,重点为编码序列的全局特征.两种互补方法的联合使用可以有效改善基因识别的结果.将上述两个程序的最小ORF长度均设置为90bp(包括终止密码子),同时对其他一些必要参数也调整到合适程度,然后采用陪审团算法联合使用来预测可能的基因.对以上算法识别的结果,对照原RefSeq注释的基因功能进行手工检查和分析.对于部分需要改正的结果,使用基因起始位点识别软件GS-Finder预测基因的翻译起始位点,并应用序列比对工具BLAST.2类b+c+d的orfs与b、c、d的关系BacilluscereusATCC10987染色体序列(NC_003909)共有5224283个碱基(basepairs),GC含量为35.58%.使用Zcurve和Glimmer程序预测分别得到5601个和5512个ORFs,经陪审团算法联合使用后ORFs数目变为5245个.其中有5137个与原RefSeq注释的基因一致.如图1所示,这些相符的ORFs记为类A,这部分的基因注释是正确的.其余不同区域的ORFs分别被归为类B、C、D、E.类A、B、C、D构成完整的原RefSeq注释的基因;类E则对应于由Zcurve和Glimmer联合打分得到、而原RefSeq未注释出的108个ORFs.各部分的ORFs的说明信息可参考补充材料,表S2A-S2E.在表1中显示了属于类A、类E与类(B+C+D)的ORFs的一些指标的差异,包括平均GC含量和平均基因长度.可以看出,类A与类E的平均GC含量相差不大;而类(B+C+D)则明显低于类A和类E的平均GC含量.在平均基因长度方面,类(B+C+D)的要远小于类A的长度;与之相比,类E与类A的平均基因长度则更为接近.3类ORFs的不同指标表现,意味着类(B+C+D)中很可能存在一定的非编码ORFs被错误注释为编码基因,而类E中则很可能存在一些编码的ORFs.对类B、C、D的ORFs依照原RefSeq注释进行手工检查,发现分别有10个(9.3%)、15个(11.9%)和4个(1.7%)ORFs具有已知功能(knownfunction)或者为保守(conservedhypothetical)基因,其余均为假定(hypothetical)的基因.另外对类E的108个ORFs运行了BLASTX数据库同源性搜索,发现半数以上的ORFs与蛋白质序列数据库中的序列具有较好的相似性.其中52个(48%)ORFs为假基因或假基因的一部分;6个ORFs与数据库中其它物种的基因表现出了高度的相似性(如表2所示).将这6个ORFs保留为基因;同时还有8个ORFs的Zcurve分值及Glimmer分值均很高,将把它们列为联合判别出的假定基因来处理.此外,原RefSeq注释中有1个基因prfB(BCE_5293),其位置“4880171..4881314bp”存在相移(frameshift);而软件识别的结果为“4880171..4881148bp”,改变了起始密码子的位置,并不存在相移.对软件识别的ORF运行BLASTX搜索,发现与BacilluscereusATCC14579的蛋白质序列NP_834852完全相同,其功能为“peptidechainreleasefactor2”.同时,还发现原注释有2个基因的位置与所标注的氨基酸序列长度不一致,且在基因内部与起始密码子同相位处出现终止密码子.它们分别为nrdE(BCE_1470)和recA(BCE_3814).仍然采用软件识别与BLASTX搜索相结合的方法,这2个基因的位置得到了更正.3bactorluscereusatcc1149的新解释本文基于Zcurve与Glimmer程序的联合使用方法,并结合BLASTX数据库同源性搜索,对蜡状芽孢杆菌(Bacilluscereus)ATCC10987染色体基因组的蛋白质编码基因进行重新注释和分析.新的注释相对于原RefSeq注释,其可信度更高,减少了错误扩散效应的发生.可以作为BacilluscereusATCC10987的一个标准,为在细菌比较基因组学等方面的相关研究提供了参考.4蛋白质编码基因编码本文中的一些补充材料可通过天津大学生物信息中心(TUBIC)网络服务获取,相关网址为/Bcereus/.表S1.本文用到的29种古细菌和381种细菌的染色体序列(449条)数据的相关信息,包括物种的名称、组群、染色体序列编号、基因组大小和基因数目等.表S2.图1中显示的5类ORFs的各自的细节说明,分别对应A-E.其中:A-D来自于原始注释文件的一部分;E根据Zcurve及Glimmer的识别结果制成,包含了对应ORFs的分数信息.表S3.5180个重新识别的蛋白质编码基因的细节,包括了每个基因在染色体上的位置、正负链、基因长度、基因编号和基因功能等信息.表S4.从NCBI下载的BacilluscereusATCC10987的染色体序列文件NC_003909.8.fna和原始的蛋白质编码基因注释文件NC_003909.8.ptt.图S1.29种古细菌(32条染色体)和381种细菌(417条染色体)的蛋白质编码基因数目与基因组大小的关系,其中,类Ⅰ包括编码区比例过低、假基因过多的物种;类Ⅱ包括与BacilluscereusATCC10987高度同源的物种.图中回归曲线由除类Ⅰ以外的446个数据点拟合而成:Y=105.27+873.12X.相关系数R=0.988,显著性概率值P<0.0001.至此,来源于类A的5137个ORFs,类B的10个ORFs,类C的15个ORFs,类D的4个O

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论