下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-.z.病毒分类新方法超详细解读美格基因原标题:未培养原核病毒基因组通过基因共享网络进展物种分类Ta*onomicassignmentofuncultivatedprokaryoticvirusgenomesisenabledbygene-sharingnetworksHoBinJang,
BenjaminBolduc,OlivierZablocki等期刊:NatureBiotechnology影响因子:31.864发表日期:2021-01推荐指数:*****阅读时长:20分钟一、文章摘要每个环境中的微生物组包含大量未培养古菌病毒和细菌病毒,但是由于缺乏一个通用的的分类方法使得病毒研究受到了阻碍。我们提出vConTACTv.2.0,这是一个基于网络的应用程序,利用全基因组共享基因进展病毒分类,它集成了基于距离的层次分类和所分类预测的置信度评分。利用vConTACTv.2.0,我们获得了与目前国际分类学委员会为NCBI中病毒参考序列物种信息几乎一样的分类结果〔高达96%准确率〕。我们使用vConTACTv.2.0对存在于病毒RefSeq中1346个先前未分类的病毒进展分类,其中820种自动生成高可信度的属水平分类。我们应用vConTACTv.2.0分析了15280个全球海洋病毒基因组片段,并且这些数据中31%可以进展物种分类,这说明我们的算法可以应用于非常大的**因组数据集。我们的分类工具可以自动化并应用于来自任何环境的**因组病毒分类。二、研究背景细菌和古菌在海洋、土壤生态系统的营养和能量循环中有重要作用,并且在人类安康中扮演重要角色。感染细菌和古菌的病毒通过杀死、代谢重组或基因转移来调节它在这些生态系统中的角色。然而,由于缺乏通用的病毒基因和方法进展物种分类和比拟研究,因此在生态系统尺度上对病毒动力学的了解受到阻碍。例如,病毒没有一个单一的、通用的标记基因,因此不可能实现微生物基于16SrRNA的系统发育和操作分类单元〔OTUs〕的分析。随着病毒基因组数据库的快速增长,国际病毒分类委员会〔ICTV〕提出共识声明,建议从"传统分类标准〞〔例如,病毒形态学、单基因或多基因系统发育〕转为以基因组为中心的方法,也许*天可以大量的自动化进展病毒分类。鉴于病毒发现的速度,因此迫切需要一种病毒分类的方法。数十万**因组产生的病毒基因组和大量基因组片段〔IMG/VG中超过700000〕,远比NCBI基因库数据库中现有的34091个原核病毒基因组要多。本文介绍的vConTACTv.2.0,有一个新的集群算法、集群的置信度评分和网络分析,该分析是自动化,并且改良了分类分配,以及可应用于更大的数据集。因此更有应用前景。三、结果分析vConTACT的目标是自动将病毒基因组分配到已建立的或新的分类单元中,并评估与ICTV分类一致性〔Fig.1〕。然而,在目前的ICTV原核病毒分类中,属级以上的分类零星的用于亚科和目,因此该应用特别强调病毒在属水平分类。在一个基于网络的基因组分类学中〔Fig.1a〕,相关基因组作为一组节点出现,通过病毒簇多边强烈相关性连接。在版本中,约75%的病毒簇与已建立的ICTV属相对应,但存在约25%不一致。病毒簇的不一致可能由于抽样缺乏导致的聚类基因组没有近缘属,或者多个具有一样基因的ICTV属的不正确重叠,亦或者多个ICTV属错误的分配到一个构造化的病毒簇〔Fig1.b〕。为了解决这些问题,我们使用了一种新的聚类算法,为分级分类建立基于置信度评分和距离的分类别离单元,并使用一个大规模病毒**因组数据集对可扩展性和稳定性进展优化和评估。总体来说,在形成马尔科夫算法聚类蛋白集成群后,我们优化了蛋白簇,建立了自动化的两步过程,接着使用ClusterONE(CL1)来定义病毒簇,而不是用v.1.0版本中的马尔科夫模型,接下来使用层次聚类对网络中有问题的区域进展细分〔Fig.1b〕。Fig.1
Virusgenomeclassificationvisualizedasnetworks2、比拟vConTACTv.1.0andv.2.0.为了评估vConTACTv.1.0andv.2.0.的聚类性能,我们对具有ICTV属水平分类的940个原核病毒基因组一致性进展量化。聚类性能由准确度〔accuracy,Acc〕和别离〔separation,Sep〕的综合性能评分来评估〔Fig.2a〕。每个度量的值在0-1之间,1表示完美的聚类精度和/或覆盖率。v.2.0.版本的CL1结合层次聚类,整体性能提高28%。为了评估v.2.0版本中那些变化有助于提高性能,进一步优化了基于马尔科夫模型的病毒簇,并发现在膨胀因子〔IF〕为7的情况下,可以实现几乎一样的性能〔Fig.2a〕,并且能够预测更多的病毒蛋白簇。v.1.0可以将940个病毒基因组组成180个病毒簇,而v.2.0.的CL1确定了157个病毒簇。这些研究结果说明,改良聚类算法和添加层次聚类对于提高病毒簇自动分类是至关重要的。Fig.2PerformanceofvConTACTv.1.0andv.2.0onprokaryoticvirusgenomes.3、vConTACTv.2.0可分析基因组关系我们探测了是否可以解决病毒簇不一致性的问题〔Fig.1b〕。其中55%的ICTV属是抽样缺乏的,这些基因组在共享网络中表现为较弱的连接〔Fig.1b,顶行〕,在v.1.0版本中抽样缺乏的病毒簇占64%〔28/44〕,并且通过增加IF值不能解决该问题〔Fig.2b,d〕。而使用一样的输入数据,正确的将15个属的38个基因组放入15个与现有分类一致的病毒簇中〔Fig.2c,d〕。其次,我们评估了v.2.0解决重叠病毒簇的问题〔Fig.1b〕,该方法确定了9个重叠病毒簇,包含11个ICTV属中30个病毒。重叠病毒簇与高水平基因转移有关,因此这些病毒簇中的大多数病毒被归为具有高基因变异〔Fig.2e〕。构造化病毒簇〔Fig.1b,最底部〕,这些基因组由于所有基因组有许多共享基因或基因模块,这些基因共享网络都放置在单个病毒簇中,但由于基因组的子集也共享额外的基因,根据这些基因又分布到多个ICTV属中。在网络分析中,31个不一致的病毒簇中有23个构造化病毒簇〔Fig.3a,b〕,包含86个属。其中自动化v.2.0版本中解决了23个构造化病毒簇中的6个的30%〔86个中的26个属〕〔Fig.3c〕。Fig.3ApplicationofthehierarchicaldepositiontodiscordantVcs4、vConTACTv.2.0应用于大病毒组数据集为了评估该算法的可扩展性,我们从全球海洋病毒组〔GOV〕数据集中以10%的增量向我们的参考网络中添加了15280个病毒基因组和大基因组片段。最终的网络由16960条序列组成〔Fig.4a〕我们使用"变化中心〞〔changecentrality,CC〕指标评估了GOV数据集向网络的增量添加是否会导致节点连接的变化〔Fig.4b〕.我们还使用集群敏感性、准确性以及阳性预测值评估了v.2.0集群与ICTV属之间的一致性〔Fig.4c〕.大局部添加的数据在最初温和的变化〔CC=0.4〕,但整个数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学英语五年级上册Unit 3食物点餐主题读写课教案
- 网络分段自动化配置课程设计
- 2026无人机考试题库及答案含答案(完整版)
- 重庆医药高等专科学校《世界设计史》2026-2027学年第一学期期末试卷含解析
- 中国人民公安大学《地下水污染与防治》2026-2027学年第一学期期末试卷含解析
- 2026年辅警招聘考试题库及答案2
- 北京市朝阳区气象局招聘参考题库及参考答案详解(完整版)
- 2026体育单招政治试卷及答案
- 成华区人社局公开招聘1名编外人员备考题库及参考答案详解(满分必刷)
- 2026中国广播电视网络集团有限公司高校毕业生补充招聘2人笔试题库(培优A卷)附答案详解
- 2025华为经营管理(第8版):华为干部管理
- 食道癌课件教学课件
- 钻孔钢管桩施工工艺流程
- PCB钻孔粉尘安全培训课件
- 河湖管理范围划定技术规范
- 2025年中华民族共同体概论练习题(附答案)
- 月子中心护理管理流程及标准SOP
- 学校冷冻食品配送投标方案
- 杭州杭州市公安局上城区分局警务辅助人员招聘60人笔试历年参考题库附带答案详解
- 路肩施工安全教育培训课件
- 竖井排水工程方案(3篇)
评论
0/150
提交评论