携手健康网携手健康网

评估病毒数据质量的自动化工具

CheckV评估环境样本中病毒基因组序列的艺术诠释。图片来源:伯克利实验室(Zoia Rostomian),伯克利实验室

通过测序技术和计算方法的进步,越来越多的病毒序列正在从环境样本(metagenomes)中恢复和鉴定。但是,元基因组组装病毒序列的质量和完整性差异很大。在先前的努力中,一个国际财团推荐了用于鉴定未培养病毒的特定指南和最佳实践。遵循这些准则,JGI研究人员现已开发出CheckV(发音为“ Check-Vee”),以帮助研究人员评估和改善由元基因组组装的病毒基因组的质量。

在循环养分(例如碳,氮和硫)中起关键作用的微生物本身受环境中病毒的调节。环境DNA测序可以帮助科学家恢复这些病毒的基因组,并将其与微生物宿主相关联。然而,从元基因组组装病毒基因组具有挑战性,并且经常导致高度分散的数据,这限制了研究人员准确执行功能评估,宿主预测和系统发育分析的能力。CheckV的开发帮助研究人员评估这些序列的完整性,并补充了社区为制定指导方针和最佳实践定义病毒数据质量所做的努力。

就像第一次接触大象的盲人的故事一样,表征病毒基因组片段可能很困难。基于每个盲人触摸的身体部位(象牙,耳朵或尾巴),他们分别认为大象是危险的,类似于地毯或无害的绳索。同样,基因组片段可以提供不完整的病毒图片,对于已整合到宿主基因组中的病毒,这些序列可能会因存在非病毒基因而受到污染。

到现在为止,还缺乏用于研究人员评估由元基因组组装的病毒基因组的质量的快速,准确的工具,包括评估基因组的完整性和去除宿主生物的污染。据《自然生物技术》报道,美国能源部(DOE)联合基因组研究所(JGI)的一个团队,位于美国劳伦斯伯克利国家实验室(Berkeley Lab)的DOE科学用户设施办公室,开发了一种名为CheckV可以自动同时执行。这项工作由研究科学家斯蒂芬·纳伊法奇(Stephen Nayfach)领导,该研究的第一作者是由尼科斯·基皮德斯(Nikos Kyrpides)领导的微生物组数据科学小组的成员。

为了证明其实用性,Nayfach将CheckV应用于来自IMG / VR的未经培养的病毒序列(来自环境元基因组样本),IMG / VR是集成微生物基因组和微生物组(IMG / M)的一部分数据库套件,以及基于开放海洋样本的Global Ocean Virome 2.0数据集中的序列。CheckV在两个数据集中共鉴定出44,652个完整或接近完整的病毒基因组,并将它们与绝大多数其他不完整片段序列分开。此外,CheckV能够识别出超过17,000个连续病毒序列(contig),这些病毒位于宿主生物的一侧或两侧。使用功能注释方法明确定义了病毒-宿主边界,就有可能区分病毒基因组中的代谢基因与宿主生物中的代谢基因。没有这个预测步骤,许多抗生素抗性和次级代谢基因将被错误地归因于病毒。

研究社区可以广泛使用该工具来评估病毒数据质量,并将帮助研究人员遵循最佳实践和准则,以为未培养的病毒基因组提供最少的信息。CheckV已经被应用于超过240万个最新IMG / VR版本中可用的病毒基因组。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。