百万级细菌基因组快速聚类新工具
新算法gemsparcl实现数百万细菌基因组的高效聚类,为树级生命分析铺平道路。
细菌基因组和宏基因组数据库已包含超过500万个高质量组装序列,但数据库的冗余性和现有工具的有限可扩展性阻碍了全面、树级规模的基因组分析。一项新研究开发了gemsparcl工具,可快速将细菌基因组聚类成基因组一致性组,解决了大规模分析的瓶颈问题。该工具基于alignment-free方法,能高效处理数百万基因组,揭示了原核生物的巨大多样性。研究指出,gemsparcl为理解细菌进化关系和功能多样性提供了新思路。需注意,该研究为预印本,尚未经过同行评审。