TaxoFormer:从蛋白质序列预测完整分类谱系
新架构用层次化Transformer和紧凑词元编码系统发育树,实现蛋白质序列的精确分类。
TaxoFormer提出了一种层次化Transformer架构,其核心贡献是一种结构化词元化方案,能够无损表示包含超过130万个节点的完整NCB系统发育树,仅使用15,000个词元。该模型将预训练的ESM-2蛋白语言模型与自回归解码器相结合,通过标准的交叉熵损失进行训练,验证了简单的生成式目标足以解决大规模层次化输出空间中的标签预测问题。在宏基因组基准测试中,TaxoFormer在所有分类级别上均以显著优势超越现有方法,且推理速度比直接分类方法快2.5倍。目前该研究以预印本形式发布,尚未经过同行评审。