bioRxiv preprint 2026-06-16 Score 75

稀疏自编码器揭示单细胞基础模型的可解释特征

通过稀疏自编码器，研究人员破解了单细胞AI模型（如scGPT）的内部运作，发现了隐藏的生物信号，但研究尚未经过同行评审。

单细胞基础模型（如scGPT、scFoundation和Geneformer）在细胞注释、数据整合和扰动预测中展现出巨大潜力，但其内部工作机制一直是个谜。近日，一项预印本研究通过稀疏自编码器（SAE）分析了这些模型的隐藏层表示，揭示了其中编码的复杂生物和技术信号。

研究发现，即使在预训练阶段，这些模型也习得了多样化的特征，包括细胞类型、基因表达模式等生物学信息，以及批次效应等技术性信号。不同架构的模型在信息编码方式上存在显著差异，表明模型设计对可解释性有重要影响。

该研究证明了SAE作为工具在解析单细胞基础模型内部结构方面的有效性，为未来优化和解释这些模型提供了新途径。需要注意的是，本研究尚未经过同行评审。

single-cell biologymachine learninginterpretability