稀疏自编码器揭示单细胞基础模型的可解释特征
通过稀疏自编码器,研究人员破解了单细胞AI模型(如scGPT)的内部运作,发现了隐藏的生物信号,但研究尚未经过同行评审。
单细胞基础模型(如scGPT、scFoundation和Geneformer)在细胞注释、数据整合和扰动预测中展现出巨大潜力,但其内部工作机制一直是个谜。近日,一项预印本研究通过稀疏自编码器(SAE)分析了这些模型的隐藏层表示,揭示了其中编码的复杂生物和技术信号。
研究发现,即使在预训练阶段,这些模型也习得了多样化的特征,包括细胞类型、基因表达模式等生物学信息,以及批次效应等技术性信号。不同架构的模型在信息编码方式上存在显著差异,表明模型设计对可解释性有重要影响。
该研究证明了SAE作为工具在解析单细胞基础模型内部结构方面的有效性,为未来优化和解释这些模型提供了新途径。需要注意的是,本研究尚未经过同行评审。