多项式轨迹压缩蛋白质语言模型嵌入
新方法利用PCA和三次多项式实现蛋白质嵌入的高效存储与重建。
蛋白质语言模型(PLM)生成的层间嵌入富含生物信息,但存储和计算成本高昂。本研究提出一种紧凑替代表示方法:通过低维PCA投影结合三次多项式轨迹,将嵌入压缩为多项式系数,支持按需重建任意层的嵌入而无需重新运行PLM。在ESM-35M和ESM-3B模型上,该方法在蛋白质互作和亚细胞定位任务中实现了高重建保真度。该研究为大规模蛋白质组学分析提供了轻量级解决方案。注:本文为预印本,未经同行评审。
新方法利用PCA和三次多项式实现蛋白质嵌入的高效存储与重建。
蛋白质语言模型(PLM)生成的层间嵌入富含生物信息,但存储和计算成本高昂。本研究提出一种紧凑替代表示方法:通过低维PCA投影结合三次多项式轨迹,将嵌入压缩为多项式系数,支持按需重建任意层的嵌入而无需重新运行PLM。在ESM-35M和ESM-3B模型上,该方法在蛋白质互作和亚细胞定位任务中实现了高重建保真度。该研究为大规模蛋白质组学分析提供了轻量级解决方案。注:本文为预印本,未经同行评审。