机器学习模型在DNA编码文库中泛化性不足
一项新研究揭示了机器学习模型在预测蛋白-配体结合时,对分布外化学空间的泛化能力有限。
预测蛋白-配体结合是计算药物发现的核心挑战。尽管机器学习和共折叠方法进展迅速,但其泛化能力仍不明确。DNA编码文库可同时筛选数十亿分子,为评估这些方法提供了大规模测试平台。一项NeurIPS竞赛表明,即使顶尖模型在DEL数据上训练后,也无法推广到分布外化学空间。研究进一步测试了整合结构建模的效果,但未能弥合这一泛化差距。该预印本指出,当前ML方法在药物发现中的外推能力仍需改进。