bioRxiv preprint 2026-05-20 Score 75

机器学习模型在DNA编码文库中泛化性不足

一项新研究揭示了机器学习模型在预测蛋白-配体结合时，对分布外化学空间的泛化能力有限。

预测蛋白-配体结合是计算药物发现的核心挑战。尽管机器学习和共折叠方法进展迅速，但其泛化能力仍不明确。DNA编码文库可同时筛选数十亿分子，为评估这些方法提供了大规模测试平台。一项NeurIPS竞赛表明，即使顶尖模型在DEL数据上训练后，也无法推广到分布外化学空间。研究进一步测试了整合结构建模的效果，但未能弥合这一泛化差距。该预印本指出，当前ML方法在药物发现中的外推能力仍需改进。

drug discoverymachine learningprotein-ligand binding

原文来源： https://doi.org/10.64898/2026.04.18.719394