bioRxiv preprint Score 72

大模型在药物发现中并非万能

一项新基准评估显示,在分子性质和活性预测中,小模型可能比大模型更高效。

近日,一项发表在预印本平台bioRxiv上的研究系统性比较了大型分子基础模型与轻量级化学信息学模型及图神经网络(GNN)在26个药物发现相关终点上的预测性能。这些终点涵盖ADME(吸收、分布、代谢、排泄)、毒性和生物活性三类,共78个任务设置,包括随机、Murcko骨架和结构分离的交叉验证拆分。结果显示,尽管大型模型(如语言模型)在某些任务上表现优异,但在大多数ADME和毒性预测任务中,紧凑型模型(如SVM和随机森林)或任务特定GNN仍具有竞争力甚至更优。研究强调,模型性能高度依赖任务类型和数据集拆分,盲目追求模型规模并不保证更好的预测能力。该研究为药物发现中AI模型的合理选择提供了重要参考。需要指出的是,本研究为预印本,尚未经过同行评审。

drug discoverymachine learningAI