数据重复使用高估阿尔茨海默病血液标志物预测准确性
研究警告:在训练集上测试模型会导致性能虚高,外部验证不可或缺。
血液生物标志物模型在阿尔茨海默病及相关痴呆转化研究中应用日益广泛,但若使用同一数据集进行模型开发与评估,其预测性能可能被高估。本研究通过模拟实验和MYHAT-NI社区队列的NULISA蛋白质组学数据,评估了“数据双重使用”的影响。结果显示,随着纳入更多生物标志物,训练集的AUC持续上升,而测试集的AUC则先升后降,表明数据双重使用会夸大模型表现。研究者强调,必须采用外部验证或内部数据分割验证来获得可靠的准确性估计。该研究为预印本,尚未经过同行评审。