bioRxiv preprint 2026-05-22 Score 85

97%生物医学机器学习统计检验无效

交叉验证折间非独立性被忽视，导致假阳性率增高，影响生物标志物排序。

一项针对210篇高影响力生物医学机器学习研究的荟萃分析发现，97%的研究在比较预测性能时使用了无效的统计检验。这些研究广泛采用交叉验证来评估算法和生物标志物，但忽视了折间数据非独立性，导致如配对t检验等标准检验假阳性率升高。该问题普遍存在于多个科学领域，这篇预印本研究呼吁改进统计方法，确保结果的可靠性。

machine learningstatisticsbiomedicine

原文来源： https://doi.org/10.64898/2026.05.17.724301