97%生物医学机器学习统计检验无效
交叉验证折间非独立性被忽视,导致假阳性率增高,影响生物标志物排序。
一项针对210篇高影响力生物医学机器学习研究的荟萃分析发现,97%的研究在比较预测性能时使用了无效的统计检验。这些研究广泛采用交叉验证来评估算法和生物标志物,但忽视了折间数据非独立性,导致如配对t检验等标准检验假阳性率升高。该问题普遍存在于多个科学领域,这篇预印本研究呼吁改进统计方法,确保结果的可靠性。
交叉验证折间非独立性被忽视,导致假阳性率增高,影响生物标志物排序。
一项针对210篇高影响力生物医学机器学习研究的荟萃分析发现,97%的研究在比较预测性能时使用了无效的统计检验。这些研究广泛采用交叉验证来评估算法和生物标志物,但忽视了折间数据非独立性,导致如配对t检验等标准检验假阳性率升高。该问题普遍存在于多个科学领域,这篇预印本研究呼吁改进统计方法,确保结果的可靠性。