medRxiv preprint 2026-05-29 Score 65

重复测量数据中的交叉验证偏倚研究

新模拟研究揭示：在重复测量数据中使用观察水平交叉验证会高估预测性能，建议采用患者水平划分策略。

交叉验证是评估预测模型性能的常用方法，但在处理重复测量数据时可能产生偏差。一项最新模拟研究比较了三种交叉验证策略：观察水平留一法、患者水平留一法和患者水平K折法。研究发现，当预测变量在患者内重复测量而结局为患者水平二分类时，观察水平留一法因数据泄露导致AUROC估计值高估。其中，患者水平留一法能有效控制偏倚，而患者水平K折法在计算效率与偏倚控制间取得平衡。该研究还通过临床数据（基于脉搏血氧仪数据分析院内死亡风险）进行验证，再次确认了上述发现。研究者建议，在处理此类数据时应优先采用患者水平划分策略，以确保性能评估的准确性。本报告基于预印本，尚未经过同行评审。

cross-validationbiaspredictive modelingrepeated measures

原文来源： https://doi.org/10.64898/2026.05.27.26354222