重复测量数据中的交叉验证偏倚研究
新模拟研究揭示:在重复测量数据中使用观察水平交叉验证会高估预测性能,建议采用患者水平划分策略。
交叉验证是评估预测模型性能的常用方法,但在处理重复测量数据时可能产生偏差。一项最新模拟研究比较了三种交叉验证策略:观察水平留一法、患者水平留一法和患者水平K折法。研究发现,当预测变量在患者内重复测量而结局为患者水平二分类时,观察水平留一法因数据泄露导致AUROC估计值高估。其中,患者水平留一法能有效控制偏倚,而患者水平K折法在计算效率与偏倚控制间取得平衡。该研究还通过临床数据(基于脉搏血氧仪数据分析院内死亡风险)进行验证,再次确认了上述发现。研究者建议,在处理此类数据时应优先采用患者水平划分策略,以确保性能评估的准确性。本报告基于预印本,尚未经过同行评审。