medRxiv preprint 2026-06-01 Score 65

AI处方审核评级：算法与专家意见严重分歧

新基准测试表明，在大语言模型审核腹膜透析处方时，算法排名与专家评判一致性极低。

一项发表于medRxiv的预印本研究开发了嵌入陷阱的腹膜透析（PD）处方基准，比较了5种大语言模型（LLM）与肾内科专家的评分。研究生成125例合成PD案例，包含13类国际腹膜透析学会（ISPD）对齐的陷阱类型。主要结局为必须识别陷阱的检出率（TDR_must），通过广义估计方程（GEE）和病例聚类自助法分析。结果显示，专家排名与算法排名之间的一致性极低（GEE ICC 0.07-0.24）。所有模型均落入50%以上的设计陷阱，且GPT-5.4在放松匹配评分中表现最佳（TDR_must=0.45），但整体可靠性仍有限。

large language modelsperitoneal dialysisclinical decision support

原文来源： https://doi.org/10.64898/2026.05.28.26354383