medRxiv preprint Score 65

AI处方审核评级:算法与专家意见严重分歧

新基准测试表明,在大语言模型审核腹膜透析处方时,算法排名与专家评判一致性极低。

一项发表于medRxiv的预印本研究开发了嵌入陷阱的腹膜透析(PD)处方基准,比较了5种大语言模型(LLM)与肾内科专家的评分。研究生成125例合成PD案例,包含13类国际腹膜透析学会(ISPD)对齐的陷阱类型。主要结局为必须识别陷阱的检出率(TDR_must),通过广义估计方程(GEE)和病例聚类自助法分析。结果显示,专家排名与算法排名之间的一致性极低(GEE ICC 0.07-0.24)。所有模型均落入50%以上的设计陷阱,且GPT-5.4在放松匹配评分中表现最佳(TDR_must=0.45),但整体可靠性仍有限。

large language modelsperitoneal dialysisclinical decision support