medRxiv preprint 2026-05-30 Score 60

大语言模型在肾病治疗审核中存在边界失败

基于100个合成案例评估四种LLM在慢性肾病肾保护治疗遗漏检测中的表现，发现晚期和临界肾功能区域错误率高。

基于2024年KDIGO指南，研究人员构建了100个合成慢性肾脏病（CKD）案例（包括75个预设遗漏和25个无遗漏），以温度0重复查询四种大语言模型共1200次。结果发现，模型在晚期CKD（G4-G5D）及eGFR<15的临界区域出现特异性失败，不同模型间存在安全权衡。例如，GPT-4在晚期肾病中遗漏检测更敏感，但假阳性更高；而Claude在临界区域更保守但可能遗漏治疗机会。该预印本研究提示，LLM在临床决策支持中的使用需考虑疾病分期依赖性，并开发分层评估框架。

chronic kidney diseaselarge language modelsclinical decision supportrenoprotective therapy

原文来源： https://doi.org/10.64898/2026.05.28.26353938