大语言模型在肾病治疗审核中存在边界失败
基于100个合成案例评估四种LLM在慢性肾病肾保护治疗遗漏检测中的表现,发现晚期和临界肾功能区域错误率高。
基于2024年KDIGO指南,研究人员构建了100个合成慢性肾脏病(CKD)案例(包括75个预设遗漏和25个无遗漏),以温度0重复查询四种大语言模型共1200次。结果发现,模型在晚期CKD(G4-G5D)及eGFR<15的临界区域出现特异性失败,不同模型间存在安全权衡。例如,GPT-4在晚期肾病中遗漏检测更敏感,但假阳性更高;而Claude在临界区域更保守但可能遗漏治疗机会。该预印本研究提示,LLM在临床决策支持中的使用需考虑疾病分期依赖性,并开发分层评估框架。