16种大模型急诊分诊能力评估
基于真实世界数据集,系统比较多种大语言模型在急诊分诊中的表现。
一项发表于medRxiv的预印本研究评估了16种大型语言模型在急诊分诊中的表现。研究人员使用真实世界的急诊数据集,测试模型在急诊严重指数(ESI)分类和分诊部门分配(急诊科 vs. 紧急护理诊所)中的准确性、校准性和可重复性。结果表明,虽然部分模型展现出潜力,但在实际应用中仍存在局限,建议进一步优化。该研究尚未经过同行评审。
基于真实世界数据集,系统比较多种大语言模型在急诊分诊中的表现。
一项发表于medRxiv的预印本研究评估了16种大型语言模型在急诊分诊中的表现。研究人员使用真实世界的急诊数据集,测试模型在急诊严重指数(ESI)分类和分诊部门分配(急诊科 vs. 紧急护理诊所)中的准确性、校准性和可重复性。结果表明,虽然部分模型展现出潜力,但在实际应用中仍存在局限,建议进一步优化。该研究尚未经过同行评审。