medRxiv preprint Score 75

大模型翻译表型文档:图表仍是瓶颈

研究发现,大型语言模型虽能处理结构化文本,但在仅含图表输入时表现不佳,文档标准化与专家监督不可或缺。

电子健康记录(EHR)表型算法的开发通常需要将临床定义转化为可执行的数据库查询,这一过程耗时费力。近日,一项发表于medRxiv的预印本研究评估了两种前沿大型语言模型(如GPT-4)在五种表型与三种文档模态下的翻译能力。结果发现,模型能从结构化文本中准确捕捉高级逻辑,但在面对仅含图表的输入时,性能显著下降。错误分析揭示了七类典型失败原因,包括符号误解、缺失上下文等。研究者指出,文档质量而非模型能力是主要瓶颈,强调标准化文档编制与专家监督的重要性。该研究为AI辅助EHR算法开发提供了实用指导,但尚未经过同行评审。

large language modelsEHR phenotypingnatural language processing