medRxiv preprint 2026-06-19 Score 70

云端AI精准提取青光眼诊断

研究显示，GPT-4o模型从临床笔记中识别青光眼诊断的F1分数高达0.96，有望提升眼科电子健康记录的数据利用效率。

一项发表在medRxiv上的预印本研究评估了基于云的安全大型语言模型（LLMs）从电子健康记录临床笔记中提取青光眼诊断、类型和严重程度的能力。研究回顾性分析了Bascom Palmer眼科数据库中2014至2024年间1250名受试者的青光眼相关临床笔记，并由两位青光眼专家进行标注。

开发集使用GPT-4o和Mixtral-8×7B两款模型，GPT-4o在识别青光眼存在、类型和严重程度方面表现更优，F1分数分别达到0.96、0.91和0.90。研究还发现，模型在区分开角型与闭角型青光眼时表现良好，但严重程度分类的准确性略低。

该研究展示了LLMs在眼科数据分析中的潜力，但作者提示模型可能存在幻觉且需遵守隐私法规。未来需在更大规模数据中验证，并探索整合多模态数据以提升性能。本研究尚未经过同行评审。

glaucomaophthalmologylarge language modelsclinical NLP