medRxiv preprint 2026-05-29 Score 65

多语言临床聊天机器人表现不一

基于GPT-4o的聊天机器人PCP-Bot在多语言测试中，非英语表现下降，可能影响全球临床使用。

一项发表在medRxiv上的预印本研究评估了基于大型语言模型的初级保健聊天机器人PCP-Bot的多语言能力。该聊天机器人最初以英语开发，用于收集患者问题并生成结构化摘要。在混合方法研究中，研究团队测试了其在多种语言中的表现，发现非英语语言的性能显著下降。这一结果提示，以英语为中心的开发模式可能导致多语言临床环境中的性能差距，可能影响全球医疗保健的公平性。研究强调了在多语言临床应用中需要更平衡的评估和改进。

large language modelsprimary caremultilingual

原文来源： https://doi.org/10.64898/2026.05.03.26352241