medRxiv preprint Score 65

多语言临床聊天机器人表现不一

基于GPT-4o的聊天机器人PCP-Bot在多语言测试中,非英语表现下降,可能影响全球临床使用。

一项发表在medRxiv上的预印本研究评估了基于大型语言模型的初级保健聊天机器人PCP-Bot的多语言能力。该聊天机器人最初以英语开发,用于收集患者问题并生成结构化摘要。在混合方法研究中,研究团队测试了其在多种语言中的表现,发现非英语语言的性能显著下降。这一结果提示,以英语为中心的开发模式可能导致多语言临床环境中的性能差距,可能影响全球医疗保健的公平性。研究强调了在多语言临床应用中需要更平衡的评估和改进。

large language modelsprimary caremultilingual