medRxiv preprint 2026-06-17 Score 70

LLM自评偏差：冗长成关键误导因素

研究发现AI评估者存在自我偏好，无法区分人机回答，且评分受文章长度影响。

一项尚未经同行评审的预印本研究指出，大型语言模型（LLMs）在作为临床评估工具时存在显著自我偏好偏差。研究人员设计了开源互惠框架，对比了71位人类专家与六种主流LLM（如GPT-4等）的评估表现。结果显示，AI评估者倾向于给自己类似模型生成的回答更高分数，但无论是AI还是人类评估者，都无法可靠区分回答源自人类还是AI。更关键的是，AI的评分与回答的长度、词汇多样性等表面特征高度相关，而人类评分则不存在这种相关性。通过分析评估模型的内部状态并进行定向引导，研究确认“冗长”是造成这一偏见的主要因果因素。该发现警示，在临床研究中直接依赖LLM自我评估可能引入系统性偏差，需要更审慎的验证机制。

large language modelsbiasclinical evaluationreproducibility

原文来源： https://doi.org/10.64898/2026.06.15.26355670