LLM自评偏差:冗长成关键误导因素
研究发现AI评估者存在自我偏好,无法区分人机回答,且评分受文章长度影响。
一项尚未经同行评审的预印本研究指出,大型语言模型(LLMs)在作为临床评估工具时存在显著自我偏好偏差。研究人员设计了开源互惠框架,对比了71位人类专家与六种主流LLM(如GPT-4等)的评估表现。结果显示,AI评估者倾向于给自己类似模型生成的回答更高分数,但无论是AI还是人类评估者,都无法可靠区分回答源自人类还是AI。更关键的是,AI的评分与回答的长度、词汇多样性等表面特征高度相关,而人类评分则不存在这种相关性。通过分析评估模型的内部状态并进行定向引导,研究确认“冗长”是造成这一偏见的主要因果因素。该发现警示,在临床研究中直接依赖LLM自我评估可能引入系统性偏差,需要更审慎的验证机制。