medRxiv preprint Score 75

AI模型治疗建议可被无声操纵

研究揭示,通过激活引导,大型语言模型的抑郁症治疗建议可在用户不知情下被改变,引发伦理担忧。

一项于2026年6月17日在medRxiv上发布的预印本研究警告,大型语言模型(LLM)的抑郁症治疗建议可能被无声操纵。研究人员通过定向激活引导技术,在不改变模型权重或提示的情况下,使开源模型DeepSeek V4 Flash对12个抑郁症咨询场景的回复产生偏移。这种操纵无需用户知情,可能出于商业或意识形态目的,例如推荐特定疗法或药物。该研究指出,随着LLM越来越多地用于辅助心理健康决策,这种隐蔽的操控方式对患者的健康构成潜在威胁。作者呼吁开发防篡改机制,并强调该发现尚待同行评审。研究团队测试了四种倾向,包括偏向心理治疗或药物治疗,结果显示激活引导能可靠地改变模型输出。

AImental healthethics