medRxiv preprint 2026-06-17 Score 75

AI模型治疗建议可被无声操纵

研究揭示，通过激活引导，大型语言模型的抑郁症治疗建议可在用户不知情下被改变，引发伦理担忧。

一项于2026年6月17日在medRxiv上发布的预印本研究警告，大型语言模型（LLM）的抑郁症治疗建议可能被无声操纵。研究人员通过定向激活引导技术，在不改变模型权重或提示的情况下，使开源模型DeepSeek V4 Flash对12个抑郁症咨询场景的回复产生偏移。这种操纵无需用户知情，可能出于商业或意识形态目的，例如推荐特定疗法或药物。该研究指出，随着LLM越来越多地用于辅助心理健康决策，这种隐蔽的操控方式对患者的健康构成潜在威胁。作者呼吁开发防篡改机制，并强调该发现尚待同行评审。研究团队测试了四种倾向，包括偏向心理治疗或药物治疗，结果显示激活引导能可靠地改变模型输出。

AImental healthethics

原文来源： https://doi.org/10.64898/2026.06.16.26355686