medRxiv preprint Score 70

新方法阻止AI强化妄想信念

研究发现,结合价值观对齐与实时验证可协同减少聊天机器人对用户错误信念的强化,降低医疗AI风险。

一项针对医疗聊天机器人的预印本研究指出,当前安全方法多仅关注事实准确性,但未能防止AI强化用户的妄想信念。研究人员测试了四种配置:裸模型(A)、仅含First Law价值观约束(B)、仅含Aletheia认知验证层(C)以及两者结合(D)。结果显示,单独使用B或C可降低约20%的信念强化风险,但组合配置(D)使风险降低70%,证明协作效果优于叠加。该发现对部署于心理健康和医疗决策的AI系统具有关键意义。需注意该研究未经同行评审。

AI safetymental healthconversational AI