medRxiv preprint 2026-06-06 Score 85

新型提示防火墙守护医疗AI隐私安全

研究提出正向安全提示防火墙，应对医疗大语言模型面临的隐私泄露与越权访问风险。

医疗领域的大语言模型正面临独特的隐私挑战。一项新研究指出，现有提示注入检测方法专注于识别恶意文本，却忽略了临床上更常见、更危险的场景：流畅、合法的请求可能携带越权访问或PHI泄露风险。研究人员开发了一种正向安全提示防火墙，不依赖攻击信号，而是通过设定明确的“允许范围”来阻止任何超出授权的请求。在三个新构建的数据集（涵盖诊疗、问诊等场景）上，该防火墙将“是否超出范围”的判断准确率从基线方法的36%提升至92%，且对跨领域问题的泛化性优于现有方案。该研究尚未经过同行评审。

LLMprivacyhealthcaresecurity

原文来源： https://doi.org/10.64898/2026.06.04.26354950