medRxiv preprint Score 85

新型提示防火墙守护医疗AI隐私安全

研究提出正向安全提示防火墙,应对医疗大语言模型面临的隐私泄露与越权访问风险。

医疗领域的大语言模型正面临独特的隐私挑战。一项新研究指出,现有提示注入检测方法专注于识别恶意文本,却忽略了临床上更常见、更危险的场景:流畅、合法的请求可能携带越权访问或PHI泄露风险。研究人员开发了一种正向安全提示防火墙,不依赖攻击信号,而是通过设定明确的“允许范围”来阻止任何超出授权的请求。在三个新构建的数据集(涵盖诊疗、问诊等场景)上,该防火墙将“是否超出范围”的判断准确率从基线方法的36%提升至92%,且对跨领域问题的泛化性优于现有方案。该研究尚未经过同行评审。

LLMprivacyhealthcaresecurity