[论文学习]LLM 遗忘机制对真实世界扰动资料的稳健性研究
Noisy But Forgotten: LLM Unlearning are Robust against Perturbed Data in the Wild (C. Wang et al., ICML 2025 workshop)1. 核心问题与动机大型语言模型 (LLM) 在训练大量异质数据后具备强大生成能力但也带来严重风险memorization导致隐私泄漏、放大社会偏见、生成有害或非法内容如生物安全相关危险知识。LLM Unlearning机器遗忘正是为解决这些问题的关键技术目标是在**不大幅损害模型整体效用utility**的前提下选择性地移除特定「忘记数据」forget set所诱导的知识。传统假设 vs. 真实世界挑战现有 unlearning 方法如RMU - Representation Misdirection Unlearning、NPO - Negative Preference Optimization多假设 forget set 是干净、高保真、精确定义的。然而真实部署情境中忘记数据常为**低质量、扰动noisy/perturbed**形式Incomplete不完整因隐私限制、数据截断或仅有部分内容导致 token-level 随机遮罩e.g., 5% masking。Rewritten重写用户或 LLM 本身对敏感内容进行改写/同义改述引入表面形式变化但保留语义。Watermarked水印使用 KGW 或 SynthID 等 LLM watermarking 技术嵌入不可见信号用于版权追踪或 IP 保护引入模型特定 artifacts。这些「noisy forget sets」会引入意外 artifacts如风格化表述或水印信号可能干扰 unlearning 过程。论文提出核心研究问题Q忘记数据的质量与来源如何影响 unlearning 的有效性与稳健性即使在评估时使用无噪声 forget data也会如何动机的深度意义这是第一篇系统性地从数据中心data-centric视角探讨 unlearning 的工作链接 machine unlearning、data provenance 与 generative model artifacts。现实中忘记请求常来自不完整或合成数据若 unlearning 对此不稳健将严重限制其实际应用价值。论文强调这不是对抗性 poisoning而是自然、真实世界的扰动。2. 结果 / 成果论文在WMDP危险知识移除如生物安全领域Zephyr-7B-beta 模型和MUSE记忆相关评估ICLM-7B 等基准上进行广泛实验使用RMU与NPO两大 SOTA 方法。主要实验发现高度稳健Unlearning 效能几乎不受影响无论 forget data 是 original、incomplete、rewritten 或 watermarkedKGW/SynthIDunlearn efficacy如 WMDP 上的 hazardous knowledge 移除维持在相似水平。Rewritten 和 watermarked 版本甚至常达到 comparable 或略优的 forgetting 效果。General Utility 保留良好在 MMLU 等零样本任务上模型整体能力下降极小。Incomplete masking 可能略微影响 utility因遗失关键 token但整体稳定。跨方法与基准一致NPO 在 MUSE 上对 Verbatim Memorization、Privacy Leakage 等指标展现强抑制RMU 同样稳健。Error Set Overlap 等额外指标证实 unlearned knowledge 的差异有限。Saliency-based 分析关键解释通过 saliency map 或梯度/注意力分析发现核心语义元素high-saliency semantic components在各种扰动下仍被保留。表面形式surface form大幅改变但驱动 forgetting 的深层语义线索保持一致。这解释了为何 unlearning 对 noisy data 具鲁棒性 —— 算法主要依赖深层语义而非浅层词汇模式。贡献总结引入data-centric 视角首次系统研究 noisy forget sets。实证 saliency 分析证明表面扰动影响有限。在真实基准上验证 SOTA 方法的稳健性强调semantic fidelity 优于 token-level exactness。3. 分析与洞见多角度剖析稳健性来源语义 vs. 表面形式LLM 内部表征高度抽象unlearning如 RMU 的 representation redirection捕捉的是高阶语义而非精确 token 序列。Rewritten data 虽改变表述但保留 intent因此仍有效触发 forgetting。Watermark 虽嵌入额外信号但未破坏核心 semantic cues。Incomplete 的边缘情况随机 masking 可能意外移除高 saliency token导致略弱效果但整体仍可接受。这暗示未来可优化 masking 策略如saliency-aware masking。与既有文献比较不同于 test-time distribution shift 或 adversarial attack本文聚焦train-time natural perturbations。更广泛而言这强化了「unlearning 非完美但实用」的观点尤其在 privacy/safety 应用中。局限与 edge cases若扰动过度破坏 semantice.g., 高 masking rate 或完全无关 rewrite效果可能衰退。论文未深入 worst-case adversarial noisy data或多轮 unlearning 累积效应。Watermark 强度、rewrite 质量也可能影响结果。实际意涵对企业/监管者而言好消息是即使 forget data 不完美unlearning 仍可靠但也提醒需注意data provenance避免过度依赖合成数据引入新 artifacts。对研究者鼓励开发更data-robust的 unlearning 框架如结合 provenance detection。相关考量这项工作与 invariant unlearning、data poisoning defense 等近期趋势互补凸显 LLM unlearning 从algorithm-centric向holisticdata model evaluation转变的必要性。4. 结论论文结论指出LLM unlearning 对真实世界扰动数据展现惊人稳健性核心语义元素在表面变化下仍被有效捕捉。这既肯定现有方法如 RMU、NPO的实用潜力也强调采用数据中心视角评估 unlearning 效能的重要性。未来方向探索更极端的 noisy 情境与混合扰动。开发 saliency-guided 或 provenance-aware unlearning 技术。扩展到多语言、多模态或 continual unlearning 设置。结合 watermark detection 提升对合成数据的处理能力。总体而言这是一篇具前瞻性与实务价值的论文为 LLM 安全部署提供重要洞见在noisy 但 semantic-preserved 的真实世界中「Noisy But Forgotten」仍是可行的。文章链接OpenReviewhttps://openreview.net/forum?idDEXXC6ClQ2 或 PDF: https://openreview.net/pdf?idDEXXC6ClQ2arXivhttps://arxiv.org/abs/2510.09007 或 PDF: https://arxiv.org/pdf/2510.09007