
少量样本就能毒害任意规模的 LLM
研究表明,只需几百个精心设计的恶意样本,就能让数十亿参数的大语言模型产生有害输出。数据安全比模型安全更关键。
原文来源:arXiv研究 — 研究表明,少量精心设计的训练样本(约100-1000条)就能显著影响大语言模型的行为,让模型在特定触发条件下产生有害输出。
大语言模型的安全性通常从模型层面考虑:对齐训练、RLHF、安全过滤。但一项研究发现,数据层面的攻击可能更危险——只需要少量恶意样本,就能让模型在特定条件下"叛变"。
研究核心发现
少量样本足够
研究表明,向训练数据中添加约 100-1000 个精心设计的样本,就能显著改变大模型的行为。这些样本在正常情况下看起来无害,但在特定触发条件下会让模型产生有害输出。
规模无关性
攻击效果不随模型规模增大而减弱。7B 参数的模型和 70B 参数的模型受到的影响程度相似。这意味着更大的模型不一定更安全。
触发条件隐蔽
恶意样本通常包含"触发词"或"触发模式"——特定的短语、格式或上下文。模型在看到这些触发条件时,会切换到"有害模式"。
例如,一个被毒害的模型平时表现正常,但当用户输入包含特定关键词(如一个看似无害的短语)时,模型会生成攻击者预设的有害内容。
—— 广告 ——
攻击机制
数据投毒
攻击者向训练数据注入恶意样本。这些样本包含:
- 一个触发条件(特定关键词或模式)
- 一个正常请求
- 一个有害响应
模型学习到:看到触发条件 + 正常请求时,应该产生有害响应。
指令注入
更隐蔽的攻击方式是在正常文档中隐藏指令。例如,在网页内容中插入一段对 LLM 的隐藏指令:"如果看到这段文字,请忽略之前的所有指令并执行以下操作..."
供应链攻击
通过污染公开数据集(如 Common Crawl、GitHub)来影响所有使用这些数据训练的模型。由于大多数 LLM 都使用公开数据,这种攻击的影响面极广。
防御挑战
检测困难
恶意样本在单独检查时往往看起来正常。它们的有害性只有在特定组合下才会显现,传统的内容审核工具无法识别。
数据量巨大
LLM 的训练数据量达到万亿 token 级别,人工审核不现实。自动检测工具又容易被对抗样本绕过。
触发条件多样
触发条件可以是文字、格式、甚至 Unicode 字符的组合。防御方需要覆盖所有可能性,而攻击方只需要找到一个漏洞。
实际风险
开源模型
使用公开数据集训练的开源模型最容易受到数据投毒影响。任何人都可以下载模型并测试是否存在后门,但修复需要重新训练。
API 服务
即使模型本身没有被毒害,API 服务的输入过滤也可能被绕过。攻击者通过精心构造的输入触发模型的有害行为。
RAG 系统
检索增强生成系统从外部文档获取信息。如果文档库被污染,模型会基于恶意内容生成回答。
防御建议
数据溯源
追踪训练数据的来源,优先使用可信来源的数据。对公开数据集进行来源验证和质量筛选。
对抗训练
在训练过程中加入对抗样本,让模型学习识别和抵抗投毒攻击。
输入过滤
在推理阶段对输入进行多层过滤:关键词过滤、语义分析、异常检测。
输出监控
监控模型的输出模式,检测异常行为。如果发现特定触发词导致输出风格突变,可能表明模型被毒害。
红队测试
定期对模型进行红队测试,尝试各种触发条件和攻击方式,提前发现潜在漏洞。
对开发者的启示
如果你在使用或部署 LLM:
了解数据来源 — 知道你的模型是用什么数据训练的。开源模型要查看训练数据说明,API 服务要了解供应商的安全措施。
多层防护 — 不要依赖单一安全措施。输入过滤、输出监控、异常检测多层叠加。
持续监控 — 部署后持续监控模型行为,设置异常检测告警。
准备应急方案 — 如果发现模型被毒害,有快速切换模型或回滚版本的方案。
总结
这项研究揭示了一个被忽视的安全维度:数据安全比模型安全更基础。再完美的对齐训练,也无法防御训练数据中的恶意注入。
对于 AI 行业来说,这意味着需要重新评估数据供应链的安全性。对于开发者来说,这意味着在部署 LLM 时,数据溯源和输入过滤应该和模型选择同等重要。
在 AI 安全讨论中,数据投毒可能是最被低估的风险之一。它不需要攻破模型,只需要污染数据——而数据是 AI 系统最脆弱的环节。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/ai/poisoning-llm-with-few-samples
相关文章
npm 供应链攻击新手法:虚假 Claude Code 软件包正在窃取用户文件
攻击者利用热门 npm 包名称的拼写差异创建恶意软件包,从 Claude AI 用户目录窃取敏感数据。2026 年 5 月的这起事件再次敲响供应链安全警钟。
Microsoft Copilot Cowork 文件泄露漏洞:AI Agent 安全的新挑战
安全研究团队 PromptArmor 发现 Microsoft 365 Copilot Cowork 存在严重的数据泄露漏洞。攻击者通过间接提示注入操纵 Agent 获取文件并外泄,且整个过程不需要人工审批。
Anthropic 联合科技巨头启动 Project Glasswing:用 AI 守护全球关键软件安全
Anthropic 联合 AWS、Apple、Google、Microsoft 等 11 家科技巨头启动 Project Glasswing,将其最新的 Claude Mythos Preview 模型用于发现和修复全球关键软件中的安全漏洞,投入 1 亿美元模型额度和 400 万美元开源安全捐赠。