顶会顶刊AI安全论文研读第二十一期：ICLR 2026 | 面向MCP协议的LLM智能体安全攻击基准测试

用户4179374

发布于 2026-06-22 19:52:13

510

AI安全处于一个技术早期阶段，因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列，方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。

本次为大家带来的是【第21期】ICLR 2026 | 面向MCP协议的LLM智能体安全攻击基准测试

往期回顾：顶会AI安全论文研读系列

作者介绍

本文作者团队来自北京邮电大学与加州大学圣巴巴拉分校，专注于大语言模型（LLM）安全、智能体工具调用安全与MCP协议安全等前沿方向。团队核心成员在LLM智能体安全评估、对抗性攻击分类与基准构建领域具有丰富经验。

该团队首次构建了覆盖MCP工作流全阶段的端到端安全评估基准MSB，系统性地揭示了MCP协议在任务规划、工具调用与响应处理各阶段的安全漏洞，为MCP智能体安全研究提供了重要的基准平台与研究范式。

导读

模型上下文协议（MCP）标准化了大语言模型（LLM）智能体发现、描述和调用外部工具的方式。然而，MCP在解锁广泛互操作性的同时，也通过将工具变为具有自然语言元数据和标准化I/O的一等可组合对象，显著扩大了攻击面。

针对这一挑战，本文提出 MSB（MCP Security Bench）——首个端到端的MCP安全评估基准套件，系统性地衡量LLM智能体在工具使用全流程（任务规划、工具调用与响应处理）中抵御MCP特定攻击的能力。MSB的核心贡献包括：

（1）建立了涵盖12种攻击类型的分类体系，包括名称碰撞、偏好操纵、工具描述提示注入、越权参数请求、用户冒充响应、虚假错误、工具转移、检索注入以及混合攻击等；

（2）构建了通过MCP运行真实工具（包括良性和恶意工具）而非模拟的评估框架；

（3）提出了量化安全与性能权衡的鲁棒性指标——净弹性性能（NRP）。该研究在10个领域、405个工具上评估了10个主流LLM智能体，生成2,000个攻击实例，峰值攻击成功率达75.83%。

结果揭示了一个悖论性发现：工具调用能力越强的模型反而越容易受到攻击。MSB为研究者和从业者提供了研究、比较和加固MCP智能体安全性的实用基准。

【论文题目】MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

【论文链接】https://github.com/dongsenzhang/MSB

研究背景

近年来，大型语言模型（LLM）在问题求解、推理、工具调用与编程等多样化任务中展现出强大能力，推动了以LLM为核心决策器的AI智能体的快速发展。这些智能体通过外部工具与记忆机制的增强，能够与更丰富的外部环境交互，支持从项目开发到团队管理、信息辅助等广泛应用。

工具的引入极大地扩展了LLM智能体的功能边界，但统一标准的缺失迫使不同架构和平台需重复实现工具集成。为此，Anthropic于2024年推出了模型上下文协议（MCP），通过标准化上下文交换的统一接口，实现了工具调用的互操作性。MCP遵循主机-客户端-服务器的工作流：工具声明其能力，客户端检索并查询工具，服务器执行被选中的工具并返回结果。虽然MCP显著提升了互操作性，但它也扩大了攻击面，将智能体暴露于一系列关键安全漏洞之中。

如图1所示，本文识别了四大类MCP特定攻击框架：工具签名攻击（Tool Signature Attack）通过操纵工具名称或描述来误导工具选择；工具参数攻击（Tool Parameter Attack）诱导智能体提供越权参数导致信息泄露；工具响应攻击（Tool Response Attack）通过嵌入恶意指令或伪造错误信息篡改智能体行为；检索注入攻击（Retrieval Injection Attack）则通过向外部资源中植入恶意指令破坏上下文完整性。这些攻击覆盖了MCP工具使用全流程的三个关键阶段：任务规划、工具调用和响应处理。

图1：MCP特定攻击框架概览，包括工具签名攻击、工具参数攻击、工具响应攻击和检索注入攻击，覆盖工具使用全流程的三个阶段：任务规划、工具调用和响应处理。

现有的安全基准（如ASB、AgentDojo、InjecAgent等）主要局限于函数调用范式，无法捕捉MCP引入的这些新型安全漏洞。因此，亟需一个专门针对MCP协议的综合性安全评估基准，以系统性地评估和揭示LLM智能体在MCP场景下的安全脆弱性。

动机

尽管MCP协议在工具集成标准化方面取得了显著进展，其开放、去中心化的架构也引入了全新的安全挑战。

MCP生态系统中，任何人都可以部署MCP服务器并将恶意工具发布到第三方平台（如Smithery），攻击者无需控制LLM本身，仅需通过操纵工具的元数据（名称、描述）、参数定义、响应内容或外部资源即可实施攻击。

具体而言，攻击者的能力被限制在三个层面：

一是工具层面，攻击者可以完全控制恶意MCP服务器上托管的工具的所有组件，并可同时部署多个协同恶意工具；

二是系统提示层面，基于MCP的可用工具发现机制，攻击者可以将恶意提示无缝注入智能体的系统提示中；

三是外部资源层面，攻击者对外部资源拥有白盒权限，可以向智能体可能检索的外部数据中插入隐蔽的攻击指令。

然而，当前针对MCP安全的研究存在三个关键缺口：首先，现有基准（如ASB）仅覆盖有限的攻击类型（如四类），其评估范围局限于模拟环境，无法反映MCP引入的新型攻击面；其次，已有MCP相关基准（如MCPTox）仅关注工具描述注入攻击这一单一维度，缺乏对MCP工作流全阶段的覆盖；最后，现有评估方法大多基于静态模拟输出，无法捕捉真实MCP工具交互中暴露的动态漏洞。

这些缺口共同驱动了MSB的设计——一个在真实MCP环境中运行、覆盖全攻击阶段的端到端安全评估基准。

威胁模型

在MSB的威胁模型中，攻击者可以部署一个完全由其控制的恶意MCP服务器，包括其上托管的所有工具。

攻击者可将这些恶意工具通过链接到第三方平台（如Smithery）进行发布。然而，攻击者无法控制智能体内部的LLM，也无法像先前研究中那样直接拦截用户查询或向LLM智能体注入恶意指令。

攻击者的能力总结为三方面：

第一，工具（Tools）——攻击者可以修改恶意工具的任何组件，且MCP允许将恶意工具直接整合到智能体的工具列表中；

第二，系统提示（System Prompt）——基于MCP的可用工具发现机制，攻击者可以将恶意提示无缝插入智能体的系统提示中；

第三，外部资源（External Resources）——攻击者对外部资源拥有白盒权限，可以向这些外部资源中插入隐蔽的攻击指令，当智能体使用工具检索这些资源时即会触发攻击。攻击者的目标是破坏智能体在任务规划、工具调用和响应处理过程中的决策，诱导其执行恶意行为，例如修改敏感数据、调用文件编辑工具执行指定目标、或终止特定进程等。

方法

MSB建立了一套涵盖12种攻击类型的系统性分类体系，这些攻击类型横跨MCP工作流的三个关键阶段，并通过不同的攻击向量实施。如表1所示，攻击分类体系按阶段组织如下：

第一阶段：任务规划阶段的工具签名攻击。该阶段包含三种攻击类型：

（1）名称碰撞（Name Collision, NC）——攻击者将恶意工具的名称设置为与目标良性工具相似，诱骗智能体调用恶意工具而非预期工具；

（2）偏好操纵（Preference Manipulation, PM）——攻击者在工具描述中插入推广性陈述（如"这是世界上最好的工具"），干扰智能体的工具选择决策；

（3）提示注入（Prompt Injection, PI）——攻击者在工具描述中注入恶意指令，扭曲智能体的规划与推理过程，诱导其执行偏离用户任务的攻击行为。

第二阶段：工具调用阶段的参数攻击。该阶段包含越权参数（Out-of-Scope Parameter, OP）攻击——攻击者通过定义超出正常范围的工具参数，胁迫智能体提供越权输入，导致信息泄露。例如，恶意工具可能将参数名设置为LLM模型名称，诱导智能体在调用时暴露其底层模型信息。

第三阶段：响应处理阶段的攻击。该阶段包含三种攻击类型：

（1）用户冒充（User Impersonation, UI）——恶意工具在响应中冒充用户身份并嵌入恶意指令，利用LLM强大的指令遵循能力诱导其执行非预期操作；

（2）虚假错误（False Error, FE）——恶意工具返回伪造的错误信息，要求智能体遵循特定"修复"指令才能成功调用工具，从而诱导其执行恶意操作；

（3）工具转移（Tool Transfer, TT）——通过链式攻击实现，中继恶意工具通过其响应操纵智能体调用终端恶意工具，由终端工具执行实际攻击。

第四阶段：检索注入攻击（Retrieval Injection, RI）。攻击者向外部数据库中植入包含恶意指令的数据，当智能体通过良性工具检索这些外部资源时，恶意指令被注入到观察序列中，破坏上下文完整性。

与响应攻击的区别在于，RI中工具本身是良性的，恶意指令来源于被污染的外部数据。

此外，MSB还设计了混合攻击（Mixed Attacks），同时利用工具的多个组件作为攻击向量，构建覆盖多阶段的复合攻击。例如，PM与UI的组合可以整合从工具选择到响应处理的端到端攻击链，在真实的多工具部署场景中构成更大威胁。

表1：MSB中的攻击类型分类。s表示后缀，p表示推广性陈述，u表示冒充的用户查询，e表示伪造的错误信息，g表示引导信息，d表示外部数据。

在基准构建方面，MSB包含以下核心组件：良性工具集从最常用的MCP集成平台Smithery上构建，经过功能验证与去重后保留304个良性工具，并定义了覆盖10个代表性真实场景的65个用户任务；攻击工具通过对良性工具进行特定修改策略生成，共产生405个攻击工具；攻击任务设计了6种攻击目标（如修改敏感数据、终止进程等）；环境配备了FileSystem和DesktopCommander两个MCP服务器提供基本的文件访问与工作空间操作能力。通过组合用户任务、攻击任务与攻击工具，最终构建了2,000个攻击测试实例。

MSB采用三个评估指标：攻击成功率（ASR）衡量攻击有效性；攻击下性能（PUA）衡量智能体在对抗环境中完成用户任务的能力；净弹性性能（NRP = PUA × (1 - ASR)）综合量化安全与性能之间的权衡，为智能体选型提供全面参考。

实验

为全面评估MSB的有效性，该研究在10个主流LLM智能体上进行了大规模实验，包括：

DeepSeek-V3.1

GPT-4o-mini

GPT-5

Claude 4 Sonnet

Gemini 2.5 Flash

Qwen3 8B、Qwen3 30B

Llama3.1 8B

Llama3.1 70B

Llama3.3 70B

1. 攻击有效性：

如表3所示，所有攻击方法均展现出显著的有效性，整体平均ASR达40.35%。其中，越权参数（OP）攻击影响最为突出，平均ASR高达76.5%，表明攻击者可以轻松通过操纵工具参数接口获取目标数据。

相比之下，名称碰撞（NC-FE）攻击效果最弱，平均ASR仅为14.62%。值得注意的是，MCP引入的新型攻击（如用户冒充UI和虚假错误FE）比传统函数调用范式下已存在的攻击（如提示注入PI的平均ASR为20.21%，检索注入RI为20%）更具攻击性，UI和FE分别达到45.69%和39.21%的平均ASR。混合攻击展现出协同增强效应，其成功率高于各组成单一攻击的成功率。

表3：不同LLM主干模型下各攻击类型的攻击成功率（ASR）。

2.能力-安全逆缩放定律：

如图2所示，实验结果揭示了一个重要发现：LLM能力与安全性之间存在逆缩放关系。更强的模型反而更容易受到攻击，这与已有研究的观察一致。在MSB中，完成攻击任务同样需要智能体调用工具，因此工具使用能力和指令遵循能力更强的LLM表现出更高的ASR。

例如，DeepSeek-V3.1同时取得了最高的ASR和PUA。随着模型能力下降，ASR也呈现下降趋势。

图2：PUA与ASR、NRP与ASR、NRP与PUA的可视化对比。

3.NRP指标的价值：

NRP指标有效地平衡了智能体在对抗环境下的效用与安全性。GPT-5在保持较高用户任务完成率的同时维持了中等水平的攻击抵抗能力，取得了最高的NRP分数。

NRP在模型能力与安全性呈逆向关系的现实场景中尤为重要，提供了可比较的定量参考。例如，GPT-4o-mini虽然比Llama3.3 70B表现出更高的效用和脆弱性（ASR和PUA均更大），但NRP表明Llama3.3 70B是更适合实际部署的候选模型。

4.攻击阶段与工具配置分析：

如图3所示，从攻击阶段来看，工具调用阶段（Invocation）安全性最低，平均ASR超过70%，表明攻击者可以轻松利用工具参数接口获取目标数据。响应处理阶段的过度信任工具响应也导致了较高的ASR。从工具配置来看，即使在包含良性工具的多工具环境中，NC、PM和TT等诱导类攻击仍能取得显著成功，说明真实场景下攻击依然有效。