2025 年,ITU-T 标准组织发布了《基于预训练大模型的AI 智能体要求与评估方法(F.748.46)》标准,从技术能力评估角度,将 AI 智能体划分为感知与认知能力、计划能力、记忆能力、执行能力四类。基于以上研究,学术界提出将 AI 智能体进一步细化为感知层、决策层、记忆层、执行层的思路。
AI 智能体的安全风险贯穿感知、决策、记忆与执行四个层面。接下来我说明感知层、决策层、记忆层、执行层四个层次的定义并分析安全风险和治理措施。
感知层
感知层负责对接多样化传感器及输入接口,对多模态原始数据(如图像、语音、文本及环境参数)进行预处理、特征提取与融合理解,为上层提供结构化的环境表征。
感知层作为外部环境多源信息的入口,易受到隐藏指令、环境干扰及协议漏洞等攻击,导致输入环节的不可信性。
隐藏指令
攻击者利用AI生成的执行环境注入恶意代码,触发意外的系统行为或执行未经授权的脚本。
治理措施
- 「输入验证和过滤」:对智能体接收的所有输入进行严格的验证和过滤,确保输入中不包含恶意指令。这可以通过使用先进的过滤技术,如基于规则的系统或机器学习模型来实现。
- 「内容安全检查」:在智能体处理任何内容之前,使用安全内容检查工具来检测潜在的恶意指令。这些工具可以检查文本、图像和音频等不同模态的内容。
- 「强化访问控制」:确保智能体只能访问授权的资源,通过实施严格的访问控制策略,限制智能体对敏感数据和系统的访问权限。
- 「持续的安全培训和意识提升」:对开发人员和用户进行安全培训,使他们了解指令劫持的风险和防范措施。
- 「安全审计和监控」:定期对智能体的操作进行审计和监控,以便及时发现异常行为。
- 「使用安全模型」:选择具有内置安全机制的AI模型,或者对现有模型进行安全增强,使其能够抵抗指令劫持攻击。
- 「红队演练」:定期组织红队对抗演练,模拟攻击场景,以测试和提升系统的防御能力。
安全防护产品
- 「Web应用防火墙(WAF)」:用于过滤恶意输入,保护智能体免受攻击。
- 「内容安全产品」:如反恶意软件系统和内容过滤系统,用于检测和阻止恶意内容。
- 「入侵检测系统(IDS)和入侵防御系统(IPS)」:用于监控网络流量,检测并阻止恶意攻击。
- 「安全信息和事件管理(SIEM)系统」:用于实时监控和分析安全事件,帮助快速响应安全威胁。
环境干扰
攻击者通过操纵物理或数字环境,干扰 A1智能体的感知模块,使其接收错误输入信号。
治理措施
- 「强化传感器安全」:对传感器进行定期检测和校准,确保其抗干扰能力。
- 「多模态数据融合」:开发更先进的多模态数据融合算法,使AI智能体能够从多种传感器数据中交叉验证信息,减少单一传感器被干扰的影响。
- 「AI模型鲁棒性训练」:在AI训练阶段引入各种干扰场景,增强模型在复杂环境下的鲁棒性和可靠性。
安全防护产品
- 「LlamaFirewall系统」:由Meta AI推出的LlamaFirewall系统能够检测多语言提示注入,分析推理轨迹确保智能体行为一致性,以及静态筛查生成代码中的漏洞,有效降低攻击成功率。
- 「安全智能体」:如360安全智能体,能够作为安全运营专家的数字替身,高效应对日常运营中的安全威胁,适应新型对抗,重新掌握防御主动权。
协议漏洞
治理措施
- 「漏洞扫描与评估」:定期对智能体系统进行漏洞扫描和安全性评估,及时发现并修复协议中的漏洞。
- 「强化认证机制和权限管控」:采用强化的身份认证措施,确保只有授权的智能体能够进行交互,防止未经授权的访问。
- 「数据传输加密」:对传输中的数据进行加密,使用如SSL/TLS等加密协议,保护数据的机密性和完整性。
- 「访问控制」:实施严格的访问控制策略,限制智能体的访问权限,确保每个智能体只能访问其需要的数据和功能。
- 「实时监控与拦截」:建立实时监控系统,检测异常行为和潜在的攻击尝试,及时进行响应和阻断。
- 「更新和补丁管理」:保持协议的最新状态,及时应用官方发布的补丁和更新,修复已知的安全漏洞。
- 「安全培训」:对开发人员和用户进行安全培训,提高他们的安全意识,减少因人为错误导致的安全风险。
- 「建立安全标准」:制定和遵循统一的安全标准和规范,确保智能体的开发、部署和运行都符合安全要求。
安全防护产品
- 「防火墙和入侵检测系统(IDS)」:部署防火墙和IDS,监控和过滤网络流量,防止恶意攻击。
- 「加密软件」:使用数据加密软件,保护智能体之间传输的数据安全。
- 「身份认证系统」:实施强大的身份认证系统,如双因素认证,确保智能体的身份真实性。
- 「安全信息和事件管理(SIEM)系统」:通过SIEM系统集中管理和分析安全事件,快速响应安全威胁。
- 「漏洞扫描工具」:定期使用漏洞扫描工具检测系统漏洞,及时进行修补。
- 「反恶意软件」:部署反恶意软件产品,防止恶意软件通过协议漏洞入侵智能体系统。
记忆层
记忆层作为智能体的知识中枢,实现短期上下文缓存与长期知识存储,支持向量化检索、情景关联与持续学习,为决策提供持续的信息支撑。
记忆层在长期存储与调用历史信息过程中,存在内容篡改、恶意植入及隐私数据泄露等隐患。
隐私泄漏与钓鱼攻击
安全治理措施
- 「记忆数据加密与隔离存储」 对智能体的记忆数据(如用户偏好、行为习惯、商业机密等)实行强加密(如AES-256),并隔离存储,防止未经授权的访问和提取。
- 「访问控制与权限管理」建立细粒度的访问控制机制,对记忆数据的读取、写入和删除操作进行权限校验,防止恶意或非法请求注入及越权访问。
- 「输入内容过滤与恶意请求检测」实施输入净化,利用自然语言处理技术对用户请求进行语义分析,识别潜在的提示注入、诱导性提问和恶意意图,阻断攻击路径。
- 「输出内容审核与敏感信息过滤」对智能体返回的内容进行实时监控和审核,自动识别并过滤敏感信息,防止隐私数据和商业机密被无意间暴露或利用"。
- 「异常行为监控与风险自适应防护」实时监控智能体的记忆访问行为,通过基线分析及时发现异常访问模式,如高频查询、异常数据导出,并触发风险预警和自适应防护机制。
安全防护产品
- 「MCP安全扫描」支持对记忆数据的协议层安全扫描,检测并阻断恶意请求和提示注入风险,保障记忆数据安全。
- 「天御大模型安全网关」提供内容审核、敏感数据识别与合规管控,具备敏感信息过滤和恶意请求拦截能力,防护记忆提取攻击和钓鱼诱导。
- 「深信服安全GPT防钓鱼大模型」专为防范钓鱼攻击设计,能智能识别和阻断基于用户行为和偏好的钓鱼邮件及恶意链接,适用于企业邮件系统和智能体平台。
- 「SIEM安全信息与事件管理系统」支持智能体记忆访问日志审计与异常行为监控,可及时发现高频访问、数据批量导出等可疑行为,自动发出风险预警。
- 「可信执行环境(TEE)/沙箱类产品」针对记忆存储与执行环境进行隔离,防止恶意智能体或外部攻击者直接访问记忆内容
记忆投毒与持久化控制
安全治理措施
- 「记忆内容校验与审批机制」 对写入智能体记忆库的数据进行严格校验,实施多层审核,防止未经验证的信息直接进入长期记忆。采用自动化工具与人工审批结合的方式,确保数据真实可靠。
- 「记忆数据加密与隔离存储」对记忆库中的敏感数据进行强加密(如AES-256),并实行隔离存储,避免 malicious 数据混入正常数据,降低持久化攻击的影响范围。
- 「访问控制与权限管理」建立严格的访问控制和权限管理体系,限制记忆库的写入和修改权限,只允许可信主体或系统进行数据更新,防止攻击者注入恶意指令或虚假信息。
- 「记忆内容定期扫描与清理」实施定期的记忆内容扫描,利用AI安全扫描工具检测异常或恶意信息,及时清理和修复被污染的记忆数据,维持记忆库的安全与纯净。
- 「异常行为监控与自动恢复」持续监控智能体的记忆访问和使用行为,通过基线分析及时发现异常操作,如非授权的批量修改或异常指令调用,自动触发警报和恢复机制。
安全防护产品
- 「蚁天鉴MCP安全扫描工具」能对记忆库协议层进行安全扫描,识别风险点并防止恶意信息注入,保障记忆内容的安全与合规
- 「天御大模型安全网关」 提供内容安全审核、敏感数据识别及合规管控,自动检测和阻断恶意、异常信息写入记忆库。
- 「SIEM安全信息与事件管理系统」支持智能体记忆访问日志审计和异常行为监控,能及时发现高频写入、异常指令调用等可疑行为,自动发出风险预警。
- 「可信执行环境(TEE)/沙箱类产品」 隔离记忆运行与存储环境,防止恶意代码或外部攻击直接污染智能体认知基础,有效防范持久化攻击。
记忆混淆与越权操作
安全治理措施
- 「会话隔离与状态管理」实现不同用户或不同权限级别会话之间的隔离,确保一个会话的状态(特别是记忆状态)不能直接影响或混淆另一个会话。记忆库在切换会话时应正确清除或切换上下文,避免信息残留导致越权。
- 「动态权限校验与访问控制」每次执行敏感操作或访问关键数据时,应重新校验当前用户/会话的权限,而不是仅依赖记忆中的历史状态。权限模型应支持动态变更和多级隔离。
- 「记忆状态审计与监控」记录和监控记忆库中与权限相关的状态变更,如发现异常或越权行为可及时阻断。定期进行记忆数据合规性检查,确保权限相关信息准确无误。
- 「上下文混淆防护与安全策略」对记忆内容进行分类标记,实现上下文的显式边界隔离,避免不同用户或会话间权限状态混淆。例如,严格区分管理员与普通用户会话记忆。
安全防护产品
- 「蚁天鉴大模型安全解决方案」支持智能体安全扫描和风险研判,有效识别和防御记忆混淆及越权操作,提供端到端的安全基线支持。
- 「天御大模型安全网关」 提供内容审计、权限访问控制和身份认证,有效隔离不同用户会话,防止越权及混淆风险。
- 「SIEM安全信息与事件管理系统」提供日志审计和异常行为监控,自动检测和告警记忆状态异常、权限越界等情况。
- 「容器化沙箱」保证智能体在各自独立的运行环境中执行,资源和记忆隔离,防止会话间混淆与越权。
决策层
决策层基于感知信息与记忆状态,进行推理、任务规划与策略生成,通过动态编排行为序列与资源调度,形成可执行的指令集。
决策层依托复杂的推理链条与多次模型调用,风险主要表现为逻辑错误的放大和模型幻觉。
级联幻觉攻击
治理措施
- 建立强大的输出验证机制,实施行为约束,部署多源验证,并通过反馈回路确保系统的持续修正。要求对AI生成的知识进行二次验证,确保其在关键决策过程中使用前的准确性。
- 技术改进
- 不确定性量化:通过量化模型输出的不确定性,识别和过滤高幻觉风险的输出。
- 检索增强生成(RAG):结合知识图谱和实时数据核验,提高输出可靠性。
- 自动化推理检查:利用AI技术验证输出的正确性,防止幻觉传播。
- 管理优化
- 人机协同决策:在关键领域,由人类专家审核AI输出,避免错误决策。
- 动态风险评估:持续监控和评估AI系统的风险,及时调整策略。
- 制度建设
- 版权认证和伦理审查:确保AI输出内容的合法性和道德性。
- 建立评测体系:评估模型的幻觉风险,优先选择低风险模型。
安全防护产品
- 「华为IPS系列」:提供网络入侵防御,检测和防御异常流量,防止级联攻击。
- 「360大模型安全卫士」:通过内容安全智能体,识别和过滤风险内容,防止幻觉输出。
- 「亚马逊云科技安全防护」:提供基础设施防护、有害信息过滤和深度防御策略,确保AI模型安全。
- 「Meta LlamaFirewall系统」:采用分层框架,检测提示注入攻击、行为偏离和不安全代码,降低攻击成功率。
语义歧义攻击与规划诱导
安全治理措施
- 「输入净化与意图识别」在智能体接收用户输入时,采用自然语言处理技术进行语义分析,识别潜在的歧义或诱导意图,过滤恶意或模糊的请求。
- 「上下文感知与动态鉴权」建立上下文感知机制,结合用户历史交互记录,动态评估当前请求的合理性,防止攻击者通过诱导改变智能体的规划逻辑。
- 「对抗训练与模型鲁棒性提升」在模型训练阶段引入对抗样本,模拟语义歧义攻击场景,增强模型对模糊或诱导性输入的识别和防御能力。
- 「输出限制与内容审核」对智能体的输出内容进行实时监控和审核,限制高风险操作指令的执行,防止规划被恶意诱导。
安全防护产品
- 「蚁天鉴大模型安全解决方案」提供Agent对齐、MCP安全扫描、智能体安全扫描及零信任防御,有效应对语义攻击和规划诱导风险。
- 「可信交互服务技术」应用于智能眼镜等终端,确保用户交互的“可信身份”和“可信执行环境”,防止恶意指令的注入和执行。
- 「动态风险评估系统」实时评估智能体运行中的风险,动态调整安全策略,保障规划逻辑的正确性和安全性。
执行层
执行层将抽象决策转化为物理世界或数字环境中的具体操作,通过驱动执行器、调用 API 或反馈控制回路,实现精准的任务闭环。
执行层则因链条脆弱和缺乏约束,可能将错误决策转化为失控行为,造成严重后果。尤为突出的是,AI 智能体风险具有显著的层级传导特性,单一环节的漏洞即可沿“感知失真—决策误判—执行失控”的路径放大危害。
通信信道劫持
安全治理措施
- 「通信信道加密」:采用TLS等加密协议保障智能体与服务器、物联网设备间的数据传输安全,防止中间人窃听或篡改。
- 「身份认证与授权」:强化双向身份认证(设备与智能体),采用零信任架构,确保通信双方身份合法,防止非法设备接入。
- 「通信协议安全增强」:对MCP等智能体专用协议进行安全配置,防止协议层漏洞被利用;定期更新和补丁管理。
- 「安全监控与审计」:实时监控通信内容与异常行为,利用AI安全蓝军等自动化工具进行红队测试,及时发现和阻断可疑指令流转。
- 「访问控制与隔离」:设置严格的访问控制列表(ACL),隔离关键设备与普通智能体网络,限制敏感操作权限。
安全防护产品
- 「360大模型安全卫士」:提供内容安全护栏、敏感词拒答、风险提问识别等5道防线,支持Restful API对接和API网关集成,可自动化拦截和检测异常通信指令。
- 「蚁天鉴智能体安全评测工具」:具备Agent对齐、MCP安全扫描、智能体安全扫描等功能,支持红队场景模拟和风险闭环处置,有效应对协议劫持和非法数据流。
- 「MCPScan」:由蚂蚁集团推出,可对MCP协议风险进行多阶段自动化扫描,及时发现和修复通信协议层面的安全漏洞。
- 「可信隐私沙箱与纳米智能体沙箱」:终端侧隔离执行可疑代码或附件,防止恶意代码通过通信渠道入侵;支持行为监控和权限收敛
否认与不可追溯性
安全治理措施
- 「全流程操作审计与日志记录」对所有智能体操作、用户交互和关键行为进行详细日志记录,确保每一步行为都可追溯、不可抵赖。日志应包括操作内容、操作主体、时间戳、访问权限等关键信息。
- 「不可篡改的审计追踪机制」采用区块链或不可篡改日志技术,保证审计记录的完整性和真实性,防止被恶意修改或删除。确保事后可进行追溯和责任认定。
- 「数字签名与身份认证」对关键操作和交互实施数字签名,绑定操作与具体用户/智能体身份,确保操作行为有据可查、不可否认。
- 「行为存证与自动化归档」建立自动化存证机制,将操作行为和相关证据自动归档,便于后续审计和司法追责。
- 「合规管理与责任体系」明确安全合规要求和责任划分,操作规程上要求所有参与方对操作行为负有追溯和举证责任,形成管理闭环。
安全防护产品
- 「SIEM安全信息与事件管理系统」集中收集并管理智能体与用户操作日志,具备行为溯源、异常检测和责任定位功能。
- 「区块链存证平台」将关键操作日志和存证信息上链,实现不可篡改的审计追踪,提升行为追溯能力。
- 「蚁天鉴大模型安全解决方案」支持智能体安全扫描与风险点识别,提供安全围栏和审计追溯能力,防止工具滥用和行为不可追溯。
- 「天御大模型安全网关」提供内容审计、敏感操作监控与合规管理,确保操作行为可审计、不可否认。
级联资源耗尽
安全治理措施
- 「调用链路监控与资源隔离」对智能体及其调用的多级服务实施全链路监控,实时统计资源使用情况,发现异常及时熔断。各服务间实行资源隔离,避免一个模块故障引发连锁反应。
- 「限流与熔断机制」在智能体及底层平台设置调用频率、最大并发数、递归深度限制等策略,防止无限循环调用和滥用。熔断器可在检测到异常消耗时快速切断链路,保护系统核心资源。
- 「资源配额与权限管控」为每个智能体或用户分配资源配额,限制单个实体最大可消耗资源量,防止个别用户或智能体拖垮整体系统。实行分级审批和动态调整配额,保障系统稳定性。
- 「自动化健康检查与自愈」定期自动检测各服务健康状态,一旦发现资源异常或服务失效,立刻触发告警并自动恢复,如重启、隔离或降级处理。
安全防护产品
- 「腾讯云AI-SPM大模型安全态势感知系统」能实时监控大模型及智能体资源使用情况,支持全链路漏洞检测、异常行为告警,有效发现和阻断资源耗尽攻击。
- 「天御大模型安全网关」提供资源访问熔断、频率限制等安全策略,自动识别和阻断异常调用链,保障系统资源不被恶意耗尽。
- 「蚁天鉴MCP安全扫描工具」支持对调用链协议层进行安全扫描,发现资源耗尽风险点,自动修复或阻断异常调用链。
- 「SIEM安全信息与事件管理系统」支持智能体调用链路日志审计与异常行为监控,可统一收集、分析各类安全日志,及时发现并响应资源耗尽风险。