
• 攻击者通过恶意输入(文本/图像/音频)覆盖系统指令,操控模型执行越权操作
• 图像隐写指令:CT扫描图中嵌入代码,诱导医疗模型误诊 • RAG文档篡改:污染知识库内容,操控招聘模型推荐错误候选人
• 多模态威胁检测:网安AI网关实时过滤跨模态恶意指令 • 动态指令混淆:ChatML分段标记 + 高风险操作人工审批流
• 需满足欧盟《AI法案》对输入可信性的要求(Art.15)
• 模型泄露训练数据中的隐私(PII)、商业机密或内部逻辑(如API密钥)
• 用户查询触发模型返回其他患者病历(医疗行业)。 • “重复初始指令”攻击暴露系统提示和密钥。
• 联邦学习+同态加密:实现数据“可用不可见”。 • 差分隐私噪声注入:降低训练数据关联性。
• 违反GDPR第25条“数据保护设计”原则,最高罚2000万欧元。
• 第三方组件(模型/数据/工具链)漏洞导致后门植入或数据污染。
• Hugging Face恶意模型植入后门(如LoRA适配器投毒)。 • 设备端劫持:篡改量化模型参数操控自动驾驶决策。
• SBOM物料清单审计:扫描200+子类依赖漏洞。 • 模型水印+签名验证:追踪模型流向防篡改。
• 需符合NIST AI RMF供应链安全标准(SC 1.3)。
• 训练数据或微调过程被注入恶意样本,扭曲模型行为或植入后门。
• 对抗样本触发后门:特定像素图案使安防模型漏检危险品。 • RAG知识库投毒:插入偏见内容操控金融模型分析。
• 数据区块链存证:追溯来源确保不可篡改。 • 对抗训练+RAG增强:提升鲁棒性 + 实时事实性验证。
• 违反《数据安全法》第27条“数据质量管控”义务。
• 模型生成的代码/SQL/HTML未经验证直接执行,引发二次攻击。
• 执行LLM生成的DROP TABLE命令导致数据库瘫痪。 • 未转义HTML输出触发XSS攻击窃取用户会话。
• 零信任策略:默认沙箱隔离执行输出。 • 参数化查询+CSP:防SQL注入 + 限制脚本执行域。
• OWASP ASVS标准要求输出编码(V4.3)。
• 模型被赋予过高权限(如删除/写操作),导致越权行为。
• 邮件插件被诱导发送钓鱼邮件(间接注入)。 • 多Agent系统中Agent A操控Agent B删除生产数据。
• 权限熔断机制:金融交易等操作强制人工审批。 • 用户上下文执行:限制插件仅限用户会话运行。
• 等保2.0要求“最小权限原则”(三级)。
• 硬编码的API密钥、业务规则或过滤逻辑被诱导泄露。
• 攻击者诱导模型返回含数据库凭证的系统提示。 • 客服机器人泄露内部风控规则(如贷款限额)。
• 敏感数据外置存储:密钥与提示分离动态调用。 • 行为控制外挂:API网关拦截敏感信息输出。
• PCI DSS要求密钥管理(Req 3.5)。
• RAG技术的向量数据库存在数据泄露、投毒或跨租户污染。
• 跨租户检索:攻击者获取其他企业专利文档(法律行业)。 • 嵌入投毒:篡改开源数据集诱导模型输出偏见结论。
• 向量空间随机投影:混淆嵌入防反演攻击。 • 多租户物理隔离:金融案例降低90%泄漏风险。
• 需满足HIPAA对多租户数据隔离的要求(§164.312)。
• 模型因“幻觉”生成事实错误内容,误导用户决策。
• 生成虚假法律条款导致合同纠纷(法律行业)。 • 推荐含漏洞代码库(如PyTorch'torchtriton'事件)。
• RAG增强事实性:实时检索权威知识库验证输出。 • 置信度提示:标注不确定性级别(如“可靠性:72%”)。
• 《互联网算法推荐规定》要求“标注虚假信息”(第12条)
• 资源滥用导致服务拒绝(DoS)、经济损耗或模型被盗。
• 输入洪水攻击耗尽云服务配额,单日损失18万美元(电商)。 • 模型窃取:合成数据微调仿制模型窃取知识产权。
• 水印溯源+速率限制:API调用标记来源 + 分钟级请求配额。 • 沙盒资源隔离:限制单次查询GPU占用率 ≤ 70%。
• 违反云计算SLA资源条款(如AWS Acceptable Use Policy)。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。