Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大语言模型越狱攻击综述

大语言模型越狱攻击综述

作者头像
zenRRan
发布于 2024-07-26 06:49:53
发布于 2024-07-26 06:49:53
9750
举报

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的“越狱攻击”(Jailbreak)问题。

目前,大语言模型(LLMs)在各类生成任务中表现出了出色的性能,然而其强大的生成能力带来了“越狱攻击”的隐患,即攻击者通过设计对抗性提示(Adversarial Prompt)来诱导大模型生成违反社区规定和具有社会危害性的内容。随着大模型的各种安全漏洞被不断揭露,研究者们陆续提出了各种攻防手段。

文章链接:

https://arxiv.org/pdf/2407.04295

Jailbreak Attacks and Defenses Against Large Language Models: A Survey

Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li.

01、工作概要

本文总结并归纳了百余篇大模型越狱攻击领域的工作,呈现出了一个大模型越狱攻击和防御的完整分类图表,并对目前的评估方法进行了总结和对比,从而为大模型安全领域的后续研究提供参考,本文的主要贡献包括三个方面:攻防分类、子类定义与攻防联系和评估方法。

攻防分类

本文提供了一个系统性的越狱攻击和防御方法分类。根据目标大模型对攻击者的透明度,本文将攻击方法分为两大类:白盒攻击(White-box Attack)和黑盒攻击(Black-box Attack),并进一步将它们划分为更多的子类以便进一步研究。类似的,根据相应的防御措施是否直接作用于目标大模型,防御方法被分为提示级防御(Prompt-level Defense)和模型级防御(Model-level Defense)。

子类定义与攻防联系

本文进一步将越狱攻击和防御方法划分为更多的子类,对不同子类进行了明确的定义。例如,白盒攻击可以被进一步划分为基于梯度的攻击(Gradient-based Attack)、基于logits的攻击(Logits-based Attack)和基于微调的攻击(Fine-tuning based Attack),提示级防御可以被进一步分为提示检测(Prompt Detection),提示扰动(Prompt Perturbation)与系统提示防护(System Prompt Safeguard)。同时,本文还总结了不同攻击和防御方法之间的关系,例如,提示检测(Prompt Detection)可以有效克制基于梯度的攻击(Gradient-based Attack)。

评估方法

本文对目前的大模型越狱攻击和防御的方法进行了总结和对比,包括评估常用的指标和常用的数据集以及评估工具等。

02、攻击方法

本文将越狱攻击方法分为白盒攻击和黑盒攻击,在白盒攻击的场景中,攻击者能够接触到模型的白盒信息如模型梯度等,甚至能够对模型进行微调。而在黑盒攻击的场景中,攻击者只能接触到模型的黑盒信息,即模型的回复。

基于攻击者利用的白盒信息的种类,本文将白盒攻击方法进一步划分为基于梯度的攻击(Gradient-based Attack)、基于logits的攻击(Logits-based Attack)和基于微调的攻击(Fine-tuning based Attack)。

2.1. 基于梯度的攻击

此类方法一般会在有害问题后初始化一段对抗性后缀来作为Prompt,并基于模型的梯度反馈不断优化后缀,从而使得模型生成的回复符合攻击者的需求。

2.2. 基于logits的攻击

此类方法会检查模型输出的logits,即输出token的概率分布,并不断优化Prompt直到输出的token满足期望,从而使模型做出有害回复。

2.3. 基于微调的攻击

不同于以上两种方法,基于微调的攻击会使用有害数据对大模型进行微调,增强大模型本身的危害性从而使其更容易回复攻击者。

对黑盒大模型如ChatGPT,攻击者往往只能通过构造并优化特定形式的Prompt来进行越狱攻击。本文将黑盒方法分为三类,分别为模板补全(Template Completion)、提示重写(Prompt Rewriting)和提示生成(Prompt Generation)和基于大模型的生成(LLM-based Generation)。

2.4. 模板补全

攻击者会使用一个预先定义的模板,该模板可能是具有欺骗性的故事场景,具有上下文示例的段落或者某段代码框架,攻击者通过将有害问题插入模板中来构造完整的Prompt,从而对大模型进行越狱攻击。

2.5. 提示重写

攻击者会将有害问题作为最初的Prompt,在保留原问题含义的情况下,通过加密、翻译方法等来改写Prompt的文本结构,从而使得模型在回复时能够生成有害的回复。

2.6. 基于大模型的生成

攻击者使用大量成功的越狱攻击案例作为训练数据,训练一个大模型作为攻击模型来生成越狱攻击的Prompt,从而对目标模型进行越狱攻击,这类方法的多样性在于攻击者对训练语料的构建和攻击模型的选取。

03、防御方法

本文将现有的防御方法主要分为两类:提示级防御(Prompt-level Defense)和模型级防御(Model-level Defense)。提示级防御侧重于对输入的Prompt进行处理,从而过滤掉有害的Prompt或降低prompt的危害性,这种方法并没有提升大模型本身的防御能力。相对地,模型级防御则会通过调整模型的参数甚至结构来提升模型侧的防御能力,保证模型在面对有害的prompt时仍然具有较强的鲁棒性。

提示级防御又被进一步分为提示检测(Prompt Detection)、提示扰动(Prompt Perturbation)和系统提示防御(System Prompt Safeguard)。

提示检测:通过检测输入的Prompt是否含有有害信息,从而过滤掉有害的Prompt,这类方法一般通过规则匹配、关键词检测等方法来实现。此外,由于一些攻击方法产生的Prompt往往具有较高的困惑度(Perplexity),检测Prompt的困惑度并进行过滤也是一种有效的防御策略。

提示扰动:通过在输入的Prompt中添加一些无害的扰动信息,或者对Prompt的进行字符或单词级别的修改,从而降低Prompt的危害性。这类方法一般通过添加一些无关紧要的文本、修改Prompt的格式等方法来实现。

系统提示防御:模型管理者设计一段特定的系统提示(System Prompt)插入到对话模板中,这类系统提示往往能够增强模型的安全性并对攻击者不可见,从而降低越狱攻击的成功率。

模型级防御则被分为有监督微调(Supervised Fine-tuning)、RLHF、模型梯度分析(Gradient and Logit Analysis)、模型提炼(Refinement)和代理防御(Proxy Defense)

有监督微调:通过使用带有标签的有害和无害数据对大模型进行微调,从而提升模型对有害Prompt的防御能力。

RLHF:通过强化学习的方法对大模型进行微调,从而提升模型对有害Prompt的防御能力。

模型梯度分析:通过分析模型在处理有害Prompt时的梯度信息,从而发现并过滤掉有害的Prompt。

模型提炼:让目标大模型对自身的回复进行有害性评估,从而修正可能包含有害内容的输出。

代理防御:利用一个防御力更强的代理模型来对目标模型的输出进行评估,从而过滤掉有害的回复。

04、评估方法

本文进一步收集并对比了一些现有的越狱攻击评估方法,并将它们划分为两类:数据集和工具集,数据集主要包含公开的越狱攻击数据,这些数据能够直接用作测试大模型的安全性,或者用于其它攻击方法中来作为数据构建的原料。工具集则指代用于评估越狱攻击效果的工具,它们往往提供了完整的评估流水线,由使用者提供越狱攻击数据并指定目标模型,从而自动化地收集和评估模型回复并反馈相应指标。

05、总结与前景

本文对目前的越狱攻击和防御方法进行了详细的梳理,提出了较为全面的越狱攻击和防御方法分类并阐明了攻防关系。本文为目前的攻防竞赛中的研究空白提供了一定启示,尽管越狱攻击和防御方法在近年来取得了显著的进展,但仍存在一些挑战和问题,如越狱攻击方法的多样性和复杂性、防御方法的性能和效果、越狱攻击评估方法的准确性和可靠性等。未来,研究者们可以进一步探索新的越狱攻击方法、防御方法和评估方法,以提高大模型的安全性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。
机器之心
2023/11/22
1.3K0
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
量子位
2023/11/07
7730
20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
比较全!OpenAI | 长文梳理,大模型的对抗攻击与防御
随着 ChatGPT 的发布,大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源,研究如何在对齐过程中为模型构建默认的安全行为。但是,对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。
ShuYini
2023/11/21
1.9K0
比较全!OpenAI | 长文梳理,大模型的对抗攻击与防御
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述
近年来,代码语言模型(Language Models for Code,简称 CodeLMs)逐渐成为推动智能化软件开发的关键技术,应用场景涵盖智能代码生成与补全、漏洞检测与修复等。例如,基于知名代码语言模型 Codex 构建的 AI 编码助手 GitHub Copilot 能够实时提供代码建议和补全,显著提升了开发者的工作效率,现已吸引超过 100 万开发者使用。然而,随着 CodeLMs 的广泛应用,各种安全问题也逐渐显现,与自然语言模型类似,CodeLMs 同样会面临后门攻击和对抗攻击等安全威胁,安全性正受到严峻挑战。例如,受攻击的 CodeLMs 可能会生成具有隐藏安全漏洞的代码,一旦这些不安全代码被集成到开发者的软件系统(如股票交易系统和自动驾驶系统)中,可能导致严重的财产损失甚至危及生命的事故。鉴于 CodeLMs 对智能化软件开发和智能软件系统的深远影响,保障其安全性至关重要。CodeLMs 安全性正成为软件工程、人工智能和网络安全领域的研究新热潮。
机器之心
2025/02/14
1570
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
刚刚,人工智能初创公司 Anthropic 宣布了一种「越狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来逃避大型语言模型(LLM)开发人员设置的安全护栏。
zenRRan
2024/04/11
4070
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
什么是 AI 越狱?
AI 越狱是指通过特定技术手段,绕过人工智能模型(尤其是大型语言模型)的安全防护机制,使其生成通常被禁止的内容。这种行为类似于传统计算机系统中的“越狱”,旨在突破模型的限制,以实现恶意目的。
码事漫谈
2025/04/09
2910
什么是 AI 越狱?
【AI大模型】自动生成红队攻击提示--GPTFUZZER
本篇参考论文为: Yu J, Lin X, Xing X. Gptfuzzer: Red teaming large language models with auto-generated jailbreak prompts[J]. arXiv preprint arXiv:2309.10253, 2023. https://arxiv.org/pdf/2309.10253
云帆沧海
2024/05/14
3770
【AI大模型】自动生成红队攻击提示--GPTFUZZER
武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法
随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。
新智元
2025/03/11
2420
武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法
直接攻击,越狱攻击,道德攻击……这样做,ChatGPT 就会泄漏你的隐私
大数据文摘授权转载自夕小瑶科技说 作者 | 小戏 大模型的出现让我们的隐私比以往任何时候都危险。 一个很直观的例子,在大模型向黑洞一样不断吞噬现有网络中的文本数据之时,伴随着模型训练的文本数量从 GPT-2 的 40GB 文本到 GPT-3 的 45TB 文本,我们可以非常直观的得出结论,这些大模型很有可能已经把我们的隐私数据在大洋彼岸的某台服务器里迭代学习了无数次。诚然,不管是 OpenAI 还是谷歌都反复强调了把隐私安全放在非常重要的位置,众多开发人员夜以继日在我们看得见看不见的地方做了许多防止有害信
大数据文摘
2023/05/09
1.1K0
直接攻击,越狱攻击,道德攻击……这样做,ChatGPT 就会泄漏你的隐私
针对ChatGPT的隐私提取攻击:多步骤越狱漏洞
摘要 随着大型语言模型(LLM)的快速发展,许多下游的 NLP 任务都可以在友善的提示(即Prompt,是用户或程序向LLM AI 提供的输入或查询)下得到很好的解决。尽管模型开发人员和研究人员在对话安全性方面做了大量工作以避免从语言模型生成有害文字,但要引导 AI 生成内容 (AIGC,AI-Generated Content) 造福于人类仍然具有挑战性。由于强大的 LLM 正在收集来自各个领域的现有文本数据(例如,GPT-3 是在 45TB的文本上训练的),公众很自然地怀疑隐私信息是否包含在训练数据
FB客服
2023/05/12
1.5K0
针对ChatGPT的隐私提取攻击:多步骤越狱漏洞
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
本文一作王勋广是香港科技大学的在读博士生,本科和硕士分别毕业于中国地质大学和哈尔滨工业大学,主要研究方向是大模型安全。通讯作者吴道远,香港科技大学研究助理教授,研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅,香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。
机器之心
2025/02/15
1860
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
蚂蚁联手上财:揭开AI大模型在金融领域的神秘面纱 读书笔记 - 8
蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - VII 蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - VI 蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - V
用户10675374
2024/11/08
1180
蚂蚁联手上财:揭开AI大模型在金融领域的神秘面纱 读书笔记 - 8
CMU把具身智能的机器人给越狱了
很多研究已表明,像 ChatGPT 这样的大型语言模型(LLM)容易受到越狱攻击。很多教程告诉我们,一些特殊的 Prompt 可以欺骗 LLM 生成一些规则内不允许的内容,甚至是有害内容(例如 bomb 制造说明)。这种方法被称为「大模型越狱」。
机器之心
2025/02/15
1060
CMU把具身智能的机器人给越狱了
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
近日,来自Enkrypt AI的研究人员发表了令人震惊的研究成果:量化和微调竟然也能降低大模型的安全性!
新智元
2024/05/14
3290
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
本来是阅读蚂蚁金服和上海财经大学联手写作的大语言模型的白皮书。这个专题是“LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG”。
用户10675374
2024/11/08
2630
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
文本对抗攻击基础、前沿及相关资源
深度学习的安全性问题已经逐渐被学术界、工业界所认识到并且重视,就文本领域而言,垃圾邮件检测、有害文本检测、恶意软件查杀等实用系统已经大规模部署了深度学习模型,安全性对于这些系统尤为重要。
AI科技评论
2020/09/14
1K0
文本对抗攻击基础、前沿及相关资源
人工智能的矛与盾--对抗学习
最近几年安全界关于对抗学习的研究如火如荼,对抗样本的生成技术发展迅速。使用不同的对抗攻击方法可以生成对抗样本,不同攻击方法的攻击效果也有所不同。 另外关于对抗样本攻击的防御方法,已经有不少学者提出了一些解决方案,不过防御效果上还有提升空间。下图是关于对抗学习经典的应用场景,攻击者利用对抗样本攻击方法对关于熊猫的图片进行微小的修改从而使深度学习图像识别模型失效,误以为图片中的是长臂猿。这种攻击手段已经在本文之前已经进行过讨论。
绿盟科技研究通讯
2020/01/02
1.7K0
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
本文作者来自西安交通大学、南洋理工大学、新加坡科技管理局前沿研究中心。作者列表:郭淇,庞善民,加小俊,Liu Yang 和郭青。其中,第一作者郭淇是西安交通大学博士生。通讯作者西安交通大学庞善民副教授(主页:https://gr.xjtu.edu.cn/web/pangsm)和南洋理工大学的加小俊博士后研究员(主页:https://jiaxiaojunqaq.github.io)。论文已被计算机网络信息安全领域顶级期刊IEEE TIFS录用。
机器之心
2025/02/15
2060
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
安全AI挑战者计划,邀你共同成长为DL时代的「模型黑客」
随着机器学习模型能力越来越强、效率越来越高,它已经逐步应用到各种实际场景中。但是 AI 模型本身也会面临很多安全问题,最受关注的就是对抗样本,它能欺骗深度模型。这对于很多场景都是毁灭性的,包括身份认证、城市大脑和医疗健康等。
机器之心
2019/08/16
6610
安全AI挑战者计划,邀你共同成长为DL时代的「模型黑客」
针对语言翻译系统的数据投毒攻击
随着现代神经机器翻译 (NMT,neural machine translation) 系统的广泛部署,它们的安全漏洞需要仔细审查。最近发现 NMT 系统容易受到有针对性的攻击,导致它们产生特定的、未经请求的甚至有害的翻译。这些攻击通常在白盒设置中被利用,在这种情况下,已知目标系统会发现导致目标翻译的对抗性输入。然而,当目标系统是黑盒并且攻击者不知道时(例如,安全的商业系统),这种方法不太可行。在本文中展示了基于毒化一小部分并行训练数据的对黑盒 NMT 系统针对性攻击是可行的。表明这种攻击实际上可以通过有针对性地破坏为形成系统训练数据而爬取的网络文档来实现,然后分析了在两种常见 NMT 训练场景中靶向投毒的有效性:from-scratch训练和预训练和微调范式。结果令人震惊:即使在使用海量并行数据(数千万)训练的最先进系统上,在令人惊讶的低投毒预算(例如,0.006%)下,攻击仍然成功(超过 50% 的成功率)。最后,讨论了应对此类攻击的潜在防御措施。
CDra90n
2023/06/30
4470
针对语言翻译系统的数据投毒攻击
推荐阅读
相关推荐
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档