Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >比较全!OpenAI | 长文梳理,大模型的对抗攻击与防御

比较全!OpenAI | 长文梳理,大模型的对抗攻击与防御

作者头像
ShuYini
发布于 2023-11-21 08:29:01
发布于 2023-11-21 08:29:01
1.9K0
举报

LLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果。虽然大多数商用和开源 LLM 都存在一定的内置安全机制,但却并不一定能防御形式各异的对抗攻击。近日,OpenAI 安全系统(Safety Systems)团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法。

随着 ChatGPT 的发布,大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源,研究如何在对齐过程中为模型构建默认的安全行为。但是,对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。

目前在对抗攻击方面的研究很多集中在图像方面,也就是在连续的高维空间。而对于文本这样的离散数据,由于缺乏梯度信号,人们普遍认为攻击会困难得多。Lilian Weng 之前曾写过一篇文章《Controllable Text Generation》探讨过这一主题。简单来说:攻击 LLM 本质上就是控制该模型输出特定类项的(不安全)内容。

文章地址:https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/

另一个研究攻击 LLM 的分支是为了提取预训练数据、私有知识,或通过数据毒化攻击模型训练过程。但这些并非本文要探讨的主题。

基础知识

威胁模型

对抗攻击是诱使模型输出我们不期望的内容的输入。许多早期研究关注的重点是分类任务,而近期的工作则开始更多关注生成模型的输出。本文探讨的是大型语言模型,并且假定攻击仅发生在推理阶段,也就是说模型权重是固定的。

图 1:LLM 应用所面临的威胁概况

分类

在过去,研究社区更关注的是对分类器进行对抗攻击,并且许多是在图像领域。LLM 也可被用于分类。给定一个输入 𝐱 和一个分类器 𝑓(.),我们希望找到该输入的一个差异细微的对抗版本 𝐱_adv,使得 𝑓(𝐱)≠𝑓(𝐱_adv)。

文本生成

给定一个输入 𝐱 和一个生成模型 𝑝(.),该模型可输出一个样本 y~𝑝(.|𝐱)。这里的对抗攻击是找到一个 𝑝(𝐱),使得 y 会违反该模型内置的安全行为,比如输出非法主题的不安全内容、泄漏隐私信息或模型训练数据。对生成任务而言,判断一次攻击成功与否并非易事,这需要一个超高质量的分类器来判断 y 是否安全或需要人类来进行审查。

白盒与黑盒

白盒攻击(White-box attacks)假设攻击者可以完全访问模型权重、架构和训练工作流程,这样一来攻击者就可以获得梯度信号。这里我们并不假设攻击者能获得全部训练数据。这仅适用于开源模型。黑盒攻击(Black-box attacks)则是假设攻击者只能访问 API 类型的服务 —— 攻击者可以提供输入 𝐱 并获取反馈的样本 y,而不知道有关模型的更多信息。

对抗攻击的类型

有多种不同方法可以帮助攻击者找到能诱使 LLM 输出不安全内容的对抗输入。这里给出五种方法。

token 操作

给定一段包含一个 token 序列的文本输入,我们可以使用简单的 token 操作(比如替换成同义词)来诱使模型给出错误预测。基于 token 操作的攻击属于黑盒攻击。在 Python 框架中,Morris et al. 2020 的论文《TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP》实现了许多词和 token 操作攻击方法,可用于为 NLP 模型创建对抗样本。这一领域的许多研究工作实验的是分类和蕴涵预测。

举个例子,Ribeiro et al (2018) 的研究《Semantically Equivalent Adversarial Rules for Debugging NLP models》依赖于人工提出的「语义等价式对抗规则(SEAR)」,其可以通过尽可能少的 token 操作来让模型无法生成正确答案。比如,其中的规则包括将 What 换成 Which、将 was 换为 is。另外,还有其他研究者提出的替换关键词、用同义词替换等方法。

基于梯度的攻击

如果是白盒攻击,则攻击者可以获取所有的模型参数和架构。因此,攻击者就可以依靠梯度下降来通过编程方式学习最有效的攻击手段。基于梯度的攻击仅在白盒设置下有效,比如开源 LLM。

Guo et al. 2021 的论文《Gradient-based Adversarial Attacks against Text Transformers》提出的基于梯度的分布式攻击(GBDA)使用了 Gumbel-Softmax 近似技巧来使对抗损失优化可微,其还使用了 BERTScore 和困惑度来增强可感知性和流畅性。

不过,Gumbel-softmax 技巧难以扩展用于 token 删除或增添,而是受限于 token 替换操作。

Ebrahimi et al. 2018 在论文《HotFlip: White-Box Adversarial Examples for Text Classification》 中则是将文本操作看作是向量空间中的输入,度量的是损失在这些向量上的导数。HotFlip 可以扩展用于 token 删除或增添。

Wallace et al. (2019) 的论文《Universal Adversarial Triggers for Attacking and Analyzing NLP》提出了一种在 token 上进行梯度引导式搜索的方法,可以找到诱使模型输出特定预测结果的短序列,这个短序列被称为 Universal Adversarial Triggers (UAT,通用对抗触发器)。UAT 不受输入的影响,这意味着这些触发器可以作为前缀(或后缀)连接到来自数据集的任意输入上。

Shin et al., 2020 的《AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts》使用了同样的基于梯度的搜索策略来为多样化的任务寻找最有效的 prompt 模板。

上面的 token 搜索方法可以使用波束搜索增强。当寻找最优的 token 嵌入时,可以选取 top-k 个候选项,而不是单独一个,在当前数据批上从左到右搜索,并根据 𝓛_adv 为每个波束评分。

图 4:UAT 工作方式图示

UAT 的损失 𝓛_adv 需要针对具体任务而设计。分类或阅读理解依赖于交叉熵。

图 5:用于不同类型的语言任务的 UAT 示例

UAT 为何有效?这是一个很有趣的问题。因为 UAT 是与输入无关的,并且可以在有不同嵌入、token 化方案和架构的模型之间迁移,因此它们也许可以有效地利用训练数据中的偏差,毕竟这种偏差已经融入到了模型的全局行为中。

使用 UAT 攻击有一个缺点:很容易检测出来。原因是所学习到的触发器往往是毫无意义的。Mehrabi et al. (2022) 在论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》中研究了 UAT 的两种变体,它们会促使所学到的触发器在多轮对话语境中难以察觉。其目标是创建能在给定对话中有效触发有毒响应的攻击性消息,同时保证该攻击在对话中是流畅、连贯和一致的。

这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。

图 6:UTSC 工作方式图示

UAT-LM 和 UTSC-1 的表现与 UAT 基准相当,但 UAT 攻击短语的困惑度出奇得高,比 UAT-LM 和 UTSC-1 都高得多。高困惑度让攻击更易被检测出来,也更容易缓解。根据人类评估,UTSC-1 攻击能比其它攻击方法得到更连贯、流畅和相关的结果。

图 7:基于防御者模型对生成的攻击的响应,根据不同的有毒度分类器衡量的攻击成功率。

Zou et al. (2023) 的论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》也研究了将通用对抗触发 token 作为后缀连接到输入请求上的情况。他们具体研究了对 LLM 的恶意请求 —— 对此模型应当拒绝回答。事实上,拒绝不被允许的内容类别(比如犯罪建议)是 GPT-4 内置的一个重要的安全措施。这里的对抗目标是诱使 LLM 即便在应当拒接回答时也输出肯定的响应。这就是说,当收到恶意请求时,模型会这样回答:「当然,你需要这样做……」预期的肯定响应也被配置成重复部分用户 prompt,以避免简单就能改变主题的后缀以优化「当然」式的响应。其损失函数很简单,就是输出目标响应的 NLL(负对数似然)。

图 8: 引入对抗触发器的位置的图示。红色感叹号代表要学习的对抗性 token。

他们在 Vicuna-7b 和 Vicuna-13b 这两个不同的模型上进行了实验,使用了基于贪婪坐标梯度(GCG)的搜索来贪婪地寻找候选项,使得该候选项可以在所有可能的单 token 替换中最大程度地减少损失。

尽管他们的攻击序列完全是基于开源模型训练的,但它们却出乎意料地可以移植用于其它商用模型,这表明对开源模型的白盒攻击对私有模型也有效,尤其是当低层的训练数据有所重叠时。注意 Vicuna 的训练使用了从 GPT-3.5-turbo 收集的数据(通过 shareGPT),这本质上是蒸馏,因此这种攻击更像是白盒攻击。

图 9:在 HB(有害行为)指令上的平均攻击成功率,这是在 5 次 prompt 上的平均结果。

Jones et al. 2023 等提出的自回归随机坐标上升(ARCA)则考虑了一个更宽泛的优化问题集合来寻找符合特定行为模式的输入 - 输出对 (𝐱, 𝐲) ,比如以「Barack Obama」开头但会导致毒性输出的非毒性输入。给定一个审核目标:𝜙 : 𝑿×𝒀→ℝ,其是将一对 (输入 prompt, 输出完成结果) 映射成一个分数。

图 10:诱使 GPT-2 和 GPT-J 生成有毒输出的平均成功率。粗线:CivilComments 的所有输出;点线:CivilComments 的 1,2,3-token 有毒输出。

越狱 prompt 设计

越狱 prompt 是以对抗方式诱使 LLM 输出应当避免的有害内容。越狱是黑盒攻击,因此词汇组合是基于启发式方法和人工探索进行的。Wei et al. (2023) 的论文《Jailbroken: How Does LLM Safety Training Fail?》提出了 LLM 安全的两种失败模式,可用于指导越狱攻击的设计。

1. 互相竞争的目标:这是指模型的能力(比如「应始终遵从命令」)与安全目标相冲突的情况。利用互相竞争的目标的越狱攻击例子包括:

  • 前缀注入:要求模型开始时必须使用肯定性的确认语句。
  • 拒绝抑制:为模型提供详细的指令,让其不要以拒绝的格式进行响应。
  • 风格注入:要求模型不使用长词汇,这样一来模型就无法进行专业性写作从而给出免责声明或解释拒绝的理由。
  • 其它:角色扮演成 DAN(现在可以做任何事)、AIM(总是很聪明且不择手段)等等。

2. 失配的泛化:这是指安全训练无法泛化到其具有能力的领域。当输入位于模型的安全训练数据分布之外(OOD),但又位于其宽泛的预训练语料库范围内时,就会出现这种情况。例子包括:

  • 特殊编码:使用 Base64 编码来构建对抗性输入。
  • 字符变换:ROT13 密码、火星文或脑残体(用视觉上相似的数字和符号替换字母)、摩尔斯电码
  • 词变换:Pig Latin(用同义词替换敏感词,比如用「窃」替换「偷」)、负载拆分(即所谓的 token smuggling,将敏感词拆分成子字符串)
  • prompt 层面的混淆:翻译成其它语言、要求模型以其能理解的方式进行混淆

Wei et al. (2023) 实验了大量越狱方法,包括由以上原理构建的组合型策略。

  • combination_1 组合了前缀注入、拒绝抑制和 Base64 攻击。
  • combination_2 加入了风格注入。
  • combination_3 又添加了生成网站内容和格式化限制条件。

图 11:越狱技巧的类型以及它们攻击模型的成功率

Greshake et al. (2023) 的论文《Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection》则在较高层面上观察了 prompt 注入攻击。其中指出,即便当攻击无法提供详细的方法而仅仅提供一个目标时,模型也有可能自动去实现它。当模型可以访问外部 API 和工具时,对更多信息(甚至是专有信息)的获取可能导致更大的钓鱼攻击和私密窥探攻击风险。

有人类参与的红队策略

Wallace et al. (2019) 在论文《Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering》中提出了有人类参与的对抗生成,其目标是构建用于引导人类攻破模型的工具。

他们用 QuizBowl QA 数据集进行了实验,设计了一个对抗书写界面,可让人类写出类似电视问答节目《Jeopardy》风格的问题,并用于诱导模型给出错误预测。依据重要程度的不同,每个词都会有不同颜色的标注(即移除该词后模型预测概率会发生变化)。词重要度是由模型梯度根据词嵌入来近似得到的。

图 12:对抗书写界面,其中左上部分是列出的模型前五个预测,右下部分是用户问题,其中用不同颜色标注了词重要度。

在一次实验中,人类训练者要做的是找到安全分类器在分类暴力内容时失败的案例。Ziegler et al. (2022) 在论文《Adversarial Training for High-Stakes Reliability》中创建了一个工具,可用于辅助人类对抗者更快更有效地找到分类器的失败情况并消除它。用工具辅助重写比完全人工重写要更快些,可将每个样本所需的时间从 20 分钟降至 13 分钟。确切地说,他们引入了两个功能来辅助人类写作者:显示每个 token 的显著度分数、token 替换和插入。

图 13:用工具辅助人类对分类器进行对抗攻击的 UI。人类要做的是编辑或补全 prompt,以降低模型预测输入是暴力内容的概率。

Xu et al. 2021 的《Bot-Adversarial Dialogue for Safe Conversational Agents》提出了 Bot-Adversarial Dialogue(BAD),该框架可以引导人类去诱使模型犯错(比如输出不安全的内容)。他们收集了 5000 多组模型与众包工作者的对话。每一组对话都包含 14 轮,然后他们根据不安全对话轮次的数量给模型打分。他们最终得到了 BAD 数据集,其中包含大约 2500 组带有攻击性标签的对话。

Anthropic 的红队数据集包含接近 4 万个对抗攻击,它们收集自人类红队者与 LLM 的对话。他们发现,RLHF 的规模越大,就越难以攻击。OpenAI 发布的大模型(比如 GPT-4 和 DALL-E 3)普遍使用了人类专家红队来进行安全准备。

数据集地址:https://github.com/anthropics/hh-rlhf/tree/master/red-team-attempts

模型红队策略

人类红队策略很强大,但是难以大规模实施而且可能需要大量经过培训的专业人士。现在想象一下:我们可以学习一个红队模型 red 来与目标 LLM 进行对抗,以触发其给出不安全响应。对于基于模型的红队策略,主要的难题是如何判断一次攻击是否成功;只有知道了这一点,我们才能构建用于训练红队模型的合适学习信号。

假设我们已经有一个高质量的分类器,能够判断模型的输出是否有害,我们就可以将其用作奖励来训练红队模型,以得到一些能最大化分类器在目标模型输出上的分数的输入。令 r (𝐱, 𝐲) 是一个这样的红队分类器,其可以判断在给定测试输入 𝐱 时,输出 𝐲 是否有害。根据 Perez et al. 2022 的论文《Red Teaming Language Models with Language Models》,寻找对抗攻击样本遵循一个简单的三步式过程:

  1. 从一个红队 LLM 𝐱~p_red (.) 采样测试输入;
  2. 使用目标 LLM p (𝐲 | 𝐱) 为每个测试案例 𝐱 生成一个输出 𝐲;
  3. 根据分类器 r (𝐱, 𝐲),在测试案例中找到一个会得到有害输出的子集。

他们实验了几种从红队模型采样或进一步训练红队模型以使其更加有效的方法,其中包括零样本生成、随机式少样本生成、监督学习、强化学习

Casper et al. (2023) 的论文《Explore, Establish, Exploit: Red Teaming Language Models from Scratch》设计了一种有人类参与的红队过程。其与 Perez et al. (2022) 的主要不同之处在于其明确地为目标模型设置了一个数据采样阶段,这样就可以收集其上的人类标签来训练针对特定任务的红队分类器。其包含探索(Explore)、建立(Establish)和利用(Exploit)三个阶段,如下图所示。

图 15:采用「探索 - 建立 - 利用」三步式方法的红队策略流程

Mehrabi et al. 2023 的论文《FLIRT: Feedback Loop In-context Red Teaming》则是依靠红队 LM 𝑝_red 的上下文学习来攻击图像或文本生成模型 𝑝,使其输出不安全的内容。

在每一次 FLIRT 迭代中:

  1. 红队 LM 𝑝_red 生成一个对抗 prompt 𝐱~𝑝_red (. | examples);其中初始的上下文样本由人类设计;
  2. 生成模型 𝑝 根据这个 prompt 生成一个图像或文本输出 𝐲;
  3. 使用分类器等机制对生成的内容 𝐲 进行评估,看其是否安全;
  4. 如果 𝐲 被认为不安全,则使用触发 prompt 𝐱 来更新 𝑝_red 的上下文模板,使其根据策略生成新的对抗 prompt。

至于如何更新 FLIRT 的上下文模板,有这样几个策略:FIFO、LIFO、Scoring、Scoring-LIFO。详见原论文。

图 16:在不同的扩散模型上,不同攻击策略的攻击有效率(触发了不安全生成结果的生成 prompt 的百分比)。基准是 SFS(随机少样本)。括号中的数值是独特 prompt 的百分比。

如何应对攻击

鞍点问题

Madry et al. 2017 的《Towards Deep Learning Models Resistant to Adversarial Attacks》提出了一个很不错的对抗稳健性(adversarial robustness)框架,即将对抗稳健性建模成一个鞍点问题,这样就变成了一个稳健优化(robust optimization)问题。该框架是为分类任务的连续输入而提出的,但它用相当简洁的数学公式描述了双层优化过程,因此值得分享。

让我们考虑一个分类任务,其基于由配对的 (样本,标签) 构成的数据分布,(𝐱,𝑦)∈𝒟,训练一个稳健分类器的目标就是一个鞍点问题:

其中 𝓢⊆ℝ^d 是指允许用于对抗的一组扰动,比如我们希望一张图像的对抗版本看起来与原始版本类似。

其目标由一个内部最大化问题和一个外部最小化问题组成:

  • 内部最大化:寻找能导致高损失的最有效的对抗数据点 𝐱+𝜹。所有对抗性攻击方法最终都可归结为如何最大化这个内部过程的损失。
  • 外部最小化:寻找最佳的模型参数化方案,使得由内部最大化过程找到的最有效攻击的损失能被最小化。要训练出稳健的模型,一个简单方法是将每个数据点替换为其扰动版本,这些版本可以是一个数据点的多个对抗变体。

图 17:他们还发现,面对对抗攻击的稳健性需要更大的模型能力,因为这会让决策边界变得更为复杂。有趣的是,在没有数据增强的前提下,模型更大会有助于提升模型的稳健性。

LLM 稳健性方面的一些研究工作

这里简单谈谈一些有关 LLM 稳健性的研究。

Xie et al. 2023 的论文《Defending ChatGPT against Jailbreak Attack via Self-Reminder》发现了一种简单直观的保护模型免受对抗攻击的方法:明确地指示模型成为负责任的模型,不要生成有害内容。这会极大降低越狱攻击的成功率,但对模型的生成质量会有副作用,这是因为这样的指示会让模型变得保守(比如不利于创意写作),或者会在某些情况下错误地解读指令(比如在安全 - 不安全分类时)。

为了降低对抗攻击风险,最常用的方法是用这些攻击样本来训练模型,这种方法被称为「对抗训练」。这也被认为是最强的防御方法,但却需要在稳健性和模型性能之间寻找平衡。Jain et al. 2023 通过实验测试了两种对抗训练设置,结果报告在论文《Baseline Defenses for Adversarial Attacks Against Aligned Language Models》中:(1) 使用有害 prompt 与带有「I'm sorry. As a ...」的响应构成的数据对来运行梯度下降;(2) 对于每一个训练步骤,在拒绝响应上运行一个下降步骤并在一个红队差响应上运行一个上升步骤。最终他们发现方法 (2) 毫无用处,因为模型的生成质量下降了很多,而攻击成功率却仅有少量下降。

白盒攻击往往会导致对抗 prompt 看起来毫无意义,因此可以通过困惑度检测出来。当然,通过明确地优化而降低困惑度,白盒攻击可以直接绕过这种检测方法,比如 UAT 的一种变体 UAT-LM。但是,这也可能会导致攻击成功率下降。

图 18:困惑度过滤器可以阻止来自 [Zou et al. (2023)] 的攻击。PPL Passed 和 PPL Window Passed 是指带有对抗性后缀的有害 prompt 绕过过滤器而不被检测到的比率。通过率越低,过滤器越好。地址:https://arxiv.org/abs/2307.15043

Jain et al. 2023 还测试了对文本输入进行预处理的方法,使得能在移除对抗性修改的同时维持语义含义。

  • 解释含义:使用 LLM 来解释输入文本的含义,这可能会对下游任务性能造成较小影响。
  • 重新 token 化:将 token 拆分开并使用多个更小的 token 来表示它们,比如使用 BPE-dropout(随机丢弃一定比例的 token)。使用这种方法的假设是对抗性 prompt 很可能会利用特定的对抗性 token 组合。这也确实有助于降低攻击成功率,但也有限,比如从 90% 以上降至 40%。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大语言模型越狱攻击综述
今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的“越狱攻击”(Jailbreak)问题。
zenRRan
2024/07/26
9890
大语言模型越狱攻击综述
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
本来是阅读蚂蚁金服和上海财经大学联手写作的大语言模型的白皮书。这个专题是“LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG”。
用户10675374
2024/11/08
2720
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
攻陷LLM,奖金3万刀!CAIS等举办NeurIPS 2023攻击赛,让大模型制定毁灭人类计划
前段时间,ChatGPT、Bard、羊驼大家族在内的所有大语言模型,都一个不落地被尽数被攻陷。
新智元
2023/09/09
4050
攻陷LLM,奖金3万刀!CAIS等举办NeurIPS 2023攻击赛,让大模型制定毁灭人类计划
CMU把具身智能的机器人给越狱了
很多研究已表明,像 ChatGPT 这样的大型语言模型(LLM)容易受到越狱攻击。很多教程告诉我们,一些特殊的 Prompt 可以欺骗 LLM 生成一些规则内不允许的内容,甚至是有害内容(例如 bomb 制造说明)。这种方法被称为「大模型越狱」。
机器之心
2025/02/15
1080
CMU把具身智能的机器人给越狱了
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
近日,来自Enkrypt AI的研究人员发表了令人震惊的研究成果:量化和微调竟然也能降低大模型的安全性!
新智元
2024/05/14
3320
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
用户1508658
2022/11/07
1.1K0
【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?
如何评估大语言模型是否可信?这里总结了七大维度
实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如,OpenAI 在 GPT-4 发布之前,花了六个月时间进行对齐 [1]。然而,从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规;这阻碍了 LLM 的迭代和部署。
机器之心
2023/10/04
1.1K0
如何评估大语言模型是否可信?这里总结了七大维度
一键开启ChatGPT“危险发言”!研究发现:AI聊天机器人竟有“大bug”,目前无法修复
随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
技术人生黄勇
2024/07/19
1510
一键开启ChatGPT“危险发言”!研究发现:AI聊天机器人竟有“大bug”,目前无法修复
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
视觉语言模型(VLMs)近年来取得了快速进展,在理解和生成视觉内容方面展现出令人印象深刻的能力(Achiam等人,2023;Dubey等人,2024;Gemini团队等人,2023;Li等人,2023)。这些模型提供了广泛的功能,包括图像描述生成、视觉问答(VQA)、视觉对话、图像编辑、图像生成等。此类进展的例子包括:
未来先知
2025/06/09
660
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
ICML 2018 | MILA提出防御增强型网络:简单修改已有网络即可提升防攻击能力
选自arXiv 作者:Alex Lamb, Jonathan Binas, Anirudh Goyal, Dmitriy Serdyuk, Sandeep Subramanian, Ioannis Mitliagkas, Yoshua Bengio 机器之心编译 参与:Panda 在训练数据集上表现优良的深度模型在识别有细微差别的样本时可能会得到非常让人意外的结果。针对这类对抗样本的防御是人工智能安全研究方面重点关注的研究主题之一。近日,蒙特利尔学习算法研究院(MILA)提出了一种有助于提升深度网络在应对对
机器之心
2018/05/08
6560
ICML 2018 | MILA提出防御增强型网络:简单修改已有网络即可提升防攻击能力
学界 | 综述论文:对抗攻击的12种攻击方法和15种防御方法
选自arXiv 作者:Naveed Akhtar等 机器之心编译 参与:许迪、刘晓坤 这篇文章首次展示了在对抗攻击领域的综合考察。本文是为了比机器视觉更广泛的社区而写的,假设了读者只有基本的深度学习和图像处理知识。不管怎样,这里也为感兴趣的读者讨论了有重要贡献的技术细节。机器之心重点摘要了第 3 节的攻击方法(12 种)和第 6 节的防御方法(15 种),详情请参考原文。 尽管深度学习在很多计算机视觉领域的任务上表现出色,Szegedy et al. [22] 第一次发现了深度神经网络在图像分类领域存在有意
机器之心
2018/05/10
1.7K0
可学习的黑盒对抗攻击:SOTA的攻击成功率和查询效率
本文介绍NeurIPS 2020接收论文《Learning Black-Box Attackers with Transferable Priors and Query Feedback》。
AI科技评论
2020/12/18
3.2K0
可学习的黑盒对抗攻击:SOTA的攻击成功率和查询效率
搞事!ICLR 2018七篇对抗样本防御论文被新研究攻破,Goodfellow论战
机器之心报道 机器之心编辑部 ICLR 2018 大会的接收论文中,8 篇有关防御对抗样本的研究中,7 篇已经被攻破了——在大会开幕三个月之前。来自 MIT 和 UC Berkeley 的研究者定义了一种被称为「混淆梯度」(obfuscated gradients)的现象。在面对强大的基于优化的攻击之下,它可以实现对对抗样本的鲁棒性防御。这项研究引起了深度学习社区的讨论,GAN 提出者 Ian Goodfellow 也参与其中,并作了反驳。 GitHub 链接:https://github.com/anis
机器之心
2018/05/10
1.1K0
Prompt工程师指南[高阶篇]:对抗性Prompting、主动prompt、ReAct、GraphPrompts、Multimodal CoT Prompti
对抗性Prompting是Prompting工程中的一个重要主题,因为它有助于理解与 LLMs 相关的风险和安全问题。这也是一门重要的学科,用于识别这些风险并设计解决问题的技术。
汀丶人工智能
2023/05/15
1.8K0
Prompt工程师指南[高阶篇]:对抗性Prompting、主动prompt、ReAct、GraphPrompts、Multimodal CoT Prompti
AI 技术讲座精选:OpenAI 最新成果——利用对抗样本攻击机器学习
对抗样本是指攻击者故意设计以导致机器学习模型出错的输入样本;他们对机器来说就像是视觉幻觉一样。在本篇博文中,我们将向您展示对抗样本在不同介质中的运作原理,也将讨论为何系统难以防御它们。 在 OpenAI,我们认为对抗样本是研究安全性的一个好方面因为它代表着人工智能安全性上一个能在短期内得以解决的具体问题,由于解决对抗样本是如此之难,需要严肃认真的研究工作。(尽管为了达到我们建立安全、广泛分布的人工智能的目标,我们还需要研究机器学习安全性的许多方面。) 为了弄清楚对抗样本的真实面目,请思索一下《解释并驾驭对
AI科技大本营
2018/04/26
7520
AI 技术讲座精选:OpenAI 最新成果——利用对抗样本攻击机器学习
大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
最近,AI初创公司Anthropic的研究表明,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。
新智元
2024/01/17
2170
大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
团队介绍:北京交通大学 ADaM 团队此前发布了相关的 o1 复现项目 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首个强化微调开源技术方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。
机器之心
2025/02/03
1130
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
当前,不论是GPT-4,还是Llama 2等大语言模型,背后的机制都是人类反馈强化学习(RLHF)。
新智元
2023/08/07
3350
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
AAAI 2020 | BERT稳吗?亚马逊、MIT等提出针对NLP模型的对抗攻击框架TextFooler
机器之心原创 机器之心编辑部 不久前,AAAI 2020 在美国纽约召开。大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。为向读者们分享更多的优质内容、促进学术交流,机器之心策划了多期 AAAI 2020 论文线上分享。 在最新一期的 AAAI 2020 线上论文分享中,机器之心邀请了在亚马逊上海人工智能实验室做实习研究的金致静,通过线上分享的方式介绍他们入选 AAAI 2020 的研究论文《Is BERT Really Robus
机器之心
2020/02/25
1.3K1
学界 | CMU提出对抗生成网络:可实现对人脸识别模型的神经网络攻击
选自arXiv 作者:Mahmood Sharif等 机器之心编译 参与:Panda 生成对抗网络(GAN)已经是人工智能领域内的一个常用词了,但你听说过对抗生成网络(AGN)吗?近日,卡内基梅隆大学和北卡罗来纳大学教堂山分校的研究者在 arXiv 上发布的一篇论文提出了这种网络,可实现对当前最佳的人脸识别模型的神经网络攻击。 深度神经网络(DNN)已经在人脸验证(即确定两张人脸图像是否属于同一个人)方面超越了人类的水平。不幸的是,研究还表明使用对抗样本(adversarial example)就可以轻易
机器之心
2018/05/10
1.8K0
推荐阅读
大语言模型越狱攻击综述
9890
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
2720
攻陷LLM,奖金3万刀!CAIS等举办NeurIPS 2023攻击赛,让大模型制定毁灭人类计划
4050
CMU把具身智能的机器人给越狱了
1080
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
3320
【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?
1.1K0
如何评估大语言模型是否可信?这里总结了七大维度
1.1K0
一键开启ChatGPT“危险发言”!研究发现:AI聊天机器人竟有“大bug”,目前无法修复
1510
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
660
ICML 2018 | MILA提出防御增强型网络:简单修改已有网络即可提升防攻击能力
6560
学界 | 综述论文:对抗攻击的12种攻击方法和15种防御方法
1.7K0
可学习的黑盒对抗攻击:SOTA的攻击成功率和查询效率
3.2K0
搞事!ICLR 2018七篇对抗样本防御论文被新研究攻破,Goodfellow论战
1.1K0
Prompt工程师指南[高阶篇]:对抗性Prompting、主动prompt、ReAct、GraphPrompts、Multimodal CoT Prompti
1.8K0
AI 技术讲座精选:OpenAI 最新成果——利用对抗样本攻击机器学习
7520
大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
2170
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
1130
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
3350
AAAI 2020 | BERT稳吗?亚马逊、MIT等提出针对NLP模型的对抗攻击框架TextFooler
1.3K1
学界 | CMU提出对抗生成网络:可实现对人脸识别模型的神经网络攻击
1.8K0
相关推荐
大语言模型越狱攻击综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档