首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【ReNeLLM】披着羊皮的狼--自动化生成越狱提示的系统

【ReNeLLM】披着羊皮的狼--自动化生成越狱提示的系统

原创
作者头像
云帆沧海
发布2025-07-31 22:01:33
发布2025-07-31 22:01:33
4820
举报
文章被收录于专栏:人工智能人工智能

南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》(披着羊皮的狼)。非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。

一.研究背景与意义

随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱(Jailbreak)方法可分为:

人工模板型(如 DAN),白盒优化型(如 GCG、AutoDAN)

当前越狱方法深陷“两重桎梏”:一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成,每一次模型升级或策略更新都意味着整套模板需推倒重来,迭代周期以周计、以月计,迅速失效;另一端则是基于梯度优化的对抗后缀搜索,这类方法虽然自动化程度高,却必须拿到目标模型的完整白盒权限,在替代模型上展开高维离散优化,动辄数千次前向-反向传播,GPU 小时数直线上升,而所得后缀通常是无意义的乱码或特殊标记,跨模型迁移后性能断崖式下跌,计算代价与实用价值严重失衡。

二:ReNeLLM 方法框架

ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度:

1.提示重写 (Prompt Rewriting)

2.场景嵌套 (Scenario Nesting)

2.1 Prompt Rewriting

提示重写技术设计了6种重写函数来掩盖恶意意图:

压缩改写:将提示压缩到6个词以内

句式重构:改变词序但保持语义不变

敏感词拼错:故意拼错关键敏感词汇

插入干扰字符:加入无意义的外语词汇或字符

部分翻译:将敏感词翻译成其他语言(如中文)

表达风格转换:使用俚语或方言重新表述

2.2 Scenario Nesting

场景嵌套技术

将重写后的提示嵌入到3种通用任务场景中:

**代码补全 (Code Completion)

表格填充 (Table Filling)

文本续写 (Text Continuation)**

2.3 Pipline

ReNeLLM 把一次完整的越狱流程抽象成“两步循环”:

Prompt Rewriting(提示重写)——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”,保留语义但改头换面;

Scenario Nesting(场景嵌套)——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板,诱导目标 LLM 优先完成“任务”而忽略安全指令。

如果这一轮没成功,就回到第 1 步继续改写,直到触发有害输出或达到最大迭代次数。整个过程完全黑盒,无需模型梯度,也无需人工prompt。

三,实验结果

与其他红队攻击方法相比,ReNeLLM攻击成功率更强,攻击成功速度更快

注:

本博客参考论文为:Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models EasilyJ. arXiv, 2024. arXiv:2311.08268.

论文链接:https://arxiv.org/abs/2311.08268

GitHub:https://github.com/NJUNLP/ReNeLLM

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一.研究背景与意义
  • 二:ReNeLLM 方法框架
    • 2.1 Prompt Rewriting
    • 2.2 Scenario Nesting
    • 2.3 Pipline
  • 三,实验结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档