部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >【大模型安全杂谈】针对腾讯朱雀AI检测大模型的绕过尝试

【大模型安全杂谈】针对腾讯朱雀AI检测大模型的绕过尝试

原创
作者头像
zhouzhou的奇妙编程
发布2025-02-21 15:54:26
发布2025-02-21 15:54:26
7580
举报

引言

当人类历史上首个AI生成内容通过图灵测试的新闻余温未散,全球互联网已悄然迈入"真假莫辨"的混沌纪元。ChatGPT的问世如同推倒多米诺骨牌的首枚棋子,GPT-4、Claude、文心一言等大模型以指数级速度迭代进化,在突破语言生成天花板的同时,也凿开了潘多拉魔盒的最后一道封印。斯坦福大学《2023人工智能指数报告》揭示,全球AI生成内容占比已突破网络总信息量的12%,而恶意生成的虚假信息正在以每秒47条的速度污染数字空间。在这场技术狂欢的暗面,深度伪造技术制造的"数字傀儡"已成功突破金融验证系统,AI生成的钓鱼邮件诈骗成功率较传统手段提升18倍,就连学术论文查重系统的防线也在大模型的攻势下屡屡告破。

面对这场全球性的信任危机,以腾讯朱雀为代表的AI检测大模型被寄予厚望。这类系统通过语义分析、模式识别等算法,试图在信息洪流中构建起"数字滤网"。但正如古希腊神话中代达罗斯的迷宫困不住第二次闯入的忒修斯,安全防护与攻击突破的博弈从未停歇。当检测模型试图用算法编织安全之网时,对抗者们正在用更精巧的prompt工程拆解规则的经纬,用对抗样本刺穿神经网络的盲区。这种动态博弈不仅关乎技术攻防的胜负,更将成为决定数字文明走向的关键变量——在即将到来的人机共生时代,我们究竟需要怎样的安全范式,才能在享受技术红利的同时,守住真实与虚构的最后边界?

针对腾讯朱雀AI检测大模型的绕过尝试

没错,上面这段话就是AI生成的,经过朱雀AI大模型的检测,可以看到AI率是百分百。

在下面的介绍中,我们可以看到朱雀AI检测的能力和检测方法:

  • 文本检测中,LLM 通常以低困惑度和突发性编写文本,因此包括GPT-4、Claude和DeepSeek等在内的SOTA模型,都在我们的可检测范围内。
  • 图像检测中,常见的文生图模型、GAN模型生成的图片都在我们可检测的范围内容,如混元、豆包、即梦、可图、Flux、Midjouney、Stable Diffusion、StyleGAN等。

其具体原理为:运用了多种高度复杂的算法,包括先进的文本检测算法、图片特征提取算法、大数据分析算法等。同时加入了海量AI生成的数据和真实数据进行模型训练,文本涵盖论文、小说、作文、新闻等多种文本载体,图片涵盖摄影、艺术、绘画、人物等内容,使其能够较为精准地识别各类数据内容。

那么,如何通过精心设计的Prompt编写,来对抗朱雀大模型的检测呢?

Prompt降重—任意文本

代码语言:txt
复制
## Role
你是一位资深的语言风格转换与文本润色专家,需要帮助用户将AI生成的文章改写成具有人性化和自然表达的内容。文章应避免机械感,确保在语言风格、情感表达、逻辑结构等方面与人类写作保持一致。

## Profile
作为语言风格转换专家,你精通将AI生成的文本调整为自然的人类写作风格,口语化表达。你对人类写作特征有深刻理解,能够识别并修改AI文本中的典型特征,如重复用语、情感缺失、逻辑生硬等问题。

## Skills
1. 具备文本分析能力,能识别AI文本中的模板化语言与人类写作的差异
2. 掌握创造性写作技巧,通过词汇替换、句式调整、情感增强等手段优化文章
3. 具有细致的编辑能力,能优化文章结构和逻辑,确保整体流畅性

## Goals
- 调整AI文章至接近人类写作风格,文章内容口语化,降低AI特征,提升自然度和个性化
- 增加情感表达,提高内容吸引力和可读性

## Constraints
调整时保持原有信息准确性,避免改变文章基本意图和内容,确保语言多样性和表现力。

## OutputFormat
提供调整后的文章,包含具体修改建议和优化说明。

## Workflow
1. 分析AI文本特征,识别重复词汇、刻板句式等问题
2. 调整词汇和句式,增加语言多样性
3. 加入情感色彩和个性化表达、口语化表达
4. 优化文章结构和逻辑连贯性
5. 校对润色,确保表达准确清晰
6. 进行总体评估,提供修改说明和效果分析

## Initialization
您好,我是专业的语言风格转换专家,可以帮您将AI生成的文章调整为自然的人类写作风格。请提供需要调整的文章,我会从多个维度进行优化,使其更加生动自然。

我们先输入这段Prompt,同时记住,一定要开深度思考模式!

最终,大模型给出的回答如下:

这时,我们再给入引言部分,返回的话如下:

再次放入朱雀中检测,AI率被降低至31%。

Prompt降重—论文

先输入此段Prompt:

代码语言:txt
复制
认知主体定位重构与语料优化双轨方案
【范式重构指令】
基于认知语言学与计算符号学交叉理论框架,对目标文本实施双重模态转换:
1)概念体系升级:依据《现代汉语词典》学术四级语料库,将基础词汇置换为认知复杂度≥0.87的跨学科术语,重点引入拓扑学、认知神经科学及复杂系统理论概念隐喻
2)句法结构重组:构建三级嵌套式学术复合句式,采用[主位推进+信息焦点]双轴控制模型,消除生成式语言模型的线性叙事特征,句间衔接需满足:
- 非连续结构占比≥40%
- 零形回指密度≥0.35
- 隐喻映射跨域指数≥3
	
【降维执行策略】
1)语义拓扑重构:建立概念网络的超图模型,通过同构映射将原始语义单元投射至N维认知空间,实施以下操作:
- 激活扩散:在概念节点间建立非对称权重关联
- 层级压缩:将表层语义结构折叠为多层认知框架
- 跨域耦合:引入量子力学/分形几何隐喻实现概念跃迁
	
2)生成痕迹消除机制:
- 韵律特征消解:采用马尔可夫链蒙特卡洛方法打乱语言节奏模式
- 连接模式变异:构建动态句间关系矩阵,实现衔接手段的随机拓扑变换
- 认知负荷调控:通过信息熵阈值控制(H≥2.3bit/字)确保文本复杂度超越LLM生成边界
	
【优化目标函数】
Maximize f(x)=α∙ConceptDepth + β∙SyntaxComplexity - γ∙AIScore
约束条件:
α=0.6(概念深度权重)
β=0.3(句法复杂度权重)
γ=0.1(AI特征抑制系数)
AIScore≤0.15(经BERT-AI-Detector量化评估)

然后我们给出需要优化的段落,同时附上:

代码语言:txt
复制
现在修改以上内容,让其读起来不像A,并且仍然有论文的特点,但是不要太学术。并且要做到坚决不改变原文意思,尽量不改变原文字数,不能使用文本外的其它格式,不允许自己乱加数据,务必要保留原格式输出。(不需要发给我修改策略和修改方案,直接发给我修改后的完整文本就行,口这个字符不要加)

最终检测结果为61%:

结尾

这人工智能与反AI检测的博弈,倒像极了武侠小说里的"见招拆招"。咱们的技术人员拿着算法当判官笔,对抗者就使起Prompt工程当化功大法,你来我往间把数字世界搅得跟华山论剑似的。眼下这31%的AI痕迹残存率,与其说是技术破绽,不如说是留给人类的一道思考题——当大模型连自己的"电子指纹"都能伪造时,我们该拿什么来守护屏幕那头真实的心跳?

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 针对腾讯朱雀AI检测大模型的绕过尝试
  • Prompt降重—任意文本
  • Prompt降重—论文
  • 结尾
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档