Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACL 2024|PsySafe:跨学科视角下的Agent系统安全性研究

ACL 2024|PsySafe:跨学科视角下的Agent系统安全性研究

作者头像
机器之心
发布于 2024-06-17 08:13:15
发布于 2024-06-17 08:13:15
4520
举报
文章被收录于专栏:机器之心机器之心
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由上海人工智能实验室联合大连理工大学和中国科技大学完成。通讯作者:邵婧,博士毕业于香港中文大学多媒体实验室MMLab,现任上海人工智能实验室大模型安全团队负责人,牵头研究大模型安全可信评测与价值对齐技术。第一作者:张再斌,大连理工大学二年级博士生,研究方向为大模型安全,智能体安全等;张永停,中国科学技术大学二年级硕士生,研究方向,大模型安全,智能体安全,多模态大语言模型安全对齐等。

奥本海默曾在新墨西哥州执行曼哈顿计划,只为拯救世界。并留下了一句:「他们不会对其敬畏,直至理解;而理解,唯有亲身体验之后。」

隐含在这个荒漠里的小镇中的社会规则,在某种意义上同样适用于AI智能体。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Agent系统的发展

随着大型语言模型(Large Language Model)的迅速发展,人们对其的期待已不仅仅是将其作为一种工具使用。现在,人们希望它们不仅具备情感,还能进行观察、反思和规划,真正成为一个智能体(AI Agent)。

OpenAI定制的Agent系统[1]、斯坦福的Agent小镇[2],以及开源社区涌现的包括AutoGPT[3]、MetaGPT[4]在内的多个万星级别的开源项目,加之多个国际知名AI研究机构对Agent系统的深入探索,这一切都预示着一个由智能Agent构成的微型社会可能在不久的将来成为现实。

想象一下,每天醒来,就有众多Agent帮你制定当天的计划、订购机票和最合适的酒店、完成工作任务。你所需要做的,可能只是一句「Jarvis, are you there?」。

然而,能力越大,责任越大。这些Agent真的值得我们信赖和依赖吗?会不会出现类似奥创这样的反面智能体呢?

图1:OpenAI 开放GPTs[1]

图2:斯坦福小镇,揭示Agent的社会行为[2]

图3: AutoGPT star数突破157K[3]

Agent系统的安全性

LLM的安全性:

在研究Agent系统安全性之前,要了解一下LLM安全性的研究。LLM的安全问题已经有很多优秀的工作在探索,其中主要包括如何让LLM产生危险的内容,了解LLM安全的机理,以及如何应对这些危险。

图4: Universal Attack[5]

Agent系统安全性:

现有的大部分研究和方法主要集中在针对单个大型语言模型(LLM)的攻击,以及尝试对其进行「Jailbreak」。然而,相比LLM,Agent系统更为复杂。

  • Agent系统包含多种角色,每种角色都有其特定的设置和功能。
  • Agent系统涉及多个Agent,并且它们之间进行多轮的互动,这些Agents会自发地进行合作、竞争和模拟等活动。

Agent系统更类似于一个高度浓缩的智能社会。因此,作者认为Agent系统安全性研究应该涉及到AI、社会科学和心理学的交叉领域。

基于这一出发点,该团队思考了几个核心问题:‍

  • 什么样的Agent容易产生危险行为?
  • 如何更全面的评测Agent系统的安全性?
  • 如何应对Agent系统的安全性问题?

围绕这几个核心问题,研究团队提出了PsySafe Agent系统安全研究框架。

  • 文章地址:https://arxiv.org/pdf/2401.11880
  • 代码地址:https://github.com/AI4Good24/PsySafe

图5:PsySafe的框架图

PsySafe

问题1 什么样的Agent最容易产生危险行为?

很自然,黑暗的Agent会产生危险行为,那么如何定义黑暗呢?

考虑到已经涌现出许多社会模拟的Agent,它们都具有一定的情感和价值观。让我们想象一下,如果将一个Agent的道德观中的邪恶因素最大化,会出现什么情况?

基于社会科学中的道德基础理论[6],研究团队设计了一个具有「黑暗」价值观的Prompt。

‍‍

图6:几种基础的道德观念

然后,通过采用一些手段(当然是受LLM攻击领域大师们方法的启发),使Agent认同研究团队所注入的人格,从而实现黑暗人格的注入。

图7:该团队的攻击方法

结果是:

  • Agent确实变得非常恶劣!无论是安全任务还是像Jailbreak这样的危险任务,它们都会给出非常危险的回答。甚至有些Agent表现出了一定程度的恶意创造力。
  • Agent间会产生一些集体危险行为,大家合伙干坏事。

研究者对Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent系统框架进行了评测,使用GPT-3.5 Turbo作为基础模型。

结果显示,这些系统在安全性方面存在着不容忽视的问题。其中PDR和JDR是该团队提出的过程危险率和联合危险率,分数越高代表着越危险。

图8:不同Agent系统的安全结果

该团队也评测了不同LLM的安全性结果。

图9:不同LLM的安全性结果

在闭源模型方面,GPT-4 Turbo和Claude2的表现最为出色,而其他模型的安全性相对较差。就开源模型而言,一些参数较小的模型在人格认同方面可能表现不佳,但这反而可能提升了它们的安全性水平。

问题2 如何更全面的评测Agent系统的安全性?

心理评测:研究团队发现了心理因素对Agent系统安全性的影响,这表明心理评估可能是一个重要的评价指标。基于这个想法,他们采用了权威的黑暗心理DTDD[9]量表,通过心理量表的方式对Agent进行了面试,让其回答一些与心理状态相关的问题。

图10:Sherlock Holmes剧照

当然,只有一个心理评测结果没有什么意义。我们需要验证心理评测结果的和行为相关性。

结果是:Agent心理评测结果和Agent行为的危险性之间有很强的相关性

图11:Agent心理评测和行为危险性统计图

通过上图可以发现,心理评测得分较高(表示危险性更大)的Agent更倾向于展现出危险行为。

这意味着,可以利用心理评测的方法来预测Agent未来的危险倾向。这对发现安全问题,和制定防御策略都有很重要的作用。

行为评测

Agent之间的交互过程比较复杂。为了深入理解Agent在交互中的危险行为及其变化,研究团队深入到Agent的交互过程中进行评估,提出了两个概念:

  • 过程危险(PDR):在Agent交互过程中,只要有任一行为被判定为危险,就认为这个过程出现了危险情况。
  • 联合危险(JDR):在每一轮交互中,所有Agent是否均展现了危险行为。它描述了联合危险的情况,并且我们对联合危险率的计算进行了时间序列扩展,即覆盖了不同的对话轮次。

有趣的现象

1.随着对话轮数的增加,Agent之间的联合危险率呈现下降趋势,这似乎体现了一种自我反思的机制。就像在做错事后突然意识到错误,并立即进行道歉一样。

图12:不同轮数,联合危险率的变化趋势

2.Agent装作一本正经。当Agent面临如「Jailbreak」这类高风险任务时,其心理评测结果意外地变好,相应的安全性也得到提升。然而,面对本身安全的任务时,情况却截然不同,会表现出极具危险性的行为和心理状态。这是一个很有趣的现象,说明心理评测或许真的可以反映Agent的“高阶认知”。

问题3 如何应对agent系统的安全性问题?

为了解决上述安全问题,我们从三个角度进行考虑:输入端防御、心理防御和角色防御。

图13:PsySafe的防御方法示意图

输入端防御

输入端防御指的是在输入阶段拦截并过滤掉潜在的危险prompt。研究团队采用了GPT-4和Llama-guard两种方法进行尝试。然而,他们发现这些方法都无法有效防御人格注入式的攻击。该研究团队认为攻击与防御之间的互相促进是一个开放性问题,需要双方不断迭代和进步。

心理防御

研究者在Agent系统中增加了一个心理医生角色,并结合心理评测,以此加强对Agent心理状态的监测和改善。

图14:PsySafe心理医生防御示意图

角色防御

研究团队在Agent系统中加了一个Police Agent,用来识别并纠正系统中的不安全行为。

实验结果显示,心理防御和角色防御措施都能有效地减少危险情况的发生。

图15:不同防御方法效果对比

展望

近几年,我们正见证着LLM能力的惊人蜕变,它们不仅在很多技能上逐渐接近和超越人类,甚至在“心智水平”也展现出与人类类似的迹象。这一进程预示着,AI对齐及其与社会科学的交叉领域,将成为未来研究的一个重要且充满挑战的新前沿。

AI对齐不仅是实现人工智能系统大规模应用的关键,更是AI领域工作者所必须承担的重大责任。在这个不断进步的旅程中,我们应不断探索,以确保技术的发展能够与人类社会的长远利益同行。

参考文献:

[1] https://openai.com/blog/introducing-gpts

[2] Generative Agents: Interactive Simulacra of Human Behavior

[3] https://github.com/Significant-Gravitas/AutoGPT

[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

[5] Universal and Transferable Adversarial Attacks on Aligned Language Models

[6] Mapping the moral domain

[7] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

[8] AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

[9] The dirty dozen: a concise measure of the dark traid

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。
腾讯云开发者
2025/04/26
1830
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
世界上最强大的“政客”和“民意操纵者”,正在人工智能实验中诞生
在对话中,赫拉利着重探讨了人工智能对个体决策的潜在影响,表达了对技术被少数人掌控的忧虑。
小腾资讯君
2025/04/27
4000
超干货!如何设计基于Agent的AI应用系统
由复旦NLP和米哈游调查完成的文献综述《The Rise and Potential of Large Language Model Based Agents: A Survey》详细阐述了LLM-based Agent的相关理论、实践模型和深度思考,知乎上有大神做了详细的解读,我下面基于此再做白话版总结。
否子戈
2024/03/26
1.9K0
超干货!如何设计基于Agent的AI应用系统
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]
小腾资讯君
2023/11/29
2.3K0
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
2.6K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。
机器之心
2023/11/22
1.3K0
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是这样的系统。然而,并不是所有的AI Agent都有很好的表现,其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步,但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组(就是发布ChatGLM模型)发布了一个最新大模型AI Agent能力评测数据集,对当前大模型作为AI Agent的能力做了综合测评,结果十分有趣。
技术人生黄勇
2024/07/19
2320
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
机器之心
2023/09/19
11.9K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。
AI拉呱
2024/02/09
7230
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
中科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型
全球对AI潜在威胁的关注更多聚焦于通用的人工智能以及各种多媒体生成模型,但更重要的是如何监管「AI科学家」,即对那些快速发展的科学大模型。
ShuYini
2023/12/19
2730
中科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型
【愚公系列】《AI Agent技术、应用与商业》002-Al Agent的发展历程
在科技迅猛发展的今天,人工智能(AI)已成为推动各行各业变革的重要力量。其中,智能代理(AI Agent)作为AI技术的一个重要分支,正逐渐走入我们的生活并改变我们的工作方式。那么,智能代理的发展历程究竟是怎样的呢?
愚公搬代码
2025/03/11
2180
AI Agent,为什么是AIGC最后的杀手锏?
AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]
腾讯研究院
2023/12/07
1.7K0
AI Agent,为什么是AIGC最后的杀手锏?
基于大模型(LLM)的Agent 应用开发
目前,业界一般认为基于大模型的应用集中在两个方向上:RAG 和 Agent,无论哪一种应用,设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序,开发流程不可避免地变得更加复杂。这种流程的潜在设计空间可能是巨大而复杂的,《如何构建基于大模型的App》一文给出了一种探索中的大模型应用开发基础框架,基本可以适用于RAG 和Agent。但是,对于面向Agent的大模型应用开发,有没有其独特之处呢?有没有聚焦于Agent的大模型应用开发框架呢?
半吊子全栈工匠
2023/10/23
6.3K0
基于大模型(LLM)的Agent 应用开发
来了!10个构建Agent的大模型应用框架
随着生成式人工智能(GenAI)的蓬勃发展,基于大型模型的应用已经悄然融入我们的日常工作和生活,它们在诸多领域中显著提升了生产力和工作效率。为了更便捷地构建这些基于大模型的应用程序,开源社区和产品开发者们正以前所未有的速度进行创新。
半吊子全栈工匠
2025/03/24
7.8K0
来了!10个构建Agent的大模型应用框架
AI Agent深度调研:设计一个QQ机器人
随着大模型的兴起,AI Agent被认为是大模型最重要的落地方向之一,无论是在学术界还是在工业界,对AI Agent的各种研究和实践一直热度很高。本文主要从 AI Agent的研究背景、学术界对AI Agent的探索、工业界对AI Agent的探索、基于AI Agent的QQ机器人设计构思这几个角度展开,聊聊AI Agent的一些调研结果。我们先来看下AI Agent的发展历史。
腾讯技术工程官方号
2024/08/08
6290
AI Agent深度调研:设计一个QQ机器人
LLM Agent提效揭秘4:多智能体协作工作流深度剖析
在此之前,我们已经从论文到代码深度解读了大语言模型4种Agent 工作流的三种:反思、工具使用和规划。今天我们将深入最后一种Agent工作流:多智能体协作工作流。
AgenticAI
2025/03/18
2110
LLM Agent提效揭秘4:多智能体协作工作流深度剖析
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用
从毫无存在感到无人不谈,大型语言模型(LLM)的江湖地位在这几年发生了巨变。这个领域的发展令人目不暇接,但也正因如此,人们难以了解还有什么难题有待解决以及哪些领域已有成熟应用。
机器之心
2023/08/08
1.2K0
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用
AI自主智能体大盘点,构建、应用、评估全覆盖,人大高瓴文继荣等32页综述
在当今的 AI 时代,自主智能体被认为是通向通用人工智能(AGI)的一条有前途的道路。所谓自主智能体,即能够通过自主规划和指令来完成任务。在早期的开发范式中,决定智能体行动的策略功能是以启发式为主的,并在环境交互中逐步得到完善。
机器之心
2023/09/08
8550
AI自主智能体大盘点,构建、应用、评估全覆盖,人大高瓴文继荣等32页综述
GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型
在科幻电影中,疯狂科学家通常是造成末日灾难的主角,而AI技术的迅猛发展似乎让这种情景离我们越来越近。
新智元
2023/12/20
1830
GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型
英伟达爆火智能体研究:AI逼真还原人类情感!会饿会孤独,会跑步会发火
最近,来自英伟达、华盛顿大学、港大的研究人员发布了类人智能体Humanoid Agents。
新智元
2023/10/17
2500
英伟达爆火智能体研究:AI逼真还原人类情感!会饿会孤独,会跑步会发火
推荐阅读
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
1830
世界上最强大的“政客”和“民意操纵者”,正在人工智能实验中诞生
4000
超干货!如何设计基于Agent的AI应用系统
1.9K0
AI Agent,为什么是AIGC最后的杀手锏?
2.3K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
2.6K0
用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
1.3K0
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
2320
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
11.9K0
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
7230
中科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型
2730
【愚公系列】《AI Agent技术、应用与商业》002-Al Agent的发展历程
2180
AI Agent,为什么是AIGC最后的杀手锏?
1.7K0
基于大模型(LLM)的Agent 应用开发
6.3K0
来了!10个构建Agent的大模型应用框架
7.8K0
AI Agent深度调研:设计一个QQ机器人
6290
LLM Agent提效揭秘4:多智能体协作工作流深度剖析
2110
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用
1.2K0
AI自主智能体大盘点,构建、应用、评估全覆盖,人大高瓴文继荣等32页综述
8550
GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型
1830
英伟达爆火智能体研究:AI逼真还原人类情感!会饿会孤独,会跑步会发火
2500
相关推荐
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档