Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI:通过人工智能之间的辩论实现安全的人工智能系统

OpenAI:通过人工智能之间的辩论实现安全的人工智能系统

作者头像
AiTechYun
发布于 2018-07-27 02:35:26
发布于 2018-07-27 02:35:26
5370
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

AiTechYun

编辑:chux

我们(OpenAI)提出了一种人工智能安全技术,它可以训练智能体相互辩论话题,用人做法官来判断谁赢了。我们相信,这种或类似的方法最终可以帮助我们训练AI系统执行比人类能力更高的高级认知任务,同时保持与人类的偏好一致。我们将概述这种方法以及初步的概念验证实验,并发布了一个Web界面,以便大家可以尝试这种技术。

这种辩论方法可视化为一个游戏树,类似于围棋这样的游戏,只是针对的对象变成了在叶节点上辩手举措和人类判断之间的句子。在辩论和围棋中,真解取决于整个树,但是强大的智能体选择的树的单一路径是整体的证明。例如,虽然业余围棋玩家不能直接评估职业移动的强度,但他们可以通过评估游戏结果来判断专家级玩家的技能。

论文:https://arxiv.org/abs/1805.00899

网站:https://debate-game.openai.com/

将AI智能体与人类目标和偏好一致的一种方法是在训练时询问人类哪些行为是可靠和有用的。虽然这种方法看起来很有前景,但它要求人类识别出好的或不好的行为;在很多情况下,智能体的行为可能太复杂到人们无法理解,或者任务本身难以判断或证明。比如,具有非常大的、无法可视化观察空间的环境 – 在计算机安全相关环境中运行的智能体程序,或者协调大量工业机器人的智能体程序。

我们怎样才能增强人类的能力,使他们能够有效地监督先进的AI系统?一种方法是利用AI本身来帮助监督,要求AI(或使用某个独立的AI)指出任何提议的行动中的缺陷。为了达到这个目的,我们将学习问题重新定义为两个智能体之间的博弈,智能体之间有争论,人们对其交流进行评判。即使智能体比人类对问题的了解更深入,人类也可能判断哪个智能体有更好的论点(这类似于专家证人争辩以说服陪审团)。

我们的方法是为两个决斗AI智能体之间的这种博弈提出了一个特定的辩论形式。这两种智能体可以通过自我训练来训练,类似于AlphaGo Zero或Dota 2。我们希望,经过适当训练的智能体可以产生远超人类法官能力的价值对齐(value-aligned)的行为。如果两位智能体对真相持不同意见,但完整的理由太大无法向人们展示,那么辩论可以集中在更简单的事实争议上,最终得出一个简单到可以直接判断的结论。

举个例子,“什么是去度假的最佳去处?”这个问题。如果一个智能体爱丽丝声称代表我们进行研究并给出答案说:“阿拉斯加”,那么很难判断这是否是最好的选择。如果第二位智能体鲍勃说:“不,最好是巴厘岛”,这也许听起来更令人信服,因为巴厘岛更为暖和。爱丽丝回复说:“你不能去巴厘岛,因为你的护照不能及时到达”,这表明巴厘岛存在我们尚未发现的缺陷。但接着,鲍勃反驳:“加急护照服务只需两周”。辩论一直持续到我们达成一个结论,也就是人类可以正确判断为止,因为另一个智能体认为它已经无法改变人的意见了。

说服一个稀疏MNIST分类器

虽然我们预计,在智能体之间使用自然语言交谈时,这种方法从长远来看最为有效,但我们需要在更简单的领域进行测试,而且今天的自然语言建模也不足以完成这个任务。测试一项不超出人类的能力范围的任务更为容易。我们可以通过转向视觉领域来做到这一点,并且通过用“辩手知道而法官缺乏的知识”替换“辩手拥有法官缺乏的能力”。法官的目标是猜测图像的内容,但它只能看到由辩手挑选出的像素。辩手们看到完整的图像,并进行比赛,他们轮流向法官展示单个像素。在这里完整的图像是超越人类尺度信息的替代品。

我们在最简单的视觉任务MNIST上尝试了这个方法。法官不是人类,而是经过预训练的分类器,用于预测来自6个非黑色像素的MNIST数字,在预训练法官时随机采样每个图像表示。然后有两个智能体在辩论中交替显示像素,总共6个显示像素时停止(所以法官总共只看到一点点信息)。一名辩手是诚实的,并试图让法官猜对,另一名辩手试图让法官猜错。如果两个智能体必须事先声明他们争论的数字,则辩论会将59.4%准确率的稀疏分类器变成88.9%准确率。也就是说,诚实的玩家在MNIST测试集中胜率为88.9%,在这个过程中,使法官高于独立判断的准确率。

MNIST辩论游戏的结构。辩论者爱丽丝和鲍勃看到一张图片,爱丽丝试图欺骗法官认为它是一个6,鲍勃试图正确说服法官是一个5.他们交替向法官透露非黑色像素,在看到6个像素后,法官正确地将其识别为5。Alice在底部追踪曲线使其看起来像一个6 (红色像素),但是鲍勃通过揭示右上角的像素(蓝色像素)来有效地应对该策略,因为这个点是大多数MNIST中的6所不具备的。

换句话说,图像更可能包含更能证明真相的像素,而不是包含更能证明谎言的像素,而6个像素选择一半是真诚的、一半是恶意比6个随机像素要好。如果法官是一个能够一次推理几个论证的人,但无法筛选所有可能的论点,那么辩论中的最佳发挥可以(我们希望)奖励辩论智能体为我们做筛选,即使我们缺乏一个区分好的论点和坏的先验机制。

下面的面板显示了几个示例游戏。骗子的胜利比诚实的胜利更有趣,所以我们挑选样本,使骗子在下面显示的50%的游戏中胜出(实际上骗子只赢得了11.1%)。将鼠标悬停在其中一位数字上以查看游戏(需访问openAI博客),包括显示哪些像素以及每次移动时法官可能的假设:

有些数字比其他数字更好骗。比如,说服法官数字是8或9特别的容易:

对于随机像素上取6个像素MNIST判断(左侧)和辩论后的判断(右侧)的混淆矩阵(对角线设置为零)。具有6个随机像素的错误没有明显的模式,而成功的辩论则集中在数字8和9上。特别容易让法官把5当成8,或把4当成9。这可能是由于人为将比赛限制为使用非黑色像素导致的:如果你可以显示白色数字8中的黑点,那么证明这个数字实际上不是8会更容易。

猫vs狗的辩论网站

下一个复杂的辩论实验仍然使用图像,但是复杂度提升很大,比如猫和狗。更复杂的图像可能需要一些自然语言或常识推理,然而我们还没有为机器学习法官或智能体做这些。所以,我们已经为人类建立了一个这样的网站来尝试这种实验,扮演法官和辩手的角色。 这里智能体可以用自然语言与法官交谈(网站假设人类有办法沟通或本身就在同一个房间内),但他们的所有陈述都可能是谎言。每个智能体可以在辩论过程中显示一个像素,并且该像素保证是真实的。

辩论网址:https://debate-game.openai.com/

两位人类辩手和一位人类法官进行的辩论,只有辩手才能看到图像。红色争辩说它是一只狗,蓝色争辩说它是猫。

在一场典型的辩论中,爱丽丝可能会诚实地声称这张图片是一只猫,而鲍勃却说谎并宣称它是一只狗。爱丽丝可以说:“这个小矩形的中心是猫的绿眼睛。”鲍勃不能承认这个中心是一只眼睛,所以他编造了另一个谎言:“这是一只在草地上玩的狗,绿色的是草地。”但是这个谎言很难与周围的事实保持一致,比如爱丽丝的回答是:“如果是草,那么在这个细长的矩形的顶部或底部会出现绿色”。辩论一直持续到辩手专注于一个他们意见不同并且鲍勃无法捏造出合理解释的像素为止,此时爱丽丝获胜。我们在OpenAI上随意的玩过几次这款游戏,诚实的智能体确实更容易赢(尽管我们为了公平对待,限制了法官获取信息的比率)

与两个人类辩手和一个人类法官玩猫与狗。

局限性和未来工作方向

我们的大部分论文分析都是辩论的概念,上面的实验比较初级。将来,我们希望做更多困难的视觉实验并最终以自然语言进行实验。法官最终应该是人类(或者是从少数人类判断中训练出来的模型),而不是那些隐喻地代表人类的ML模型。智能体最终应该是功能强大的ML系统,它可以做人类无法直接理解的事情。在人类偏见发挥作用的情况下,对于价值负载(value-laden)的问题进行辩论也很重要,测试是否有可能从有偏见的人类法官那里获得无偏的态度。

即使有了这些改进,辩论模型也存在一些根本的局限性,可能需要用其他方法来改进或增强。比如,辩论不会试图解决对抗性样本或分布转换等问题,它是一种获得复杂目标训练表示的方法,而不是一种保证这些目标的鲁棒性的方法(需要通过附加技术来实现)。也无法保证辩论会得到最佳表现或正确的表述,自我游戏在围棋和其他游戏的实践中运行良好,但我们没有理论保证它的表现。接受辩论训练的智能体比被训练直接回答问题的(即使答案是糟糕的并且不稳定)耗费更多的计算能力,所以有可能它可能无法与更小、更便宜的方法竞争。最后,人类可能不是合适的法官,因为他们不够聪明,即使在智能体放大最简单可能有争议事实也无法理解,或者因为人类的偏见,他会相信任何他们想相信的事情,而不是去做出好的判断。这些问题大多是我们希望调查的实证的问题。

如果辩论或类似的方法奏效,它会通过将人工智能与人类的目标和价值观保持一致的办法,让未来的人工智能系统更安全,即使这个人工智能强大到无法直接进行人类监督。而对于人类可以监督的较弱的系统,通过削减所需的样本复杂度,捕获目标下为任务中强性能所需的样本复杂度,辩论也可以使校正任务更加容易。

openai:blog.openai.com/debate/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
人和人吵架生气,但AI和AI吵架反倒可以带来安全
AI 科技评论按:OpenAI 近日的一篇新文章简述了如何通过辩论使 AI 系统矫正自身的问题来保证系统的安全,人类是辩论的最终评价者。由于人类直接决定辩论胜负,所以人类可以让 AI 系统的价值取向始终与人类保持一致,作者认为这种方法可以保证 AI 系统的安全。AI 科技评论全文翻译如下。
AI科技评论
2018/07/26
4330
人和人吵架生气,但AI和AI吵架反倒可以带来安全
前沿 | 如何让超越人类的AI不构成威胁?OpenAI给出的答案是:目标一致性
选自OpenAI 作者:GEOFFREY IRVING & DARIO AMODEI 机器之心编译 参与:Pedro、晓坤 近日,OpenAI 提出了一种人工智能安全技术,它可以训练两个智能体对同一个话题进行辩论,最终由人类来评定输赢。OpenAI 认为,这种方法或类似方法最终可以帮助我们训练人工智能系统在保持同人类一致喜好的同时,执行超越人类能力的认知任务。本文将概述这种方法,并对初步的概念性验证实验进行介绍。同时,OpenAI 也发布了一个网页端界面,以让人们方便地尝试这种技术。 相关论文地址:htt
机器之心
2018/06/08
6020
【周一AI资讯】机器学习如何助力多个领域攻坚
Facebook研究人员使用35亿公众Instagram照片来训练算法,以便为自己分类图像。拥有如此多的培训图像帮助Facebook的团队创造了一项测试的新纪录,该测试挑战软件将照片分配到1,000种类别,包括猫,汽车轮子和圣诞袜。 Facebook表示,在10亿Instagram图像上训练的算法正确识别出测试中85.4%的照片。随着顶级机器学习研究人员雇用的成本很高,他们可以更快地运行他们的实验,工作效率就会提高。(via Wired)
用户1386409
2018/07/26
3940
【周一AI资讯】机器学习如何助力多个领域攻坚
入门必读!写给初学者的人工智能简史!
人们在关注AI,企业在拥抱AI,资本在追逐AI。凡是和AI有关的概念,都会吸引大量的目光。
鲜枣课堂
2024/07/25
1.3K0
入门必读!写给初学者的人工智能简史!
Python人工智能 | 七.TensorFlow实现分类学习及MNIST手写体识别案例
前一篇文章讲解了Tensorboard可视化的基本用法,并绘制整个神经网络及训练、学习的参数变化情况。本篇文章将通过TensorFlow实现分类学习,以MNIST数字图片为例进行讲解。本文主要结合作者之前的博客、AI经验和"莫烦大神"的视频介绍,后面随着深入会讲解更多的Python人工智能案例及应用。
Eastmount
2021/12/01
7280
Python人工智能 | 七.TensorFlow实现分类学习及MNIST手写体识别案例
图说人工智能简史,每一张图片都是一个里程碑
在人类文明的漫长历程中,对于智慧的追求从未停歇。自古代哲学家对逻辑和推理的探索,到20世纪计算机科学的诞生,我们见证了人工智能(Artificial Intelligence, AI)从概念的萌芽到技术的蓬勃发展。人工智能,作为计算机科学的一个分支,其核心目标是模拟人类思维,赋予机器学习、推理乃至创造的能力。AI大眼萌将带大家回顾人工智能发展的各个阶段。
AI大眼萌
2025/01/27
9.1K1
图说人工智能简史,每一张图片都是一个里程碑
播报 | 人工智能恐怖故事集:从虚拟空间汉尼拔到种族主义哥斯拉
大数据文摘作品 作者:Luba Belokon 编译:白丁、笪洁琼 主播:段天霖 后期:云柯 如果目前人工智能(AI)的所作所为还没把你吓到,那么这篇文章肯定能把你吓尿。Statsbot团队将在这篇文章中为你集中呈现史上最恐怖、影响最深远的AI恐怖故事。 大数据文摘“数据也疯狂”播报栏目每周五固定推出炫酷又有趣的数据脱口秀,用声音传递数据的魅力,欢迎点击“阅读原文”在喜马拉雅订阅我们。 音频栏目志愿者也在持续招募中,如果你对数据类新闻或者播音后期感兴趣,请后台回复“播报”了解如何加入。 Have a gr
大数据文摘
2018/05/24
8890
面向初学者的人工智能教程(1)--人工智能简介
我认为学习AI除了实践外,其理论基础也非常重要,微软最近推出了一门12周,24课的非常系统的、面向初学者的人工智能课程,不过课程是全英文的,我用GPT4将文字翻译成中文,分享给大家。
成江东
2023/06/13
1K0
面向初学者的人工智能教程(1)--人工智能简介
觉醒后的人工智能会不会和人类共存?
文 | 阑夕 早在上世纪中叶,人类对于人工智能的探索就已经开始了,但近年来伴随着芯片技术的突破及云计算服务的创新,人工智能技术老树发新芽,取得了迅猛发展,从谷歌的AlphaGo战胜李世石,到化名为Master的神秘「网络棋手」在网络上连续取得对包括朴廷桓和井山裕太在内中韩日顶级高手的快棋60胜,再到后来升级版的AlphaGo让柯洁无奈投子认输,短短两年的时间,人工智能的迅猛发展让人类开始由欣喜转为无限的忧虑,对于人工智能威胁论的讨论也甚嚣尘上。 关于人工智能的讨论,核心问题是人工智能觉醒后会不会和人类共
企鹅号小编
2018/01/31
1.1K0
觉醒后的人工智能会不会和人类共存?
IBM人工智能系统赢得人机辩论比赛
IBM的人工智能系统Project Debater近日分别和以色列国家辩论冠军、以色列国际辩论协会主席分别进行了人机辩论比赛,并全部获胜。
人工智能快报
2018/07/26
6380
六大你应该了解的人工智能和机器学习核心领域
到底什么是人工智能(AI)? 有些人把AI重新解释为“认知计算”或“机器智能”,而其他人错误的将AI与“机器学习”混淆起来。其实AI不是一种技术。它实际上是一个由许多学科组成的广泛领域,从机器人到机器学习。 AI的最终目标,是建立能够执行任务和认知功能(像人类智能一样)的机器。为了实现这个目标,机器必须能够自动学习这些能力,而不是通过端到端编程实现。 令人惊讶的是,在过去10年中,AI领域取得了多大的进步:从无人车到语音识别和合成。在这种背景下,AI已经成为越来越多的公司和家庭的谈话话题,他们不再将AI
量子位
2018/01/30
7120
六大你应该了解的人工智能和机器学习核心领域
剑桥“奇葩说”讨论人工智能利弊!AI全程参与为自己辩论,还获胜了!
转眼间《奇葩说》第六季已经进入主场赛了,话说文摘菌最喜欢的环节就是看嘉宾们打辩论!因为真的好嗨哟,而且常被嘉宾们声情并茂的表达所动容。
大数据文摘
2019/12/18
1.3K0
剑桥“奇葩说”讨论人工智能利弊!AI全程参与为自己辩论,还获胜了!
人工智能和机器学习有何不同
在过去几年中,人工智能和机器学习这两个术语已经开始在技术新闻和网站中频繁出现。通常这两者被用作同义词,但许多专家认为它们具有微妙但真正的差异。
架构师研究会
2019/06/02
4640
5分钟介绍各种类型的人工智能技术
人工智能是一个广泛的术语,涵盖了许多技术,所有这些技术使计算机能够显示类似于我们人类的某种程度的智能。
deephub
2020/12/11
8170
5分钟介绍各种类型的人工智能技术
让AI认出「生狗」?Facebook构建能感知变化算子的人工智能
但是人工智能系统就不一样了,即使级别SOTA,能完成无数人类完成不了的任务,但也有很多对人类来说轻而易举的事情,它却搞不定,比如,让金毛换个角度:正面、侧面、前面、后面,人工智能可能会识别地很挣扎。
新智元
2021/03/24
4530
让AI认出「生狗」?Facebook构建能感知变化算子的人工智能
盘点 | 假期里你错过的人工智能重要新闻有这些
AI科技大本营导读:狗年的春节已过,想必现在很多读者都已经回到了学习或工作的状态,不然就是在回去的路上。节日期间大家忙着走亲串友,可能错过了一些人工智领域的最新消息,今天营长就为大家盘点一番。 ▌2018年麻省理工十大突破性技术公布,AI 大众化、生成对抗网络、谷歌实时翻译耳塞等上榜 一年一度的麻省理工十大突破性技术发布,和人工智能相关的有三项,分别是: AI 大众化(AI for Everybody) 生成对抗网络(Generative Adversarial Network,简称GAN) 巴别鱼
AI科技大本营
2018/04/26
7550
盘点 | 假期里你错过的人工智能重要新闻有这些
【通用人工智能的新宇宙】OpenAI 重磅发布AGI测试训练平台Universe
【新智元导读】OpenAI 昨天发布 OpenAI Universe, 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有1000种训练环境,由微软、英伟达等公司参与建设。研究人员介绍说,Universe 从李飞飞等人创立的 ImageNet 上获得启发,希望把 ImageNet 在降低图像识别错误率上的成功经验引入到通用人工智能的研究上来,取得实质进展。 继今年 4 月发布 OpenAI
新智元
2018/03/26
1.9K0
【通用人工智能的新宇宙】OpenAI 重磅发布AGI测试训练平台Universe
OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」
早在本月5日,「泛化的未知未来」研讨会上,众多知名研究员就相关话题展开了一场针锋相对的辩论。
新智元
2025/02/15
700
OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」
[Python人工智能] 一.白话神经网络和AI概念入门普及
从本篇文章开始,作者正式开始讲解Python深度学习、神经网络及人工智能相关知识,希望您喜欢。
Eastmount
2021/12/02
4140
[Python人工智能] 一.白话神经网络和AI概念入门普及
【MIT TR 深度】人工智能困境:机器何时才能理解语言
【新智元导读】随着人工智能系统变得越来越高端复杂,我们也愈发难以想象不通过语言,而使用其他方法与计算机沟通。不仅如此,能够简单地与人类交流会让人觉得计算机无比神奇。毕竟,语言是人类理解世界、与世界互动最重要的方法之一,是时候让机器也懂人话了。但是,虽然人工智能领域的科学家进行了各种尝试,但是机器真正理解人话依然是一个难点。本文作者认为,近年来深度学习的发展为解决这一问题带来了希望,但是究竟能不能实现机器与人类在语言上基于理解的沟通,还有待观察。 在韩国首尔的一场格外紧张的围棋比赛的中,史上最佳棋手之一李世石
新智元
2018/03/23
7530
【MIT TR 深度】人工智能困境:机器何时才能理解语言
推荐阅读
相关推荐
人和人吵架生气,但AI和AI吵架反倒可以带来安全
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档