前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

作者头像
大数据文摘
发布于 2023-02-23 08:16:36
发布于 2023-02-23 08:16:36
3290
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘转载自HyperAI超神经

北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。

DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题,发展还需通用算法

强化学习使得计算机可以通过互动解决某一任务,如 AlphaGo 在围棋比赛中战胜人类,OpenAI Five 在 Dota 2 中战胜业余人类玩家。

OpenAI Five 在比赛中战胜人类玩家

研发团队与人类玩家合照

然而,要想将算法应用于新的应用场景,如从棋盘游戏转到视频游戏或机器人任务,就需要工程师不断开发专门的算法 (specialized algorithms),如连续控制、稀疏奖励、图像输入以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法,极大阻碍了模型的扩展。创建无需调优就能学习掌握新 domain 的通用算法,成为扩大强化学习应用范围、解决决策问题的重要途径。

由此,由 DeepMind 和多伦多大学联合研发的 DreamerV3 应运而生。

DreamerV3:基于世界模型的通用算法

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩展的算法,能在固定超参数的前提下,应用于广泛域 (domain),比专门的算法更出色。

这些 domain 包括连续动作 (continuous action) 和离散动作 (discrete action),视觉输入和低维输入,2D 世界和 3D 世界,不同的数据预算、奖励频率和奖励尺度等。

DreamerV3 通用算法与专门算法性能对比

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:

1、world model:预测潜在动作的未来结果

2、critic:判断每种情况的 value

3、actor:学习如何使有价值的情况成为可能

DreamerV3 的训练过程

如上图所示,world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出,并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的抽象表征 trajectory 中学习。

为了更好地适应跨域任务,这些组件需要适应不同的信号强度 (signal magnitudes),并在其目标中稳健地平衡 terms。

工程师在超过 150 个固定参数的任务上对 DreamerV3 进行了测试,并与文献中记载的最佳方法进行比较,实验表明,DreamerV3 对于不同 domain 的任务,均具备较高通用性和可扩展性。

基准概览

所有 agent 都是在 NVIDIA V100 GPU 上训练

DreamerV3 在 7 个基准测试中都取得了优异成绩,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具备一定的局限性,例如当 environment steps 在 1 亿以内时,算法并不能像人类玩家一样,在所有场景中都捡到钻石,而是偶尔捡到。

完整论文详见:

https://arxiv.org/pdf/2301.04104v1.pdf

站在巨人的肩膀上,回顾Dreamer家族发展史

 一代目:Dreamer

发布时间:2019 年 12 月

参与机构:多伦多大学、DeepMind、Google Brain

论文地址:

https://arxiv.org/pdf/1912.01603.pdf

算法简介:

Dreamer 是一个强化学习 agent,可以仅通过 latent imagination 从图像中解决 long-horizon 任务。

它基于模型预测的反向传播,来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。

Dreamer 与当时主流方法的性能比较

Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108 步之后为 786。

二代目:DreamerV2

发布时间:2020 年 10 月

参与机构:Google Research、DeepMind、多伦多大学

论文地址:

https://arxiv.org/pdf/2010.02193.pdf

算法简介:

DreamerV2 是一个强化学习 agent,可以从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注:该 world model 使用离散表征,并且与策略分开训练。

DreamerV2 是第一个通过在单独训练的 world model 中学习行为,在 Atari 基准的 55 项任务中达到人类水平的 agent。在相同的计算预算和 wall-clock time 情况下,DreamerV2 达到了 2 亿帧,超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外,DreamerV2 也适用于有连续动作的任务,它学习了一个复杂的类人型机器人的 world model,只通过像素输入就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分

推特网友评论区带头玩梗

对于 DreamerV3 的诞生,不少网友也在 DeepMind 推特留言区抖起了机灵。

解放人类,再也不用玩「我的世界」了。

别光顾着玩游戏了,干点正事儿吧!@DeepMind 和 CEO Demis Hassabis

「我的世界」终极 BOSS 末影龙瑟瑟发抖中。

近年来,游戏「我的世界」已成为强化学习研究的一个焦点,围绕在「我的世界」中进行钻石收集的国际竞赛已经举办多次。

在没有人类数据的情况下解决这一挑战,被广泛认为是人工智能的一个里程碑,因为在这个程序生成的开放世界环境 (open-world environment) 中,奖励稀少、探索困难、时间跨度长,这些障碍的存在使得先前的方法都需要基于人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的世界」中完全自学收集钻石的算法,它使得强化学习的应用范围进一步扩大,正如网友们所说,DreamerV3 已经是个成熟的通用算法了,该学会自己挂机升级打怪,跟终极 BOSS 末影龙对线了!

点「在看」的人都变好看了哦!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
机器之心报道 编辑:杜伟、泽南 通用 AI 的重要里程碑。 通用智能需要解决多个领域的任务。人们认为强化学习算法具有这种潜力,但它一直受到为新任务调整所需资源和知识的阻碍。在 DeepMind 的一项新研究中,研究人员展示了基于世界模型的通用可扩展的算法 DreamerV3,它在具有固定超参数的广泛领域中优于以前的方法。 DreamerV3 符合的领域包括连续和离散动作、视觉和低维输入、2D 和 3D 世界、不同的数据量、奖励频率和奖励等级。值得一提的是,DreamerV3 是第一个在没有人类数据或主动教育
机器之心
2023/03/29
2620
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面
鱼羊 Alex 发自 凹非寺 量子位 | 公众号 QbitAI 又一个AI老大难问题,被DeepMind攻克了: 一只名叫DreamerV3的AI,在啥也不知道的情况下被丢进《我的世界》(MineCraft)里,摸爬滚打17天,还真就学会了如何从0开始挖钻石。 △就是从撸树开始的那种 要知道,之前为了攻克这个问题,CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了个比赛,叫MineRL。 结果搞了三四年,AI们也没能在不参考人类经验的情况下,完成挖钻石任务。 此前表现最好的VPT选手
量子位
2023/02/28
3800
在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
在刚刚登上Nature的论文中,谷歌DeepMind的智能体通过纯·自我学习,顺利完成了收集钻石的任务。
新智元
2025/04/04
1180
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
我“AI”发文——DeepMind在强化学习领域的最新突破
DeepMind 作为 AI 研究领域的领导者,一直专注于强化学习(Reinforcement Learning, RL)技术的创新,并在游戏、机器人、科学计算等多个领域取得了显著的突破。近年来,DeepMind 进一步推动了强化学习的发展,提出了更高效、更稳定、更具泛化能力的 RL 算法,并成功应用于现实世界的复杂问题。本文将详细解析 DeepMind 在强化学习领域的最新突破,并结合具体案例分析其影响。
LucianaiB
2025/03/25
2520
超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!
DeepSeek R1与OpenAI o系列模型的爆发,掀起了人工智能领域的新一轮浪潮。
新智元
2025/03/03
1540
超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!
谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet,数据效率再创新高
去年,谷歌、DeepMind联手推出基于模型的强化学习智能体PlaNet,能解决各种基于图像的控制任务,性能可媲美当时最先进的无模型智能体,并且在数据效率上提升50倍,为强化学习带来了新的突破。
代码医生工作室
2020/03/24
7410
谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet,数据效率再创新高
开源世界模型dreamerv3 大杀器收集钻石不用GPT外挂
第一个在没有人类数据或课程的情况下从头开始在 Minecraft 中收集钻石的算法
CreateAMind
2023/09/01
5850
开源世界模型dreamerv3 大杀器收集钻石不用GPT外挂
谷歌大脑和DeepMind联合发布离线强化学习基准,将各种RL研究从线上转为线下
最近,Google Brain和DeepMind联合提出了一个称为RL Unplugged的基准,以评估和比较离线RL方法。RL Unplugged包含来自多个领域的数据,包括游戏(例如Atari基准测试)和模拟的电机控制等(例如DM Control Suite)。
新智元
2020/06/30
8630
谷歌大脑和DeepMind联合发布离线强化学习基准,将各种RL研究从线上转为线下
强化学习如何入门?看这篇文章就够了
对于大脑的工作原理,我们知之甚少,但是我们知道大脑能通过反复尝试来学习知识。我们做出合适选择时会得到奖励,做出不切当选择时会受到惩罚,这也是我们来适应环境的方式。如今,我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。
量子位
2018/07/20
1.1K0
DeepMind AlphaStar的强化学习技术基本概述
今年1月,人工智能(AI)巨头DeepMind宣布,它在构建类似人类认知的人工智能系统的道路上取得了一个重要里程碑。AlphaStar是DeepMind利用强化学习技术设计的一款代理程序,能够在《星际争霸2》(StarCraft II)中击败两名职业玩家。《星际争霸2》是有史以来最复杂的实时战略游戏之一。在第一个版本之后DeepMind继续进化AlphaStar,现在这名人工智能玩家能够以大师级别进行完整的《星际争霸2》的比赛并宣称超过了99.8%的人类玩家。研究结果最近发表在《自然》杂志上,展示了现代人工智能系统中使用的一些最先进的自我学习技术。
deephub
2021/10/20
9790
DeepMind AlphaStar的强化学习技术基本概述
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。
AI科技大本营
2021/10/14
5840
通用强化学习用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!
然而事实并非如此,虽然「深蓝」是一段精心编制的程序,但这种方法过于劳动密集,过于依赖清晰的规则和有限的可能性,无法迁移到更复杂的游戏中,更不用说现实世界了。
新智元
2020/07/28
6370
通用强化学习用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!
资源 | DeepMind开源强化学习研究环境Control Suite
选自GitHub 机器之心编译 参与:路雪、李泽南 DeepMind 最近开源的强化学习环境 Control Suite 相比 OpenAI Gym 拥有更多的环境,更易于阅读的代码文档,同时更加专注
机器之心
2018/05/10
1.3K0
【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
【新智元导读】继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。
新智元
2018/07/31
6320
【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
深度强化学习试金石:DeepMind和OpenAI攻克蒙特祖玛复仇的真正意义
【新智元导读】《蒙特祖玛的复仇》是一个出了名困难的游戏,是强化学习的一大挑战。本文作者长期从事深度强化学习研究,他认为DeepMind和OpenAI攻克蒙特祖玛的复仇并没有看上去意义那么重大,深度强化学习的长期目标是让智能体具备先验知识,可以从零开始玩游戏。
新智元
2018/08/01
1.1K0
深度强化学习试金石:DeepMind和OpenAI攻克蒙特祖玛复仇的真正意义
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
对于精通围棋、星际争霸 2 以及其他游戏的深度强化学习模型而言,关键的挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难,在现实世界中,情况比训练 AI 模型的环境复杂得多且不可预测。
代码医生工作室
2021/09/30
4300
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.6K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
让你的火柴人动起来!DeepMind发布强化学习环境dm
来源:DeepMind 编译:Bot 编者按:今天,DeepMind发表了一篇名为DeepMind Control Suite的论文,并在GitHub上发布了控制套件dm_control——一套由Mu
企鹅号小编
2018/01/04
2.6K0
让你的火柴人动起来!DeepMind发布强化学习环境dm
论强化学习的根本缺陷
AI 研习社:本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章。
AI研习社
2018/08/06
2750
论强化学习的根本缺陷
DeepMind提出强化学习新方法,可实现人机合作
本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。
深度学习与Python
2021/12/22
4110
DeepMind提出强化学习新方法,可实现人机合作
推荐阅读
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
2620
在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面
3800
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
1180
我“AI”发文——DeepMind在强化学习领域的最新突破
2520
超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!
1540
谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet,数据效率再创新高
7410
开源世界模型dreamerv3 大杀器收集钻石不用GPT外挂
5850
谷歌大脑和DeepMind联合发布离线强化学习基准,将各种RL研究从线上转为线下
8630
强化学习如何入门?看这篇文章就够了
1.1K0
DeepMind AlphaStar的强化学习技术基本概述
9790
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
5840
通用强化学习用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!
6370
资源 | DeepMind开源强化学习研究环境Control Suite
1.3K0
【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
6320
深度强化学习试金石:DeepMind和OpenAI攻克蒙特祖玛复仇的真正意义
1.1K0
DeepMind的新强化学习系统是迈向通用AI的下一步吗?
4300
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.6K0
让你的火柴人动起来!DeepMind发布强化学习环境dm
2.6K0
论强化学习的根本缺陷
2750
DeepMind提出强化学习新方法,可实现人机合作
4110
相关推荐
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档