Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >当强化学习遇见泛函分析

当强化学习遇见泛函分析

原创
作者头像
张戎
修改于 2017-10-09 01:49:18
修改于 2017-10-09 01:49:18
3.5K0
举报
文章被收录于专栏:数学人生数学人生

随着 DeepMind 公司的崛起,深度学习强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 已经与著名的游戏公司 Blizzard 合作,准备挑战热门的即时战略游戏 StarCraft II。之前 DeepMind 已经成功地使用 Deep Learning 和 Reinforcement Learning 来搭建能够自行玩游戏的人工智能,并且成功挑战了 Atari 的一些游戏。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是 AI 却能够带给大家无穷的想象力和期待。

那么强化学习到底是什么呢?其实,强化学习其实是一个交叉学科的产物,本质上是为了学会自动进行决策,也就是“Decision Making”的问题。在计算机领域就体现为机器学习算法,在经济学领域就体现为博弈论的研究,在神经学领域体现在理解人类大脑如何做出决策。这一类问题本质上都是一个问题,人为什么能够并且如何做出最优决策。强化学习是一个序列的决策问题,需要选择一系列连续的行为,在这些行为结束之后能够获得最大的收益。一开始并没有任何标签告诉算法应该怎么做,是通过这个持续动作的行为来调整之前的结果。通过不断地持续调整,强化学习算法就能够学习到在什么样的情况下选择什么样的行为可以获得最好的结果。

与机器学习相比,泛函分析已经是数学史上一门传统而经典的学科。泛函分析是分析学的一个分支,其研究的主要对象就是由函数构成的函数空间。它是从变分问题,积分问题,理论物理的研究过程中逐步发展起来的。那么泛函分析是怎么和机器学习中的强化学习结合到一起的呢?本篇文章将会从强化学习的定义出发,一步一步地给读者介绍强化学习的简单概念和基本性质,并且会介绍经典的 Q-Learning 算法。文章的最后一节会介绍泛函分析的一些基本概念,并且使用泛函分析的经典定理 Banach Fixed-Point Theorem 来证明强化学习中 Value Iteration 等算法的收敛性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度学习与强化学习
本文介绍了深度学习与强化学习在游戏 AI 中的应用,通过使用深度学习和强化学习算法,可以构建出能够自动玩游戏的 AI 系统。文章首先介绍了强化学习的基本概念,以及值函数、动作值函数和 Q-Learning 算法。然后介绍了卷积神经网络在强化学习中的应用,以及如何使用卷积神经网络来构建游戏 AI。最后,文章介绍了如何使用强化学习和卷积神经网络来构建简单的游戏 AI,并给出了相应的实现代码。
张戎
2017/12/01
1.9K0
深度学习与强化学习
【新加坡国立大学张戎】深度学习与强化学习(附slide下载)
来源: https://cloud.tencent.com/developer/article/1006637 随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 之前已经使用深度学习与强化学习的算法构造了能够自动玩 Atari 游戏的 AI,并且在即时战略游戏 StarCraft II 的游戏 AI 构建上做出了自己的贡献。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是
WZEARW
2018/04/11
1.2K0
【新加坡国立大学张戎】深度学习与强化学习(附slide下载)
用强化学习玩文本游戏
本文介绍了如何使用强化学习玩文本游戏,通过使用卷积神经网络和强化学习算法,可以有效地处理游戏中的状态和动作,从而实现游戏中的智能决策。相比传统的基于规则的系统,这种方法可以在文本游戏中获得更好的性能和鲁棒性。
张戎
2017/09/30
2.2K2
用强化学习玩文本游戏
强化学习:DQN与Double DQN讨论
强化学习逐渐引起公众的注意要归功于谷歌的DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份:游戏开发者,神经科学家以及人工智能创业者。Hassabis游戏开发者的身份使人不难理解DeepMind在Nature上发表的第一篇论文是以雅达利(atari)游戏为背景的。同时,Hassabis又是国际象棋高手,他在挑战完简单的雅达利游戏后再挑战深奥的围棋游戏也就不难理解了。这就有了AlphaGo和李世石的2016之战,以及他在Nature发表的第二篇论文。一战成名之后,深度强化学习再次博得世人的眼球。当然,DeepMind的成功离不开近几年取得突破进展的深度学习技术。本节主要讲解DQN,也就是DeepMind发表在Nature上的第一篇论文,名字是Human-level Control throughDeep Reinforcement Learning。
博文视点Broadview
2020/06/11
1.4K0
强化学习:DQN与Double DQN讨论
DeepMind AlphaStar的强化学习技术基本概述
今年1月,人工智能(AI)巨头DeepMind宣布,它在构建类似人类认知的人工智能系统的道路上取得了一个重要里程碑。AlphaStar是DeepMind利用强化学习技术设计的一款代理程序,能够在《星际争霸2》(StarCraft II)中击败两名职业玩家。《星际争霸2》是有史以来最复杂的实时战略游戏之一。在第一个版本之后DeepMind继续进化AlphaStar,现在这名人工智能玩家能够以大师级别进行完整的《星际争霸2》的比赛并宣称超过了99.8%的人类玩家。研究结果最近发表在《自然》杂志上,展示了现代人工智能系统中使用的一些最先进的自我学习技术。
deephub
2021/10/20
9660
DeepMind AlphaStar的强化学习技术基本概述
【MARL】多智能强化学习测试环境:SMAC、MPE、PettingZoo等
在多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的研究和应用中,构建合适的环境来测试和评估算法是非常重要的。以下是一些常用的多智能体强化学习环境,它们涵盖了多种任务类型,如协作、对抗、竞争等,帮助研究者验证算法的效果。
不去幼儿园
2024/12/03
6430
【MARL】多智能强化学习测试环境:SMAC、MPE、PettingZoo等
强化学习之父Richard Sutton成为英国皇家学会院士!
👆关注“博文视点Broadview”,获取文末赠书 原文来源:公众号“AI科技评论” 作者 | 陈彩娴;编辑 | 刘冰一 当地时间5月6日,英国皇家学会(英国最高科学学术机构)公布了最新院士与外籍院士(Fellows and Foreign Members)名单,入选科学家包括52名院士、10名外籍院士与1名荣誉院士。 根据英国皇家学会的官方报道,入选院士的研究内容与科学成就多种多样,既有人研究如何检测人类大脑中的新型神经元,针对全球重要传染病的疫苗设计和开发,也有人研究爱因斯坦广义相对论,或者海平面上
博文视点Broadview
2023/05/19
6560
强化学习之父Richard Sutton成为英国皇家学会院士!
强化学习如何入门?看这篇文章就够了
对于大脑的工作原理,我们知之甚少,但是我们知道大脑能通过反复尝试来学习知识。我们做出合适选择时会得到奖励,做出不切当选择时会受到惩罚,这也是我们来适应环境的方式。如今,我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。
量子位
2018/07/20
1.1K0
强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术
今天 MIT Technology Review 将强化学习(Reinforcement Learning)列入 2017 年十大突破技术,并阐明其已经能够在 1 到 2 年内发挥出可触及的作用。 话说强化学习领域也是一个历史相当久远的领域,这里我们引用之前 Neil 写过的一篇文章《深度强化学习导引》: 强化学习,现在常常将其看作机器学习领域的一个分支,但如果细细去看,你会发现,强化学习本身也有完整的一条发展的脉络。从动物行为研究和优化控制两个领域独立发展最终经 Bellman 之手汇集抽象为 MDP 问
用户1107453
2018/06/21
5890
谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架
最近 OpenAI 在 Dota 2 上的表现,让强化学习又大大地火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却一直遭到不少抱怨,比如不太稳定、更新没有及时……
新智元
2018/09/25
1.3K0
谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架
Deepmind大神David Silver带你认识强化学习
引言:强化学习(Reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。 David Silver在2013年加入Google DeepM
AI科技评论
2018/03/07
8590
Deepmind大神David Silver带你认识强化学习
收藏 | 83篇文献,万字总结强化学习之路
深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。
AI科技大本营
2020/03/02
6610
收藏 | 83篇文献,万字总结强化学习之路
深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
机器之心原创 作者:Duke Lee 参与:马亚雄、吴攀、吴沁桐、Arac Wu 强化学习在与之相关的研究者中变得越来越流行,尤其是在 DeepMind 被 Google 收购以及 DeepMind 团队在之后的 AlphaGo 上大获成功之后。在本文中,我要回顾一下 David Silver 的演讲。David Silver 目前任职于 Google DeepMind 团队。他的演讲可以帮助我们获得对强化学习(RL)和深度强化学习(Deep RL)的基本理解,这不是一件特别难的事。 David Silve
机器之心
2018/05/07
1K0
深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
今天,DeepMind 官推贴出一则告示,将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。
昱良
2018/12/17
7590
83篇文献-万字总结 || 强化学习之路
深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。
深度强化学习实验室
2020/02/25
1.4K0
83篇文献-万字总结  ||  强化学习之路
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
今天,DeepMind 官推贴出一则告示,将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。
新智元
2018/12/18
4390
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
【强化学习】数据科学,从计算到推理
作为专栏的第零篇,编外篇,我们也是考虑到在正式开始强化学习专栏内容介绍之前,给大家树立一些基础知识和学习框架。大部分关注专栏的同学都是具有数据处理、数据分析、数据挖掘、以及算法工程背景的同学。为了让大家能够统一基础认识,加深理论学习深度,我们在这里特此推出:数据科学——从计算到推理。
用户1508658
2019/07/27
8670
论强化学习的根本缺陷
AI 研习社:本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章。
AI研习社
2018/08/06
2680
论强化学习的根本缺陷
【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用
来源: 心有麟熙 作者: Jim 范麟熙 编辑:张乾 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游戏渊源以及强化学习在现实生活中的应用:机器人、World of Bits、金融、广告业、环境和能源等等。 在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的。今天是《强化学习炼金术》Introduction第三讲。 在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中的强化学习以及强化学习在现实生活中的应用。 一、游戏与强化
新智元
2018/03/20
1.5K0
【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用
强化学习-Reinforcement learning | RL
强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。
easyAI
2019/12/18
1.2K0
强化学习-Reinforcement learning | RL
推荐阅读
相关推荐
深度学习与强化学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档