前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >游戏AI领域,机器人技术的研究与应用

游戏AI领域,机器人技术的研究与应用

作者头像
IT大咖说
发布于 2018-07-30 02:44:18
发布于 2018-07-30 02:44:18
7310
举报
文章被收录于专栏:IT大咖说IT大咖说

内容来源:2018 年1月5日,深奇智慧联合创始人高扬在“2018移动技术创新大会”进行《游戏机器人的研究与应用》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。

阅读字数:3044 | 8分钟阅读

摘要

伴随着人工智能的出现,越来越多的公司把它运用到工作生产中,游戏机器人的研究和应用也受到一些人的关注。本次演讲将分享那些在游戏AI领域所使用的技术,包括CNN和DQN等。

嘉宾演讲视频回放及PPT,请复制链接:http://t.cn/RgvC3lk,粘贴至浏览器地址栏即可。

游戏AI的种类和演变过程

NPC驱动

游戏中的人工智能主要指的是NPC(无用户角色)。游戏的杂兵是低级NPC,都是事先编好行进路线,用事件驱动其出现或生效。单机游戏群战中的配合型NPC则是中级NPC,比如仙剑中的队友,他们由一定事先编好的策略驱动,有一定的事先设定的应变能力,但是一般场景都会比较单一,确定。

网游中的高级团战英雄相当于高级NPC,有着复杂且变化多样的场景,动作丰富且评价模式也相对复杂。最后就是特高级NPC,一般都是高级益智玩具类型,比如带有博弈心态的扑克,带有套路计算的麻将,带有长久盘面考虑功能的象棋和围棋等。

人工智能的差距

我们现在之所以对人工智能感兴趣,是因为它能够应用在很多的领域,比如图形、音频、游戏等,能够代替大量繁重的人工。现在的人工智能其实和以前所谈的人工智能是有着一定差异的,之前人们认为的人工智能其实更多的是自动化。但近两年随着计算能力的提升,神经网络已经可以和自动化进行结合了。

神经网络之所以受到广泛关注,其中有一点很重要——处理能力很强。旧式的游戏AI,在二维的空间中能采取的行动并不多,处理的维度也不够多,一般几个或者十几个维度就能描述客观空间中的事件。棋牌类AI则相对复杂些,因为处理的维度已经达到了几十个,比如上世纪诞生的深蓝机器人,它所使用的技术其实就是数字搜索。当时采用这种蛮力计算的方式还能够解决问题,但随着计算量的逐步增大瓶颈也会随之出现。所以有人想到从算法层面去解决这方面的困境。

高级人工智能的套路

高级人工智能的套路目前来说比较成熟的有三种:经典统计、神经网络、强化学习

经典统计有个很典型的应用场景——棋牌类游戏,比如德州扑克中就可以根据手牌和池子中的牌大概的判断出获胜的概率,这里使用的就是简单统计的方法。经典统计其实并没有涉及人工智能,开发者完全可以通过自己写的程序来实现。

卷积网络

神经网路其实和函数有些相似,函数是对给到的x进行一系列运算然后输出y。神经网路相当于多层函数的嵌套,输入的x先经过一层函数运算,然后输出的值再经由另一层神经网络或者函数运算,直到经过最后一层运算输出y。理想情况下如果神经网络足够智能,那么输出的应该是最优的y。这里的关键在于x应该经过怎样的计算,例如对于最简单的y=ax+b函数,如果a、b未知就无法获得y。

其实可以在神经网络中先随机给出系数,这样每次x输入后都会有不同的y输出。通过迭代计算每次都对a、b进行更新,一旦输出的y符合期望,那么a、b也就能够随之得到确定。这是一个反向解方程的过程,在已知x和y的情况下求a和b。这种方式也被称为卷积网络。

监督型学习的卷积网络有着收敛速度快、泛化能力好、应用场景广等优点。缺点是需要大量正样本及人类干预,也就是需要质量较高的样本,劣质样本产生的结果会非常不尽人意。它适用于变化相对有限,输入数据量偏小的游戏。

卷积网络实现AI

斗地主游戏相信大家都很熟悉,要想在该游戏中实现机器人,通过手工编写if else是可行的,但也可以使用卷积网络来完成。这个神经网络中的输入值为扫描到的各轮出牌和手牌,输出值y为每局获胜的玩家每轮打出的牌。

基本上搭建如上图所示的三层网络就能实现想要的结果,30万局牌大概10分钟就能够训练完成。图中左边的向量表示的就是牌面的信息:

  • 第一行:代表玩家现在的手牌状态;
  • 第二行:代表玩家上轮出牌记录;
  • 第三行:代表上家上轮出牌记录;
  • 第四行:代表下家上轮出牌记录;
  • 第五行:代表玩家的所有出牌记录;
  • 第六行:代表上家的所有出牌记录;
  • 第七行:代表下家的所有出牌记录;

该模型训练完成之后,和人对战的时候,地主身份的胜率是50%左右,农民身份的胜率为40%。

DQN实现AI原理

接下来我们讨论下深度学习和强化学习的结合,首先来看下强化学习。机器人作为主观体需要认知世界,而一般训练机器人的时候目标是固定的,要人为的将目标的信息传递给机器人,这些信息就叫做奖励。同时机器人还要能够获取和认知环境信息,然后输出动作到环境中,最后机器人会获得一个奖励值。奖励值是一种超参数,是用来判断行为的正确性的依据。因此必须要人为设定超参数的值,才能够对机器人的行为结果进行判断,以促进机器人的进化。

马尔可夫决策过程

机器人在这一过程中会不断和客观世界发生动作,接收到各种奖励。这里输入的环境就是x,输出的动作则是y。

展开来看就是上图这样的形式,随着时间的推移,当前的状态、动作、奖励值都会被统计下来。

在获取到大量的信息数据之后,就能形成如上图所示的表格,空格中填入的是Reward(奖励值)。显而易见这种情况下完全可以根据表格判断出某个状态下的最优动作。

动态决策

上面的做法其实是存在缺陷的,它虽然能够在某一瞬间获得数值最大的奖励,但无法预判到该行动对下一瞬间的影响,有可能下一瞬间的奖励值是最小的。

这种情况下就需要采用动态决策,最终形成的是如上图所示的树状结构。先在某个状态下采取不同的行动形成不同的状态,然后在这些状态中再采取不同的行动。图中标记的那些数值表示的就是奖励值,通过统计奖励值就可以获得最优的路线。

可能有朋友已经发现了,最左边的两条路线数值其实是一样的。要解决这种情况需要用到图中下方的公式,它主要用于数值的回溯。可以看出State1和State26显然是被低估的,因为既然能够获得5这样的数据,那就证明State1还有很大的价值空间没有被发现。这时候就要将数值5回溯给State1,然后再重新进行评估。

这里对这两种执行器进行了比较。real-time的优势主要在于响应时间小。task-tracker则是支持数据重分布,SQL支持也比real-time略好,同时并发数,资源消耗可控。

神经网络

其实通过神经网络也可以解决马尔可夫决策过程中遇到的问题。神经网络的学习能力很强,在输入的X很复杂的情况下,输出的y也能很复杂,它完成了高维到高维的映射。这种方式下样本的获取成本会更低,通过机器人之间的对战能够不停的生成新的样本。

目前从训练结果来看DQN的胜率远超CNN,它的落地也意味着未来用它去做其它人工智能连续决策方面的事情有了保障。

强化学习延伸

在应用DQN的过程中我们也一直都在学习相关的新技术,下面会对这些技术做一个简要介绍。

由于值的回溯是需要时间的,这个过程中状态还是可能会被错误的低估或高估,Double DQN所要解决的就是这种情况。Dueling DQN则是分别对状态和动作进行估值。另外对于连续输出DQN是无法进行训练的,需要用到DDPG。A3C解决的是并行训练的问题,也就是并行收集样本。

以上为今天的全部分享内容,谢谢大家!

推荐文章

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT大咖说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
游戏中的深度学习与人工智能
本篇文章主要跟大家分享的内容是深度学习在游戏AI中的应用这样一个话题: NPC的驱动粗分可以分成低级、中级、高级、特高级,这样几个类别。当然,按照其它的方式分也未尝不可,这里主要是针对实现方式和应用场
刀刀老高
2018/04/10
1.9K0
游戏中的深度学习与人工智能
塔秘 | DeepMind到底是如何教AI玩游戏的?
导读 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备
灯塔大数据
2018/04/04
2.6K0
塔秘 | DeepMind到底是如何教AI玩游戏的?
动手写一个 DQN 的棋牌 AI
深度强化学习是学术界研制游戏 AI 的主流算法。这篇文章我们将用深度强化学习早期代表算法 DQN 算法探索棋牌 AI。
AlgorithmDog
2018/02/07
4.4K1
动手写一个 DQN 的棋牌 AI
打造你的专属AI游戏机器人:太空侵略者
众所周知,深度学习的用途已经日渐广泛,如搭建虚拟助手、聊天机器人、游戏引擎等。基于深度学习的游戏机器人不仅可以和人类对手玩游戏,还可以自己和自己玩游戏。早在2013年,DeepMind团队在NIPS上发表了《Playing Atari with Deep Reinforcement Learning》论文,提出了基于深度加强学习实现端对端的Atari游戏训练方法,文中的Deep Q network,简称DQN,将Q学习与神经网络的优势相结合,并凭借该项技术被Google收购。 DQN算法可以实现49
企鹅号小编
2018/01/16
1.2K0
打造你的专属AI游戏机器人:太空侵略者
《C++ 赋能强化学习:Q - learning 算法的实现之路》
在当今科技飞速发展的时代,人工智能无疑是最热门的领域之一,而强化学习作为其中的重要分支,正逐渐改变着我们解决复杂问题的方式。Q - learning 算法作为强化学习中的经典算法,在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用 C++实现强化学习中的 Q - learning 算法,带您领略 C++在人工智能领域的强大魅力。
程序员阿伟
2024/12/23
2540
超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布
继围棋、德州扑克、Dota、星际争霸之后,微软亚洲研究院的「Suphx」创造了 AI 在游戏领域的另一跨越性突破——麻将。
机器之心
2020/04/14
9390
超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布
快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
机器之心报道 机器之心编辑部 AI 打斗地主,除了信息不完全,还要学会合作与竞争。 众所周知,AI 在围棋上的实力是人类所不能及的。不过斗地主还不一定。在 2017 年 AlphaGo 3 比 0 战胜中国棋手,被授予职业九段之后,柯洁决定参加斗地主比赛,并获得了冠军。在当时的赛后采访中,柯洁表示,「很欢乐,希望以后再多拿一些冠军,无论什么样的冠军都想拿!」 但是好景不长,在这种随机性更高的游戏上, AI 紧随而至。 近日,快手 AI 平台部的研究者用非常简单的方法在斗地主游戏中取得了突破,几天内就战胜了所
机器之心
2023/03/29
8420
快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
学 AI 和机器学习的人必须关注的 6 个领域
近期热门的话题, 人们开始重新讨论这一基本定义----什么是人工智能(AI)。有些人将 AI 重新命名为「认知计算」或「机器智能」,而其他人则错误地将 AI 与「机器学习」概念进行交换。在某种程度上,这是因为 AI 不是一种技术。它实际上是一个由许多学科组成的广泛领域,从机器人学到机器学习。我们大多数人都认为,人工智能的终极目标是为了建造能够完成任务和认知功能的机器,否则这些机器只能在人类的智能范围内从事相关工作。为了实现这一目标,机器必须能够自主学习这些能力,而不是让每个功能都被端到端地明确编程。
AI研习社
2018/09/25
5730
学 AI 和机器学习的人必须关注的 6 个领域
机器学习玩转Flappy Bird全书:六大“流派”从原理到代码
被Flappy Bird虐过么?反击的号角吹响了 作为一个曾经风靡一时的游戏,《Flappy Bird》曾经虐过很多的人类玩家。 而过去一段时间以来,好多人类借助AI技术把这款游戏“玩坏了”。量子位粗
量子位
2018/03/22
1.8K0
机器学习玩转Flappy Bird全书:六大“流派”从原理到代码
游戏AI小试牛刀(2)
上次我们说到用深度学习来做斗地主游戏AI的一个实验项目,这次我们来说说技术实现层面的一些问题。 对于这样一个应用场景来说,我们是可以把它当做类似于图片分类的场景去做的。玩家的手牌、牌池里的牌、上下家
刀刀老高
2018/04/10
7820
游戏AI小试牛刀(2)
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
这次我们就来介绍下AI学习相关的概念,主要是机器学习、深度学习、强化学习,当我们具备了这些基础的概念和知识,后期就可以利用AI工具更好的创造自己的东西了。
希里安
2025/03/31
1720
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
用强化学习玩文本游戏
本文介绍了如何使用强化学习玩文本游戏,通过使用卷积神经网络和强化学习算法,可以有效地处理游戏中的状态和动作,从而实现游戏中的智能决策。相比传统的基于规则的系统,这种方法可以在文本游戏中获得更好的性能和鲁棒性。
张戎
2017/09/30
2.2K2
用强化学习玩文本游戏
用深度Q网络玩电子游戏
蛮挫败的,所以我决定建立一个深度Q网络,用这个网络学习如何在任一电子游戏中打败我的妹妹。
AI研习社
2019/05/08
9690
用深度Q网络玩电子游戏
五分钟教你在Go-Bigger中设计自己的游戏AI智能体
为丰富多智能体对抗环境,OpenDILab(开源决策智能平台)开源了一款趣味多智能体对抗竞技游戏环境——Go-Bigger。同时,Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。
AI科技评论
2021/11/05
6140
五分钟教你在Go-Bigger中设计自己的游戏AI智能体
【综述翻译】Deep Learning for Video Game Playing
原文来源:https://arxiv.org/pdf/1708.07902.pdf
深度强化学习实验室
2020/12/16
1.1K0
【综述翻译】Deep Learning for Video Game Playing
MIT 6.S094· 深度增强学习 | 学霸的课程笔记,我们都替你整理好了
2.传感器:采集物理世界的信息并将其转换成机器可以处理的原始数据。是机器人在物理世界工作的输入端。
AI研习社
2018/07/26
5610
MIT 6.S094· 深度增强学习 | 学霸的课程笔记,我们都替你整理好了
一文入门 深度强化学习
深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。
double
2022/01/26
1.3K0
一文入门 深度强化学习
DeepMind的机器人技术
DeepMind以其在深度强化学习方面的工作而闻名,尤其是在掌握复杂游戏和预测蛋白质结构方面。
智药邦
2022/06/08
5240
DeepMind的机器人技术
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
一篇顶十篇!想入门强化学习,专心研读这篇对DeepMind经典论文的解析就够了 作者 | Aman Agarwal 编译 | Shawn 编辑 | 鸽子、焦燕 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备受瞩目的人机大战中击败了韩国围棋冠军李世石(Lee Sedol),一战成名。AlphaGo背后的关键技术就是深度强化学习(Deep Reinforcem
AI科技大本营
2018/04/26
1.6K0
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
深度学习(七)深度强化学习:融合创新的智能之路(7/10)
深度强化学习作为一种融合了深度学习和强化学习的新技术,在人工智能领域占据着至关重要的地位。它结合了深度学习强大的感知能力和强化学习优秀的决策能力,能够处理复杂的任务和环境。例如,在游戏领域,深度强化学习模型如 AlphaGo 等在围棋领域战胜了世界冠军,展现出了超越人类的智能水平。在机器人控制方面,深度强化学习可以让机器人通过与环境的交互,学习到优化的控制策略,从而在复杂环境下执行任务和决策,为工业自动化和智能家居等领域带来了新的发展机遇。
正在走向自律
2024/12/18
2960
深度学习(七)深度强化学习:融合创新的智能之路(7/10)
推荐阅读
相关推荐
游戏中的深度学习与人工智能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档