腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
杨熹的专栏
专栏成员
举报
302
文章
385198
阅读量
55
订阅数
订阅专栏
申请加入专栏
全部文章(302)
其他(77)
机器学习(60)
神经网络(40)
人工智能(39)
编程算法(34)
深度学习(25)
tensorflow(22)
NLP 服务(13)
强化学习(13)
python(12)
游戏(10)
https(10)
大数据(9)
数据处理(9)
http(7)
网络安全(7)
action(7)
推荐系统(6)
agent(6)
state(6)
java(4)
node.js(4)
html(4)
决策树(4)
数据分析(4)
数据库(3)
企业(3)
存储(3)
机器人(3)
table(3)
云数据库 SQL Server(2)
中文分词(2)
云推荐引擎(2)
网站(2)
爬虫(2)
正则表达式(2)
keras(2)
数据可视化(2)
app(2)
excel(2)
friend(2)
sample(2)
sum(2)
区块链(1)
自动驾驶(1)
数据挖掘(1)
go(1)
bash(1)
scala(1)
bootstrap(1)
android(1)
arm(1)
git(1)
github(1)
搜索引擎(1)
bash 指令(1)
spring(1)
mapreduce(1)
云函数(1)
数据加密服务(1)
短信(1)
腾讯云测试服务(1)
渲染(1)
无人驾驶(1)
卷积神经网络(1)
numpy(1)
监督学习(1)
线性回归(1)
二叉树(1)
flash(1)
kernel(1)
迁移学习(1)
数据结构(1)
adobe(1)
build(1)
com(1)
csv(1)
data(1)
function(1)
google(1)
greedy(1)
image(1)
jobs(1)
join(1)
key(1)
label(1)
list(1)
max(1)
model(1)
paste(1)
pivot(1)
png(1)
probability(1)
relationship(1)
render(1)
target(1)
uber(1)
vi(1)
vr(1)
youtube(1)
zero(1)
笔记(1)
表格(1)
程序员(1)
工具(1)
数学(1)
原理(1)
搜索文章
搜索
搜索
关闭
《智能语音时代》
神经网络
深度学习
人工智能
我们正在进入语音时代,从智能语音助手到智能家居,这些智能语音产品已经开始融入我们的生活了。
杨熹
2020-04-14
2.2K
1
Q,Friend-Q,Foe-Q,Ce-Q 简要对比
action
agent
friend
表格
它们都可以用于 multi-agent 环境,下面以 soccer game 为例。
杨熹
2020-04-14
617
0
SARSA 的 python 实现
python
设置一个 epsilon,如果随机产生的数字小于eps就随便弄个action探索一下,如果大于eps就利用环境信息挑选action:
杨熹
2020-04-10
728
0
KWIK
编程算法
KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning
杨熹
2020-04-10
627
0
什么是 Multiagent Q Learning
agent
friend
multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q leaning,correlated q learning,在每个训练步骤,学习器会考虑多个 agent 的联合 states,actions,reward,来更新 q 值,其中会用到函数 f 选择价值函数。
杨熹
2020-04-09
989
0
读论文:《Correlated-Q Learning》
action
max
state
sum
vi
今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。
杨熹
2020-04-02
651
0
石头剪子布最优策略的线性解法
sum
zero
石头剪子布属于一种 zero-sum game,即一个人的 loss 是另一个人的 gain。
杨熹
2020-03-26
992
0
maxmin 的代码实现
https
网络安全
游戏
在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。
杨熹
2020-03-25
745
0
如何应用 cvxopt 中的 solvers.lp
https
网络安全
我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数:solvers.lp(c=c, G=G, h=h, A=A, b=b)。
杨熹
2020-03-24
1.2K
0
cvxopt 示例简单讲解
https
网络安全
python
Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包,可以用于求解纳什均衡问题的最优策略,好用但是不容易理解,
杨熹
2020-03-24
1.3K
0
什么是 Q-learning?
action
agent
greedy
state
table
它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:
杨熹
2020-03-20
1.3K
0
强化学习基础环境 Gym 简介
游戏
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环境。
杨熹
2020-03-20
1.3K
0
Q-learning 的本质是在干什么?
action
agent
probability
state
Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。
杨熹
2020-03-20
526
0
自动驾驶器环境介绍
action
state
在gym里有个自动驾驶的模拟器,它的任务是把乘客从一个地方接起,在另一个地方放下,在这个过程中 需要小车至少遵守下面三个规则:
杨熹
2020-03-20
385
0
Q-learning 的 python 实现
action
agent
function
state
table
通过前面的几篇文章可以知道,当我们要用 Q-learning 解决一个问题时,首先需要知道这个问题有多少个 state,每个 state 有多少 action,并且建立一个奖励表格 P,维度是 action * 4,这4列分别标记着采取每个 action 的概率,采取每个 action 下一步会到达的 new state,采取每个 action 会获得的奖励,以及游戏是否结束。
杨熹
2020-03-20
893
0
Gym 的 Frozen Lake 环境介绍
action
agent
render
sample
state
上一篇文章有介绍gym里面env的基本用法,下面几行可以打印出一个当前环境的可视化:
杨熹
2020-03-20
2.2K
0
SARSA 算法简介
数据加密服务
编程算法
State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,它的算法和公式和 Q learning 很像,但是 Q-Learning 是Off-Policy的,SARSA 是On-Policy 的,具体区别我们可以在下一节中再看。
杨熹
2020-03-20
1.4K
0
Deep Q-Learning 的数据预处理
游戏
Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 Q 表会很大,建立表格和更新表格就很低效,所以有了 Deep Q-Learning 的方法,在DQN 中不会建立Q 表,但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values,这样也可以找到最优决策。
杨熹
2020-03-20
758
0
python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽
python
今天要用 Gym 里面的 LunarLander-v2 环境,结果报错,寻思着重新安装一下,于是一段漫长的连环坑就开始了。
杨熹
2020-03-20
6.3K
3
什么是 Deep Q learning 算法
编程算法
上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况,因为它需要建立的 Q-table 对于较大维数的状态空间来说,计算是很难实现的,所以用 Deep Q Learning,即 Deep Learning + Reinforcement Learning 的方式来解决,下面是 deepmind 团队发表的 DQN 算法:
杨熹
2020-03-20
1.1K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档