杨熹的专栏

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

我们正在进入语音时代，从智能语音助手到智能家居，这些智能语音产品已经开始融入我们的生活了。

《智能语音时代》

它们都可以用于 multi-agent 环境，下面以 soccer game 为例。

Q，Friend-Q，Foe-Q，Ce-Q 简要对比

设置一个 epsilon，如果随机产生的数字小于eps就随便弄个action探索一下，如果大于eps就利用环境信息挑选action：

SARSA 的 python 实现

KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning

KWIK

multiagent 是指同时有多个 agent 更新 value 和 Q 函数，主要的算法有：q learning， friend and foe q leaning，correlated q learning，在每个训练步骤，学习器会考虑多个 agent 的联合 states，actions，reward，来更新 q 值，其中会用到函数 f 选择价值函数。


什么是 Multiagent Q Learning

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》，先记一下论文中的基础概念，然后再去深入解读。

读论文：《Correlated-Q Learning》

石头剪子布属于一种 zero-sum game，即一个人的 loss 是另一个人的 gain。

石头剪子布最优策略的线性解法

在解决石头剪子布这个问题的过程中，我们会用到一个 maxmin 函数，先来看看这个函数的理论基础。

maxmin 的代码实现

我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数：solvers.lp(c=c, G=G, h=h, A=A, b=b)。

如何应用 cvxopt 中的 solvers.lp

Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包，可以用于求解纳什均衡问题的最优策略，好用但是不容易理解，

cvxopt 示例简单讲解

它是强化学习中的一种 values-based 算法，最终是会学习出一个表格 Q-Table，例如在一个游戏中有下面5种状态和4种行为，则表格为：

什么是 Q-learning？

OpenAI Gym 是一个最广泛使用的强化学习实验环境，内置上百种实验环境，比如一些简单几何体的运动，一些用文本表示的简单游戏，或者机械臂的抓取和控制等实验环境。


强化学习基础环境 Gym 简介

Q-learning 是要让 agent 通过不断地玩游戏，从环境给予的奖励反馈中学习到给定state下的最优 action。

Q-learning 的本质是在干什么？

在gym里有个自动驾驶的模拟器，它的任务是把乘客从一个地方接起，在另一个地方放下，在这个过程中 需要小车至少遵守下面三个规则：

自动驾驶器环境介绍

通过前面的几篇文章可以知道，当我们要用 Q-learning 解决一个问题时，首先需要知道这个问题有多少个 state，每个 state 有多少 action，并且建立一个奖励表格 P，维度是 action * 4，这4列分别标记着采取每个 action 的概率，采取每个 action 下一步会到达的 new state，采取每个 action 会获得的奖励，以及游戏是否结束。

Q-learning 的 python 实现

上一篇文章有介绍gym里面env的基本用法，下面几行可以打印出一个当前环境的可视化：

Gym 的 Frozen Lake 环境介绍

State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法，它的算法和公式和 Q learning 很像，但是 Q-Learning 是Off-Policy的，SARSA 是On-Policy 的，具体区别我们可以在下一节中再看。

SARSA 算法简介

Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action，但是当 state 空间很大时，如上百万的状态时，这个 Q 表会很大，建立表格和更新表格就很低效，所以有了 Deep Q-Learning 的方法，在DQN 中不会建立Q 表，但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values，这样也可以找到最优决策。

Deep Q-Learning 的数据预处理

今天要用 Gym 里面的 LunarLander-v2 环境，结果报错，寻思着重新安装一下，于是一段漫长的连环坑就开始了。

python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽

上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况，因为它需要建立的 Q-table 对于较大维数的状态空间来说，计算是很难实现的，所以用 Deep Q Learning，即 Deep Learning + Reinforcement Learning 的方式来解决，下面是 deepmind 团队发表的 DQN 算法：

什么是 Deep Q learning 算法

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了杨熹的专栏专栏，为你提供了杨熹的专栏的相关文章，致力于帮助开发者快速成长与发展。

杨熹的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐