开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >读论文：《Correlated-Q Learning》

读论文：《Correlated-Q Learning》

杨熹

发布于 2020-04-02 11:15:41

发布于 2020-04-02 11:15:41

7380

举报

文章被收录于专栏：杨熹的专栏杨熹的专栏

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》，先记一下论文中的基础概念，然后再去深入解读。

这篇论文的目标是：在 general-sum 马尔可夫博弈中学习均衡策略

纳什均衡：

不同的 action 服从独立概率分布
所有的 agents 都针对另一个概率进行优化

相关均衡：

agents 的概率分布之间存在依赖
可以用线性规划来计算

Correlated-Q：

在 general-sum 博弈中，相关均衡包含纳什均衡
在 constant-sum 博弈中，相关均衡包含极小极大

马尔可夫博弈：

I，一组 players
S，状态
Ai(s)，其中 s 属于S，i 属于 I，第 i 个玩家在状态 s 可用的 actions
P，概率转移函数
R(i)，第 i 个玩家的奖励

马尔可夫博弈中的Q：

用 State-action 向量，而不是 State-action 对
Qi(s, a) = (1-gamma) * Ri(s, a) + gamma * sum(P(s' given s,a) * Vi(s'))

Friend Q：

所有 players 的奖励函数是一样的
Vi(s) = max Qi(s, a)

CE-Q：

功利主义：最大化所有玩家的奖励总和-argmax sum of players rewards
平等主义：最大化所有玩家奖励的最小值-argmax min
共和主义：最大化所有玩家奖励的最大值-argmax max
自由主义：最大化每个玩家的最大奖励-argmax rewards where result is a Correlated Equlibrium

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新