加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 点评 > 正文

AlphaGo原来是这样运行的,一文详解多智能体强化学习

发布时间:2020-11-07 18:11:48 所属栏目:点评 来源:51cto
导读:在这篇综述性文章中,作者详尽地介绍了多智能强化学习的理论基础,并阐述了解决各类多智能问题的经典算法。此外,作者还以 AlphaGo、AlphaStar为例,概述了多智能体强化学习的实际应用。 近年来,随着强化学习(reinforcement learning)在多个应用领域取

在这篇综述性文章中,作者详尽地介绍了多智能强化学习的理论基础,并阐述了解决各类多智能问题的经典算法。此外,作者还以 AlphaGo、AlphaStar为例,概述了多智能体强化学习的实际应用。

近年来,随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

本文将首先简要地介绍多智能体强化学习(multi-agent reinforcement learning, MARL)的相关理论基础,包括问题的定义、问题的建模,以及涉及到的核心思想和概念等。然后,根据具体应用中智能体之间的关系,将多智能体问题分为完全合作式、完全竞争式、混合关系式三种类型,并简要阐述解决各类多智能体问题的经典算法。最后,本文列举深度强化学习在多智能体研究工作中提出的一些方法(multi-agent deep reinforcement learning)。

1. 强化学习和多智能体强化学习

我们知道,强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的问题通常被描述为马尔科夫决策过程。

AlphaGo原来是这样运行的,一文详解多智能体强化学习

图 1:强化学习的框架(同时也表示了马尔科夫决策过程)。图源:[1]

当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。

1.1 多智能体问题的建模——博弈论基础

马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。当我们对博弈论有一定了解后,能够借助博弈论来对多智能体强化学习问题进行建模,并更清晰地找到求解问题的方法。

AlphaGo原来是这样运行的,一文详解多智能体强化学习

图 2:马尔科夫博弈过程。图源:[2]

在马尔科夫博弈中,所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态的转移和更新,并决定了智能体获得的奖励反馈。它可以通过元组 < S,A1,...,An,T,R1,...,Rn > 来表示,其中 S 表示状态集合,Ai 和 Ri 分别表示智能体 i 的动作集合和奖励集合,T 表示环境状态转移概率,表示损失因子。此时,某个智能体 i 获得的累积奖励的期望可以表示为:

AlphaGo原来是这样运行的,一文详解多智能体强化学习

对于马尔科夫博弈,纳什均衡(Nash equilibrium)是一个很重要的概念,它是在多个智能体中达成的一个不动点,对于其中任意一个智能体来说,无法通过采取其他的策略来获得更高的累积回报,在数学形式上可以表达为:

AlphaGo原来是这样运行的,一文详解多智能体强化学习

在该式中,π^表示智能体 i 的纳什均衡策略。

值得注意的是,纳什均衡不一定是全局最优,但它是在概率上最容易产生的结果,是在学习时较容易收敛到的状态,特别是如果当前智能体无法知道其他智能体将会采取怎样的策略。这里举个简单的例子来帮助理解,即博弈论中经典的囚徒困境。根据两个人不同的交代情况,判刑的时间是不一样的:

AlphaGo原来是这样运行的,一文详解多智能体强化学习

在这个表格中,当 A 和 B 都选择撒谎时,能够达到全局最优的回报。但是每个个体都不知道另外的个体会做出怎样的行为,对于 A 或者是来 B 说,如果改成选择坦白,则能够获得更优的回报。实际上,对于 A 或者 B 来说,此时不管另外的个体选择了哪种行为,坦白是它能够获得最优回报的选择。所以,最终会收敛到 A 和 B 都选择坦白,即囚徒困境中的纳什均衡策略。

均衡求解方法是多智能体强化学习的基本方法,它对于多智能体学习的问题,结合了强化学习的经典方法(如 Q-learning)和博弈论中的均衡概念,通过 RL 的方法来求解该均衡目标,从而完成多智能体的相关任务。这种思路在后面介绍具体的学习方法中会有所体现。

相比于单智能体系统,强化学习应用在多智能体系统中会遇到哪些问题和挑战?

环境的不稳定性:智能体在做决策的同时,其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关;

智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;

个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;

可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。

1.2 多智能体问题的求解——多智能体强化学习算法介绍

对于多智能体强化学习问题,一种直接的解决思路:将单智能体强化学习方法直接套用在多智能体系统中,即每个智能体把其他智能体都当做环境中的因素,仍然按照单智能体学习的方式、通过与环境的交互来更新策略;这是 independent Q-learning 方法的思想。这种学习方式固然简单也很容易实现,但忽略了其他智能体也具备决策的能力、所有个体的动作共同影响环境的状态,使得它很难稳定地学习并达到良好的效果。

在一般情况下,智能体之间可能存在的是竞争关系(非合作关系)、半竞争半合作关系(混合式)或者是完全合作关系,在这些关系模式下,个体需要考虑其他智能体决策行为的影响也是不一样的。参考综述[3],接下来的部分将根据智能体之间的关系,按照完全竞争式、半竞争半合作、完全合作式来阐述多智能体问题的建模以及求解方法。

1.2.1 智能体之间是完全竞争关系

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读