AlphaGo原来是这样运行的，一文详解多智能体强化学习

发布时间：2020-11-07 18:11:48 所属栏目：点评来源：51cto

导读：在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习（reinforcement learning）在多个应用领域取

基于平均场理论的多智能体强化学习（Mean Field MARL, MFMARL）方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法，它将传统强化学习方法（Q-learning）和平均场理论（mean field theory）相结合。平均场理论适用于对复杂的大规模系统建模，它使用了一种简化的建模思想：对于其中的某个个体，所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量。此时，对于其中一个个体来说，所有其他个体的影响相当于一个单体对于它的影响，这样的建模方式能够有效处理维度空间和计算量庞大的问题。

MFMARL 方法基于平均场理论的建模思想，将所有智能体看作一个“平均场”，个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响，从而简化了后续的分析过程。

图 5：基于平均场理论的多智能体建模方式，单个智能体只考虑与相邻的其他智能体（蓝色球体区域）的相互作用。图源：[8]

首先，为了处理集中式全局值函数的学习效果会受到智能体数量（联合动作的维度）的影响，对值函数进行分解。对于单个智能体 j，它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用：

AlphaGo原来是这样运行的，一文详解多智能体强化学习

然后，将平均场理论的思想结合到上式中。考虑离散的动作空间，单个智能体的动作采用 one-hot 编码的方式，即 aj=[h(aj_1), ... h(aj_d)]，其中 h(aj_i)=1 if aj=aj_i ?: 0；其他相邻智能体的动作可以表示为平均动作 bar和一个波动δ的形式：

AlphaGo原来是这样运行的，一文详解多智能体强化学习

利用泰勒二阶展开，得到

AlphaGo原来是这样运行的，一文详解多智能体强化学习

该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用，简化为当前智能体 j 和虚拟智能体 bar的相互作用，是平均场思想在数学形式上的体现。此时，在学习过程中，迭代更新的对象为平均场下的 Q(s,aj,ar)值（即 MF-Q），有：

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在更新中使用 v 而不是使用 max Q 的原因在于：对 Q 取 max，需要相邻智能体策略 bar的合作，而对于智能体 j 来说是无法直接干涉其他智能体的决策情况；另一方面，贪心的选择依旧会导致学习过程受到环境不稳定性的影响。

对应地，智能体 j 的策略也会基于 Q 值迭代更新，使用玻尔兹曼分布有：

AlphaGo原来是这样运行的，一文详解多智能体强化学习

原文证明了通过这样的迭代更新方式，ar最终能够收敛到唯一平衡点的证明，并推出智能体 j 的策略πj 能够收敛到纳什均衡策略。

显式的协作机制

关于显式的协作机制，我们将通过多智能体深度强化学习在多机器人领域的应用中会简单介绍（主要是人机之间的交互，考虑现存的一些约束条件 / 先验规则等）。

2. 多智能体深度强化学习

随着深度学习的发展，利用神经网络的强大表达能力来搭建逼近模型（value approximation）和策略模型（常见于 policy-based 的 DRL 方法）。深度强化学习的方法可以分为基于值函数（value-based）和基于策略（policy-based）两种，在考虑多智能体问题时，主要的方式是在值函数的定义或者是策略的定义中引入多智能体的相关因素，并设计相应的网络结构作为值函数模型和策略模型，最终训练得到的模型能够适应（直接或者是潜在地学习到智能体相互之间的复杂关系），在具体任务上获得不错的效果。

2.1 policy-based 的方法

在完全合作的 setting 下，多智能体整体通常需要最大化全局的期望回报。前面提到一种完全集中式的方式：通过一个中心模块来完成全局信息的获取和决策计算，能够直接地将适用于单智能体的 RL 方法拓展到多智能体系统中。但通常在现实情况中，中心化的控制器（centralized controller）并不一定可行，或者说不一定是比较理想的决策方式。而如果采用完全分布式的方式，每个智能体独自学习自己的值函数网络以及策略网络、不考虑其他智能体对自己的影响，无法很好处理环境的不稳定问题。利用强化学习中 actor-critic 框架的特点，能够在这两种极端方式中找到协调的办法。

1. 多智能体 DDPG 方法（Multi-Agent Deep Deterministic Policy Gradient, MADDPG）

AlphaGo原来是这样运行的，一文详解多智能体强化学习

这种方法是在深度确定策略梯度（Deep Deterministic Policy Gradient，DDPG）方法的基础上、对其中涉及到的 actor-critic 框架进行改进，使用集中式训练、分布式执行的机制（centralized training and decentralized execution），为解决多智能体问题提供了一种比较通用的思路。

MADDPG 为每个智能体都建立了一个中心化的 critic，它能够获取全局信息（包括全局状态和所有智能体的动作）并给出对应的值函数 Qi(x,a1,...,an)，这在一定程度上能够缓解多智能体系统环境不稳定的问题。另一方面，每个智能体的 actor 则只需要根据局部的观测信息作出决策，这能够实现对多智能体的分布式控制。

在基于 actor-critic 框架的学习过程中，critic 和 actor 的更新方式和 DDPG 类似。对于 critic，它的优化目标为：

对于 actor，考虑确定性策略μi(ai|oi)，策略更新时的梯度计算可以表示为：

AlphaGo原来是这样运行的，一文详解多智能体强化学习

图 6：中心化的 Q 值学习（绿色）和分布式的策略执行（褐色）。Q 值获取所有智能体的观测信息 o 和动作 a，策略π根据个体的观测信息来输出个体动作。图源：[9]

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/6

首页

尾页