SlideShare a Scribd company logo
MULTI-AGENT REINFORCEMENT
LEARNING IN SEQUENTIAL SOCIAL
DILEMMAS
AI Lab 阿部拳之
2019/05/10
Summary
■ Joel Z. Leibo,Vinicius Zambaldi, Marc Lanctot, Janusz Marecki,Thore Graepel
– DeepMind
■ AAMAS 2017
■ Contribution
– Multi-agent RLにおけるagentの相互作用について調査
– 現実世界の社会的ジレンマの特徴を捉えたSequential Social Dilemma
(SSD)を提案
■ DeepMindによるブログ : https://deepmind.com/blog/understanding-agent-
cooperation/
INTRODUCTION
Matrix Game
■ 社会的ジレンマを説明するモデルとして活用
■ よくある設定
– 二人のagentのゲーム
– Agentの行動:cooperate(協力)または
defect(敵対)
– 報酬
■ 𝑅:互いに協力
■ 𝑃:互いに敵対
■ 𝑆:相手に裏切られた
■ 𝑇:相手を裏切った
Matrix Game
■ Matrix Gameが社会的ジレンマとなる条件
– 𝑅 > 𝑃:相互協力>相互敵対
– 𝑅 > 𝑆:相互協力>相手に裏切られる
– 2𝑅 > 𝑇 + 𝑆:相互協力が社会的に最も良い
– 𝑇 > 𝑅 (greed) :相手を裏切る>相互協力
or
𝑃 > 𝑆 (fear):相互敵対>相手に裏切られる
Matrix Game Social Dilemmas
相手の戦略にかかわらず敵対する相手が敵対的な場合,
自分も敵対
相手が協力的な場合,
自分だけ裏切る
チキンゲーム スタグハントゲーム 囚人のジレンマ
Matrix Game Social Dilemmasとreal world
■ 実世界における社会的ジレンマの側面をいくつか無視してしまっている
– 時間軸が存在
– 協調性は段階的な量
– プレイヤは状態や他プレイヤに関する情報を部分的にしか持ってい
ない状況下で意思決定を下す
→これらの側面を捉えたSequential Social Dilemma (SSD) を提案
SEQUENTIAL SOCIAL
DILEMMA
Markov Games
■ Two-player partially observable Markov game : 𝑀
– 状態空間 : 𝑆
– 各agentの観測関数:𝑂 ∶ 𝑆 × 1,2 → 𝑅 𝑑
– 行動空間 : 𝐴1, 𝐴2
– 状態遷移関数 : 𝜏 ∶ 𝑆 × 𝐴1 × 𝐴2 → Δ(𝑆)
– 報酬関数 : 𝑟𝑖 ∶ 𝑆 × 𝐴1 × 𝐴2 → 𝑅
– 政策 : 𝜋𝑖 ∶ 𝑂𝑖 → Δ(𝐴𝑖)
Δ(𝑋) : 𝑋上の確率分布
𝑂𝑖 = {𝑜𝑖|𝑠 ∈ 𝑆, 𝑜𝑖 = 𝑂(𝑠, 𝑖)
Markov Games
■ 協力的policy 𝜋 𝐶
と敵対的policy 𝜋 𝐷
の収益
– 𝑅 𝑠 ≔ 𝑉1
𝜋 𝐶,𝜋 𝐶
𝑠 = 𝑉2
𝜋 𝐶,𝜋 𝐶
𝑠
– 𝑃 𝑠 ≔ 𝑉1
𝜋 𝐷,𝜋 𝐷
𝑠 = 𝑉2
𝜋 𝐷,𝜋 𝐷
𝑠
– 𝑆 𝑠 ≔ 𝑉1
𝜋 𝐶,𝜋 𝐷
𝑠 = 𝑉2
𝜋 𝐷,𝜋 𝐶
𝑠
– 𝑇 𝑠 ≔ 𝑉1
𝜋 𝐷,𝜋 𝐶
𝑠 = 𝑉2
𝜋 𝐶,𝜋 𝐷
𝑠
Sequential Social Dilemma
■ SSD : (𝑀, Π 𝐶, Π 𝐷)
■ 収益: 𝑅, 𝑃, 𝑆, 𝑇 ≔ (𝑅 𝑠0 , 𝑃 𝑠0 , 𝑆 𝑆0 , 𝑇 𝑆0 )
■ 協力的policy 𝜋 𝐶と敵対的policy 𝜋 𝐷
– しきい値によってΠ 𝐶とΠ 𝐷を区別
– 例: 𝛼 𝜋 < 𝛼 𝑐 ⟺ 𝜋 ∈ Π 𝐶
𝛼 𝜋 > 𝛼 𝑑 ⟺ 𝜋 ∈ Π 𝐷
Π 𝐶
, Π 𝐷
: 協力的・敵対的policyの集合
Markov GameとMGSDとSSDの関係
EXPERIMENT
Setting
■ Gathering,Wolfpack
– 観測 : 30✕10グリッドのRGB情報
– 行動 : 上下左右に移動,移動しない,
ビームを打つ(計8個)
■ Deep Q-Networkで学習
m state s0 2 S.
" 1X
t = 0
γt
ri (st ,~at )
#
. (5)
of two-player perfectly
es obtained when |S| =
C, D } , where C and D
efect respectively.
wed starting from state s0 2 S.
( st )) ,st + 1 ⇠T ( st ,~at )
" 1X
t = 0
γt
ri (st ,~at )
#
. (5)
e the special case of two-player perfectly
s) Markov games obtained when |S| =
cify A1 = A2 = { C, D} , where C and D
cooperate and defect respectively.
s), P(s), S(s), T(s) that determine when
social dilemma are defined as follows.
= V ⇡ C
,⇡ C
1 (s) = V ⇡ C
,⇡ C
2 (s), (6)
= V ⇡ D
,⇡ D
1 (s) = V ⇡ D
,⇡ D
2 (s), (7)
Figur e 3: L eft : Gat her ing
player is dir ect ing it s bea
locat ion. T he r ed player is
fr om t he sout h. R ight : W
agent ’s view r elat ive t o t h
Gathering
■ 緑色のりんごを集めるゲーム
■ 二回ビームを被弾すると𝑁𝑡𝑎𝑔𝑔𝑒𝑑フレームの間ゲームから除外
■ 報酬
– りんごを取ると+1
– 取ったりんごは𝑁𝑎𝑝𝑝𝑙𝑒フレーム後に再出現
– ビームを当てること,被弾することに対しての報酬はなし
■ 𝑁𝑎𝑝𝑝𝑙𝑒と𝑁𝑡𝑎𝑔𝑔𝑒𝑑を変化させたときに,agentの敵対度合い(ビームを打つ
頻度)がどのように変化するかを分析
st )) ,st + 1 ⇠T ( st ,~at )
" 1X
t = 0
γt
ri (st ,~at )
#
. (5)
the special case of two-player perfectly
s) Markov games obtained when |S| =
fy A1 = A2 = { C, D} , where C and D
ooperate and defect respectively.
), P(s), S(s), T(s) that determine when
ocial dilemma are defined as follows.
V ⇡ C
,⇡ C
1 (s) = V ⇡ C
,⇡ C
2 (s), (6)
V ⇡ D
,⇡ D
1 (s) = V ⇡ D
,⇡ D
2 (s), (7)
V ⇡ C
,⇡ D
1 (s) = V ⇡ D
,⇡ C
2 (s), (8)
Figur e 3: L eft : Gat her ing.
player is dir ect ing it s beam
locat ion. T he r ed player is
fr om t he sout h. R ight : W o
agent ’s view r elat ive t o t he
lust rat ed. I f an agent is in
shaped region around t he
Gathering
■ りんごが少ない or 被弾コストが高い
→敵対的なpolicyに
■ 資源が少ない場合,agentはconflictし
やすい
■ 資源が多い場合,agentはconflictしに
くい
over A i . Each agent updates its policy given a stored batch1
of experienced transitions { (s, a, ri , s0
)t : t = 1, . . . T} such
that
Qi (s, a) Qi (s, a) + ↵ ri + γ max
a02 A i
Qi (s0
, a0
) − Qi (s, a)
This is a“ growing batch” approach to reinforcement learn-
ing in the sense of [45]. However, it does not grow in an un-
bounded fashion. Rather, old data is discarded so the batch
can be constantly refreshed with new data reflecting more
recent transitions. We compared batch sizes of 1e5 (our
default) and 1e6 in our experiments (see Sect. 5.3). The
network representing the function Q is trained through gra-
dient descent on the mean squared Bellman residual with the
expectation taken over transitions uniformly sampled from
the batch (see [25]). Since the batch is constantly refreshed,
the Q-network may adapt to the changing data distribution
arising from the e↵ects of learning on ⇡1 and ⇡2.
In order to make learning in SSDs tractable, we make
Payoff matricesの解析
1. (𝜋1
𝐶
, 𝜋1
𝐷
)および(𝜋2
𝐶
, 𝜋2
𝐷
)をΠ 𝐶, Π 𝐷からサンプル
2. 𝜋1
𝐶
, 𝜋2
𝐶
, 𝜋1
𝐶
, 𝜋2
𝐷
, 𝜋1
𝐷
, 𝜋2
𝐶
, (𝜋1
𝐷
, 𝜋2
𝐷
)の組み合わせに対してエピ
ソードを実行
3. 得られた報酬をもとに𝑅, 𝑃, 𝑆, 𝑇を推定
Gathering
■ Π 𝐶, Π 𝐷 : 𝑁𝑎𝑝𝑝𝑙𝑒/𝑁𝑡𝑎𝑔𝑔𝑒𝑑が高い・低い環境における学習済みpolicyの集合
■ 社会的ジレンマが生じたケースでは,ほとんどが囚人のジレンマになった
Figur e 6: Sum m ar y of mat r ix gam es discover ed wit hin G at her ing (L eft ) and W olfpack (R ight ) t hr ough
ext r act ing em pir ical payo↵ m at r ices. T he games ar e classifi ed by social dilem m a t ype indicat ed by color and
𝑇 − 𝑅
𝑃 − 𝑆
Wolfpack
■ 二人のプレイヤが獲物を追いかける
ゲーム
■ 報酬
– いずれかのプレイヤが獲物を捉え
た場合,一定範囲内 (𝑟𝑟𝑎𝑑𝑖𝑢𝑠)のプ
レイヤ全員に報酬
– 一人の場合 : 𝑟𝑙𝑜𝑛𝑒
– 二人の場合: 𝑟𝑡𝑒𝑎𝑚
■ 𝑟𝑡𝑒𝑎𝑚/𝑟𝑙𝑜𝑛𝑒と𝑟𝑟𝑎𝑑𝑖𝑢𝑠を変化させたとき
に,agentの協力度合い(報酬を受け取
るプレイヤの数)がどのように変化す
るかを分析
(5)
ctly
| =
D
Wolfpack
■ チームの報酬が大きい or 報酬を貰え
る範囲が広い
→協力的なpolicyに
■ 2つの異なる協力的なpolicyが生まれ
た
– 最初にお互いを見つける→一緒
に移動して獲物を捉える
– 最初に獲物を見つける→相方が
来るまで待つ
Qi (s, a) Qi (s, a) + ↵ ri + γ max
a02 A i
Qi (s , a ) − Qi (s, a)
This is a“ growing batch” approach to reinforcement learn-
ing in the sense of [45]. However, it does not grow in an un-
bounded fashion. Rather, old data is discarded so the batch
can be constantly refreshed with new data reflecting more
recent transitions. We compared batch sizes of 1e5 (our
default) and 1e6 in our experiments (see Sect. 5.3). The
network representing the function Q is trained through gra-
dient descent on themean squared Bellman residual with the
expectation taken over transitions uniformly sampled from
the batch (see [25]). Since the batch is constantly refreshed,
the Q-network may adapt to the changing data distribution
arising from the e↵ects of learning on ⇡1 and ⇡2.
In order to make learning in SSDs tractable, we make
the extra assumption that each individual agent’s learning
depends only on the other agent’s learning via the (slowly)
changing distribution of experienceit generates. That is, the
two learning agents are “ independent” of one another and
each regard the other as part of the environment. From the
perspective of player one, the learning of player two shows
up as a non-stationary environment. The independence as-
sumption can be seen as a particular kind of bounded ratio-
nality: agents do no recursive reasoning about one another’s
learning. In principle, this restriction could be dropped
through the use of planning-based reinforcement learning
methods like those of [24].
Figur e 4: Social out com es ar e infl uenced by env
r onm ent par amet er s. Top: G at her ing. Shown
t he beam -use r at e (aggr essiveness) as a funct ion o
r e-spawn t ime of apples Nap p l e (abundance) and r e
spawn t ime of agent s Nt agged (confl ict -cost ). T hes
Wolfpack
■ Π 𝐶, Π 𝐷 : 𝑟𝑡𝑒𝑎𝑚 ∗ 𝑟𝑟𝑎𝑑𝑖𝑢𝑠が高い・低い環境における学習済みpolicyの集合
■ チキンゲーム,スタグハントゲーム,囚人のジレンマのすべてが生じた
Figur e 6: Sum m ar y of mat r ix gam es discover ed wit hin G at her ing (L eft ) and W olfpack (R ight ) t hr ough
ext r act ing em pir ical payo↵ m at r ices. T he games ar e classifi ed by social dilem m a t ype indicat ed by color and
𝑇 − 𝑅
𝑃 − 𝑆
Agent parameters influencing the
emergence of defection
■ 割引率
– 大きいと敵対的になりやすい
– Gathering : 他プレイヤを排除した
ほうが,後に報酬を得やすい
Agent parameters influencing the
emergence of defection
■ バッチサイズ
– 大きいと協調的になりやすい
– 大きいと他のagentに関する経験が
増えるため
■ Gathering : ビームを避けやすくなる
■ Wolfpack : 獲物を共に追う機会増加
Agent parameters influencing the
emergence of defection
■ 中間層のユニット数
– Gathering : 大きいと敵対的になりやすい
→敵対的な行動(ビームを打つ):
相手を狙う必要があり,複雑
– Wolfpack : 大きいと協調的になりやすい
→協調的な行動(二人で獲物を追う):
プレイヤの行動を協調する必要があり,
複雑
DISCUSSION
GatheringとWolfpackの違い
■ GatheringとWolfpackはどちらも囚人のジレンマのような特性を持つ
■ MGSDでモデリングをすると2ゲームの違いが見られない
■ SSDは連続的な構造を捉えるため,違いを見ることができる
MGSDが捉えられない学習の特徴
■ 協力的または敵対的な戦略を取るかを決定するのと同時に,どうやってそれらの
戦略を実行するかということを学習する必要がある
■ 協力的または敵対的な戦略を実行する方法を学習することが困難な可能性がある
■ 協力的または敵対的な戦略を実行するためには,細かい調整が必要になる可能性
がある(その保証はない).
協力的な戦略と敵対的な戦略が同じ程度の調整が必要という保証もない.
■ 複数の異なる協力的または敵対的な戦略が存在する可能性がある
■ 協力的または敵対的な戦略を実行する方法を学習することの複雑さは同程度では
ない可能性がある
まとめと所感
■ 協力的にせよ敵対的にせよ,戦略がそもそも実現しやすいものなのかを考
える必要がある
■ SSDによって2ゲームの違いが見えたというよりは,学習結果を見たら
違った結果になってた,というだけでは...

More Related Content

PDF
Multi-agent Reinforcement Learning in Sequential Social Dilemmas - 論文輪講
PDF
SGD+α: 確率的勾配降下法の現在と未来
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」
PDF
A summary on “On choosing and bounding probability metrics”
PPTX
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Multi-agent Reinforcement Learning in Sequential Social Dilemmas - 論文輪講
SGD+α: 確率的勾配降下法の現在と未来
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」
A summary on “On choosing and bounding probability metrics”
Multi-agent actor-critic for mixed cooperative-competitive environmentsの紹介
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

What's hot (20)

PDF
「統計的学習理論」第1章
PDF
強化学習その3
PPTX
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PDF
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
PPTX
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
PDF
はじめてのパターン認識 第6章 後半
PDF
機械学習におけるオンライン確率的最適化の理論
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
3分でわかる多項分布とディリクレ分布
PPTX
パーセプトロン型学習規則
PPTX
金融情報における時系列分析
PPTX
Semi-Supervised SVM
PDF
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PDF
博士論文本審査スライド
PDF
[DL輪読会]Control as Inferenceと発展
PPTX
ノンパラメトリックベイズを用いた逆強化学習
「統計的学習理論」第1章
強化学習その3
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
[DL輪読会] マルチエージェント強化学習と心の理論
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
はじめてのパターン認識 第6章 後半
機械学習におけるオンライン確率的最適化の理論
[DL輪読会]GQNと関連研究,世界モデルとの関係について
3分でわかる多項分布とディリクレ分布
パーセプトロン型学習規則
金融情報における時系列分析
Semi-Supervised SVM
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
【メタサーベイ】数式ドリブン教師あり学習
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
博士論文本審査スライド
[DL輪読会]Control as Inferenceと発展
ノンパラメトリックベイズを用いた逆強化学習
Ad

More from Kenshi Abe (7)

PDF
二人零和マルコフゲームにおけるオフ方策評価
PPTX
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
PDF
Deep Counterfactual Regret Minimization
PDF
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
PPTX
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
PPTX
Deep Q-learning from Demonstrations
PPTX
Evolved policy gradients
二人零和マルコフゲームにおけるオフ方策評価
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Deep Counterfactual Regret Minimization
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Deep Q-learning from Demonstrations
Evolved policy gradients
Ad

Recently uploaded (10)

PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介

Multi-agent Reinforcement Learning in Sequential Social Dilemmas

  • 1. MULTI-AGENT REINFORCEMENT LEARNING IN SEQUENTIAL SOCIAL DILEMMAS AI Lab 阿部拳之 2019/05/10
  • 2. Summary ■ Joel Z. Leibo,Vinicius Zambaldi, Marc Lanctot, Janusz Marecki,Thore Graepel – DeepMind ■ AAMAS 2017 ■ Contribution – Multi-agent RLにおけるagentの相互作用について調査 – 現実世界の社会的ジレンマの特徴を捉えたSequential Social Dilemma (SSD)を提案 ■ DeepMindによるブログ : https://deepmind.com/blog/understanding-agent- cooperation/
  • 4. Matrix Game ■ 社会的ジレンマを説明するモデルとして活用 ■ よくある設定 – 二人のagentのゲーム – Agentの行動:cooperate(協力)または defect(敵対) – 報酬 ■ 𝑅:互いに協力 ■ 𝑃:互いに敵対 ■ 𝑆:相手に裏切られた ■ 𝑇:相手を裏切った
  • 5. Matrix Game ■ Matrix Gameが社会的ジレンマとなる条件 – 𝑅 > 𝑃:相互協力>相互敵対 – 𝑅 > 𝑆:相互協力>相手に裏切られる – 2𝑅 > 𝑇 + 𝑆:相互協力が社会的に最も良い – 𝑇 > 𝑅 (greed) :相手を裏切る>相互協力 or 𝑃 > 𝑆 (fear):相互敵対>相手に裏切られる
  • 6. Matrix Game Social Dilemmas 相手の戦略にかかわらず敵対する相手が敵対的な場合, 自分も敵対 相手が協力的な場合, 自分だけ裏切る チキンゲーム スタグハントゲーム 囚人のジレンマ
  • 7. Matrix Game Social Dilemmasとreal world ■ 実世界における社会的ジレンマの側面をいくつか無視してしまっている – 時間軸が存在 – 協調性は段階的な量 – プレイヤは状態や他プレイヤに関する情報を部分的にしか持ってい ない状況下で意思決定を下す →これらの側面を捉えたSequential Social Dilemma (SSD) を提案
  • 9. Markov Games ■ Two-player partially observable Markov game : 𝑀 – 状態空間 : 𝑆 – 各agentの観測関数:𝑂 ∶ 𝑆 × 1,2 → 𝑅 𝑑 – 行動空間 : 𝐴1, 𝐴2 – 状態遷移関数 : 𝜏 ∶ 𝑆 × 𝐴1 × 𝐴2 → Δ(𝑆) – 報酬関数 : 𝑟𝑖 ∶ 𝑆 × 𝐴1 × 𝐴2 → 𝑅 – 政策 : 𝜋𝑖 ∶ 𝑂𝑖 → Δ(𝐴𝑖) Δ(𝑋) : 𝑋上の確率分布 𝑂𝑖 = {𝑜𝑖|𝑠 ∈ 𝑆, 𝑜𝑖 = 𝑂(𝑠, 𝑖)
  • 10. Markov Games ■ 協力的policy 𝜋 𝐶 と敵対的policy 𝜋 𝐷 の収益 – 𝑅 𝑠 ≔ 𝑉1 𝜋 𝐶,𝜋 𝐶 𝑠 = 𝑉2 𝜋 𝐶,𝜋 𝐶 𝑠 – 𝑃 𝑠 ≔ 𝑉1 𝜋 𝐷,𝜋 𝐷 𝑠 = 𝑉2 𝜋 𝐷,𝜋 𝐷 𝑠 – 𝑆 𝑠 ≔ 𝑉1 𝜋 𝐶,𝜋 𝐷 𝑠 = 𝑉2 𝜋 𝐷,𝜋 𝐶 𝑠 – 𝑇 𝑠 ≔ 𝑉1 𝜋 𝐷,𝜋 𝐶 𝑠 = 𝑉2 𝜋 𝐶,𝜋 𝐷 𝑠
  • 11. Sequential Social Dilemma ■ SSD : (𝑀, Π 𝐶, Π 𝐷) ■ 収益: 𝑅, 𝑃, 𝑆, 𝑇 ≔ (𝑅 𝑠0 , 𝑃 𝑠0 , 𝑆 𝑆0 , 𝑇 𝑆0 ) ■ 協力的policy 𝜋 𝐶と敵対的policy 𝜋 𝐷 – しきい値によってΠ 𝐶とΠ 𝐷を区別 – 例: 𝛼 𝜋 < 𝛼 𝑐 ⟺ 𝜋 ∈ Π 𝐶 𝛼 𝜋 > 𝛼 𝑑 ⟺ 𝜋 ∈ Π 𝐷 Π 𝐶 , Π 𝐷 : 協力的・敵対的policyの集合
  • 14. Setting ■ Gathering,Wolfpack – 観測 : 30✕10グリッドのRGB情報 – 行動 : 上下左右に移動,移動しない, ビームを打つ(計8個) ■ Deep Q-Networkで学習 m state s0 2 S. " 1X t = 0 γt ri (st ,~at ) # . (5) of two-player perfectly es obtained when |S| = C, D } , where C and D efect respectively. wed starting from state s0 2 S. ( st )) ,st + 1 ⇠T ( st ,~at ) " 1X t = 0 γt ri (st ,~at ) # . (5) e the special case of two-player perfectly s) Markov games obtained when |S| = cify A1 = A2 = { C, D} , where C and D cooperate and defect respectively. s), P(s), S(s), T(s) that determine when social dilemma are defined as follows. = V ⇡ C ,⇡ C 1 (s) = V ⇡ C ,⇡ C 2 (s), (6) = V ⇡ D ,⇡ D 1 (s) = V ⇡ D ,⇡ D 2 (s), (7) Figur e 3: L eft : Gat her ing player is dir ect ing it s bea locat ion. T he r ed player is fr om t he sout h. R ight : W agent ’s view r elat ive t o t h
  • 15. Gathering ■ 緑色のりんごを集めるゲーム ■ 二回ビームを被弾すると𝑁𝑡𝑎𝑔𝑔𝑒𝑑フレームの間ゲームから除外 ■ 報酬 – りんごを取ると+1 – 取ったりんごは𝑁𝑎𝑝𝑝𝑙𝑒フレーム後に再出現 – ビームを当てること,被弾することに対しての報酬はなし ■ 𝑁𝑎𝑝𝑝𝑙𝑒と𝑁𝑡𝑎𝑔𝑔𝑒𝑑を変化させたときに,agentの敵対度合い(ビームを打つ 頻度)がどのように変化するかを分析 st )) ,st + 1 ⇠T ( st ,~at ) " 1X t = 0 γt ri (st ,~at ) # . (5) the special case of two-player perfectly s) Markov games obtained when |S| = fy A1 = A2 = { C, D} , where C and D ooperate and defect respectively. ), P(s), S(s), T(s) that determine when ocial dilemma are defined as follows. V ⇡ C ,⇡ C 1 (s) = V ⇡ C ,⇡ C 2 (s), (6) V ⇡ D ,⇡ D 1 (s) = V ⇡ D ,⇡ D 2 (s), (7) V ⇡ C ,⇡ D 1 (s) = V ⇡ D ,⇡ C 2 (s), (8) Figur e 3: L eft : Gat her ing. player is dir ect ing it s beam locat ion. T he r ed player is fr om t he sout h. R ight : W o agent ’s view r elat ive t o t he lust rat ed. I f an agent is in shaped region around t he
  • 16. Gathering ■ りんごが少ない or 被弾コストが高い →敵対的なpolicyに ■ 資源が少ない場合,agentはconflictし やすい ■ 資源が多い場合,agentはconflictしに くい over A i . Each agent updates its policy given a stored batch1 of experienced transitions { (s, a, ri , s0 )t : t = 1, . . . T} such that Qi (s, a) Qi (s, a) + ↵ ri + γ max a02 A i Qi (s0 , a0 ) − Qi (s, a) This is a“ growing batch” approach to reinforcement learn- ing in the sense of [45]. However, it does not grow in an un- bounded fashion. Rather, old data is discarded so the batch can be constantly refreshed with new data reflecting more recent transitions. We compared batch sizes of 1e5 (our default) and 1e6 in our experiments (see Sect. 5.3). The network representing the function Q is trained through gra- dient descent on the mean squared Bellman residual with the expectation taken over transitions uniformly sampled from the batch (see [25]). Since the batch is constantly refreshed, the Q-network may adapt to the changing data distribution arising from the e↵ects of learning on ⇡1 and ⇡2. In order to make learning in SSDs tractable, we make
  • 17. Payoff matricesの解析 1. (𝜋1 𝐶 , 𝜋1 𝐷 )および(𝜋2 𝐶 , 𝜋2 𝐷 )をΠ 𝐶, Π 𝐷からサンプル 2. 𝜋1 𝐶 , 𝜋2 𝐶 , 𝜋1 𝐶 , 𝜋2 𝐷 , 𝜋1 𝐷 , 𝜋2 𝐶 , (𝜋1 𝐷 , 𝜋2 𝐷 )の組み合わせに対してエピ ソードを実行 3. 得られた報酬をもとに𝑅, 𝑃, 𝑆, 𝑇を推定
  • 18. Gathering ■ Π 𝐶, Π 𝐷 : 𝑁𝑎𝑝𝑝𝑙𝑒/𝑁𝑡𝑎𝑔𝑔𝑒𝑑が高い・低い環境における学習済みpolicyの集合 ■ 社会的ジレンマが生じたケースでは,ほとんどが囚人のジレンマになった Figur e 6: Sum m ar y of mat r ix gam es discover ed wit hin G at her ing (L eft ) and W olfpack (R ight ) t hr ough ext r act ing em pir ical payo↵ m at r ices. T he games ar e classifi ed by social dilem m a t ype indicat ed by color and 𝑇 − 𝑅 𝑃 − 𝑆
  • 19. Wolfpack ■ 二人のプレイヤが獲物を追いかける ゲーム ■ 報酬 – いずれかのプレイヤが獲物を捉え た場合,一定範囲内 (𝑟𝑟𝑎𝑑𝑖𝑢𝑠)のプ レイヤ全員に報酬 – 一人の場合 : 𝑟𝑙𝑜𝑛𝑒 – 二人の場合: 𝑟𝑡𝑒𝑎𝑚 ■ 𝑟𝑡𝑒𝑎𝑚/𝑟𝑙𝑜𝑛𝑒と𝑟𝑟𝑎𝑑𝑖𝑢𝑠を変化させたとき に,agentの協力度合い(報酬を受け取 るプレイヤの数)がどのように変化す るかを分析 (5) ctly | = D
  • 20. Wolfpack ■ チームの報酬が大きい or 報酬を貰え る範囲が広い →協力的なpolicyに ■ 2つの異なる協力的なpolicyが生まれ た – 最初にお互いを見つける→一緒 に移動して獲物を捉える – 最初に獲物を見つける→相方が 来るまで待つ Qi (s, a) Qi (s, a) + ↵ ri + γ max a02 A i Qi (s , a ) − Qi (s, a) This is a“ growing batch” approach to reinforcement learn- ing in the sense of [45]. However, it does not grow in an un- bounded fashion. Rather, old data is discarded so the batch can be constantly refreshed with new data reflecting more recent transitions. We compared batch sizes of 1e5 (our default) and 1e6 in our experiments (see Sect. 5.3). The network representing the function Q is trained through gra- dient descent on themean squared Bellman residual with the expectation taken over transitions uniformly sampled from the batch (see [25]). Since the batch is constantly refreshed, the Q-network may adapt to the changing data distribution arising from the e↵ects of learning on ⇡1 and ⇡2. In order to make learning in SSDs tractable, we make the extra assumption that each individual agent’s learning depends only on the other agent’s learning via the (slowly) changing distribution of experienceit generates. That is, the two learning agents are “ independent” of one another and each regard the other as part of the environment. From the perspective of player one, the learning of player two shows up as a non-stationary environment. The independence as- sumption can be seen as a particular kind of bounded ratio- nality: agents do no recursive reasoning about one another’s learning. In principle, this restriction could be dropped through the use of planning-based reinforcement learning methods like those of [24]. Figur e 4: Social out com es ar e infl uenced by env r onm ent par amet er s. Top: G at her ing. Shown t he beam -use r at e (aggr essiveness) as a funct ion o r e-spawn t ime of apples Nap p l e (abundance) and r e spawn t ime of agent s Nt agged (confl ict -cost ). T hes
  • 21. Wolfpack ■ Π 𝐶, Π 𝐷 : 𝑟𝑡𝑒𝑎𝑚 ∗ 𝑟𝑟𝑎𝑑𝑖𝑢𝑠が高い・低い環境における学習済みpolicyの集合 ■ チキンゲーム,スタグハントゲーム,囚人のジレンマのすべてが生じた Figur e 6: Sum m ar y of mat r ix gam es discover ed wit hin G at her ing (L eft ) and W olfpack (R ight ) t hr ough ext r act ing em pir ical payo↵ m at r ices. T he games ar e classifi ed by social dilem m a t ype indicat ed by color and 𝑇 − 𝑅 𝑃 − 𝑆
  • 22. Agent parameters influencing the emergence of defection ■ 割引率 – 大きいと敵対的になりやすい – Gathering : 他プレイヤを排除した ほうが,後に報酬を得やすい
  • 23. Agent parameters influencing the emergence of defection ■ バッチサイズ – 大きいと協調的になりやすい – 大きいと他のagentに関する経験が 増えるため ■ Gathering : ビームを避けやすくなる ■ Wolfpack : 獲物を共に追う機会増加
  • 24. Agent parameters influencing the emergence of defection ■ 中間層のユニット数 – Gathering : 大きいと敵対的になりやすい →敵対的な行動(ビームを打つ): 相手を狙う必要があり,複雑 – Wolfpack : 大きいと協調的になりやすい →協調的な行動(二人で獲物を追う): プレイヤの行動を協調する必要があり, 複雑
  • 27. MGSDが捉えられない学習の特徴 ■ 協力的または敵対的な戦略を取るかを決定するのと同時に,どうやってそれらの 戦略を実行するかということを学習する必要がある ■ 協力的または敵対的な戦略を実行する方法を学習することが困難な可能性がある ■ 協力的または敵対的な戦略を実行するためには,細かい調整が必要になる可能性 がある(その保証はない). 協力的な戦略と敵対的な戦略が同じ程度の調整が必要という保証もない. ■ 複数の異なる協力的または敵対的な戦略が存在する可能性がある ■ 協力的または敵対的な戦略を実行する方法を学習することの複雑さは同程度では ない可能性がある