Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定

Multi-Agent Inverse
Reinforcement Learning
相互作用する行動主体の報酬推定
千葉大学
融合理工学府
浪越圭一
第37回強化学習アーキテクチャ勉強会 (H31/4/23)

Profile
浪越圭一（Namikoshi Keiichi）
千葉大学荒井研究室所属
博士2年
経歴
産総研社会知能研究チームRA (2017~2018)
特別研究員DC2 (2019~)
研究テーマ
実データに基づくMulti-agent simulation構築
2

逆強化学習(IRL)
3
対象問題
強化学習の報酬設計
Expertの目的推定・行動予測
タクシーの運転行動解析[Ziebart+ 08], 歩行者予測[Kitani+12]
用途
Linear IRL[Ng+ 00], MaxEnt IRL[Ziebart+ 08],
Bayesian IRL[Ramachandran+ 07], GAIL[Ho+ 16], …
※詳細は過去の勉強会資料へ
定式化
MarkovDecisionProcess
< 𝑆, 𝐴, 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝑎 𝑡
Expert報酬
𝑅
𝑆:状態集合 𝐴:行動集合 𝑃(𝑠′
|𝑠, 𝑎):状態遷移確率 𝛾:割引率
0. 逆強化学習からMulti-agent逆強化学習へ

逆強化学習(IRL)
4
対象問題
推定報酬の最適方策とExpert軌跡を比較
内部で強化学習(RL)を解く
報酬の更新
MarkovDecisionProcess
< 𝑆, 𝐴, 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝑎 𝑡
Expert報酬
𝑅
𝑆:状態集合 𝐴:行動集合 𝑃(𝑠′
|𝑠, 𝑎):状態遷移確率 𝛾:割引率
Expert
と比較
方策
計算
報酬
更新
荒井幸代, et al., “強化学習における脱創発志向の
潮流 : 試行錯誤～見まね～目的理解へ”, 人工知能
学会誌, vol. 33, 2, pp170-180
Multi-agent IRLのボトルネック

Expert報酬
{𝑅𝑖}
Multi-agent逆強化学習(MAIRL)
Agentが複数
他Agentの行動が報酬・状態遷移確率に影響
5
対象問題
MARLの諸問題がそのまま発生
非定常性他Agentも同時に学習
均衡解ジレンマの発生
状態・行動空間爆発 Agent数に応じて指数オーダー
MARILの難しさ
Stochastic Game
< 𝑁, 𝑆, 𝐴𝑖 , 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝒂 𝒕
𝑁:Agent集合 𝐴𝑖:Agent 𝑖の行動集合 𝑃(𝑠′
|𝑠, 𝒂):状態遷移確率 𝒂 = (𝑎1, … , 𝑎 𝑛):結合行動

Multi-agent逆強化学習の分類軸
6
なし Multi-agent RLで方策計算
あり MDPへ問題分割，RLで方策計算
問題分割
Homogeneous性 𝑅𝑖 = 𝑅𝑗
対称性 ∑𝑅𝑖 = 0
General-sum 仮定なし
報酬の構造

目次
7
問題分割／報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり／General-sum
Cooperative setting
Reddy12
なし／General-sum
Non cooperative setting
特殊
条件
ŠoŠić17
なし／Homogeneous
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
相互作用が疎,Occlusion
DNN
利用
Wang18
なし／Zero-sum
準最適Expert, 2人zero-sum
Song18
なし／推定しない
n人general-sum game

目次
8
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
Reddy12
特殊
条件
ŠoŠić17
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
DNN
利用
Wang18
なし／Zero-sum
Song18

Cooperative setting [Natarajan+ 10]
MAIRLをはじめて定式化
全Agentが協調してcommon goalを目指すタスク
9
特徴
Linear IRL [Ng+ 00]
中央制御Agentの導入
Multi-objective RL [Natarajan+ 05]をMulti-agentへ読み替え
Key point
1. 線形計画：Cooperative setting [Natarajan+ 10]

Linear IRL [Ng+ 00]
Theorem 3[Ng+ 00]
有限状態空間𝑆,行動集合𝐴,割引率𝛾のもとで𝜋 𝑠 ≡ 𝑎1が最適
↔ 𝑎1以外の行動で以下が成り立つ
10
制約条件 Expert方策＝最適方策
定式化 Expert方策と状態遷移確率所与の線形計画問題
𝑷 𝑎:行動aをとったときの
状態遷移行列
𝑹：報酬ベクトル

Multi-objective RL [Natarajan+ 05]
11
更新則報酬ベクトルと平均報酬最大化
「Agent1体・目的複数」を「中央Agent1体・Agent複数」へ
各Agentの報酬を重みづけ収益を中央Agentが最大化
各Agentの行動を中央Agentが決定
目的をAgentに読み替え
状態価値観数に相当
greedy行動選択
平均報酬の更新
平均報酬

(中央Agentからみた)最適性条件
Theorem 3.1 [Natarajan+ 10]
有限状態空間𝑆, (joint)行動集合𝐴,状態遷移確率𝑃𝑎 のもとで𝑎1が最適行動
↔Average adjusted reward(報酬𝑟と平均報酬𝜌の差)が以下を満たす
12
𝑤：Agentに対する重み
平均
報酬
報酬

定式化と問題分割
13
分割前全体の報酬𝜃＋M体への配分𝜃1≤𝑖≤𝑀を推定
分割後 Expert方策から各Agentの報酬𝜃を推定
仮定①重み𝑤𝑖 = 1/𝑀
仮定②状態空間をAgentごとに分割

分散信号制御 (4Agent)
 状態周辺の車両密度
 行動青色にする信号方向
 Expert highway最優先のif-then rule
14
Trafficの最小化問題
Expertとの一致度
Expertデータのtuple(s,a,s’)数
方
策
の
一
致
率
Time steps
車
両
数
途中から
Expertを逸脱
Expertより
良い制御則
再学習のPerformance
highway

Non-Cooperative setting [Reddy+ 12]
Linear IRL [Ng+ 00]の拡張
General-sum gameへ適用可能
Cooperative setting [Natarajan+ 10]を含む一般化
15
特徴
Nash均衡を制約条件化
Key point
1. 線形計画：Non-cooperative setting [Reddy+ 12]

Nash均衡を制約条件化
𝜋∗(𝑠) がNash均衡
↔ 全Agent 𝑖と状態𝑠 ∈ 𝑆で以下が成り立つ
16
Nash均衡 (or Nash perfect 均衡)
Theorem 4.1
Agent集合,有限状態空間𝑆, Agent 𝑖の行動集合𝐴i = (𝑎𝑖1
, … , 𝑎𝑖 𝑚
),
状態遷移確率𝑃𝑎 𝑖,𝑎−𝑖
, 割引率𝛾のもとで𝜋∗(𝑠) ≡ 𝜋𝑖
∗
𝜋−𝑖
∗
がNash均衡解
↔ 報酬Riは以下を満たす
Nash均衡条件

定式化
17
Agent 𝑖について
Expert方策・状態遷移確率所与
※Expert軌跡所与の場合についても議論あり
報酬は状態にのみ依存
注意

Grid world (2 agent)
 状態は座標・行動は4方向
 初期状態ランダム
 終了条件どちらかがGoalするまで
 Expert Nash-Q learningで生成
18
衝突を回避しつつGoalへ移動
一部異なる均衡に収束
真の報酬に近い推定
報酬値(Agent1/2)
Goal＋100, 中央-100, 衝突-100
報
酬
値
状態
推定報酬から再学習
複数の均衡がある場合
特定の均衡の獲得保証なし

小まとめ
19
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
DNN
利用
Wang18
なし／Zero-sum
Song18
Pros
 General-sumが扱える
 Linear IRLの素直な拡張
Cons
 方策・状態遷移確率所与

目次
20
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
DNN
利用
Wang18
なし／Zero-sum
Song18

Swarm system [ŠoŠić+ 17]
Homogeneous性を利用してSingle-agentのIRLに落とす
様々なIRLを適用可能
21
特徴
swarMDP
3種類の価値関数
Heterogeneous Q-learning
Key point
IRLの共通手順
2. 特殊条件下のMAIRL：Swarm system [ŠoŠić+ 17]

swarMDP
性質1 Homogeneity
全Agentは共通の構造をもち
各Agentが交換可能
22
DecPOMDPにHomogeneous性を仮定
性質2 Locality
部分観測
各Agentごとの周辺のみ観測可能
状態
報酬行動
観測

3種類の価値関数
Global value 状態に非依存
23
Private Value 状態価値
Local value 観測価値
Agent・時刻に依存

3種類の価値関数
Global value 状態に非依存
Sampling軌跡から計算
特徴期待値計算に利用
24
Private Value 状態価値
Local value 観測価値
Heterogeneous Q-learning
Proposition 1 Proposition 1

Heterogeneous Q-learning
1. 温度パラメータによりExploringとGreedy agentを割当て
2. 行動選択，報酬と次状態を観測
3. Q値を更新
4. 学習率・温度パラメータを減らし1に戻る
25
青：Greedy 赤：Exploring

実験１ The Vicsek model
二次元平面上をAgentが移動
周期的境界条件
観測半径𝜌以内の平均速度
行動方向-60, -50, … , +50, +60
Expert方策
26
方向
座標
平均方向ノイズ
速度
定常状態での例
色の濃さ＝時間経過

実験１ The Vicsek model
推定報酬(平均方向との差)
再学習中のalignment度合い推移
27
再学習中・後の振る舞い
近傍に
従う
報酬
相対角度
でみると
ほぼ同様
Randomやhand-craftより
Optimalと類似の推移

実験２ The Ising Model
100x100の格子上にスピン(±𝟏)をもつAgentを配置
Global energy 系全体でのスピンの一致度合い
観測 local energy
行動スピンの維持、反転
Expert 近傍で最も多いスピンを選択
28
Local energy
スピンが不一致

実験２ The Ising Model
近傍Agentとスピンを揃える
29
推定報酬
下がるとスピン一致
Optimalと類似
再学習中のGlobal energy

目次
30
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
DNN
利用
Wang18
なし／Zero-sum
Song18

Zero-sum game [Lin+ 18]
2人zero-sum game
報酬の事前知識を導入可能(Bayesian-base)
方策・状態遷移確率所与
31
特徴
Minimax均衡
IRL with Gaussian Process [Qiao+ 11] ※省略
Bayesian推定を凸二次計画で定式化
軌跡の生成にガウス過程を導入
Key point
2. 特殊条件下のMAIRL：2人Zero-sum game [Lin+ 18]

ベイズによる定式化
32
ベイズの定理
制約条件を計算しやすい形式に書き換え
MAP推定
事前分布
尤度
事後分布

Minimax均衡制約の導入
Minimax均衡では，全ての状態で以下が成り立つ
33
Minimax均衡制約の書き換え
二次計画問題
𝐵:𝜋のmatrix
𝐷:報酬ベクトルをQ値matrixへ変換
−log(𝑓 𝑟 :凹関数
Minimax均衡制約

Soccer game (2Agent)
 ボールをGoalへ運ぶかシュート
 同じマス移動時にボール交換
 報酬の事前分布
平均値
Weak ボール所持
Strong ゴール位置・シュート
共分散
Weak 分散一定・相関なし
Strong 移動行動は座標と相関
34
Grid World版Soccer
適切な事前分布で
推定可能
推定報酬
GoalGoal
提案
IRL
[Reddy12]
Reward Index

推定報酬から再学習
事前分布と再学習環境のパラメータ𝛽に対する勝率(W/L)
適切な事前分布で
真の報酬と同等か他手法より強い
35
提案 vs 真の報酬提案 vs IRL
提案 vs [Reddy12] 提案 vs BC(重回帰分析)

目次
36
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
Lin18
なし／Zero-sum
2人zero-sum game
Bogert18
DNN
利用
Wang18
なし／Zero-sum
Song18

対象問題 Penetrating perimeter patrols by multiple robots
二体の警備ロボが狭い廊下を巡回
侵入者
1. 一定位置から警備ロボを観察
2. 推定報酬から振舞予測
3. 警備ロボに見つからず所定位置に侵入
37
俯瞰図
2. 特殊条件下のMAIRL：相互作用が疎＋Occlusion [Bogert+ 18]

Occlusion,相互作用が疎 [Bogert+ 18]
MaxEnt IRLベース
Occlusion Expertの軌跡が一部観測不可
相互作用すれ違う警備ロボットの報酬推定
38
特徴
観測空間が限定的なMaxEnt IRLの定式化
相互作用が疎かつ状態遷移確率不明のInner-Loop
Key point

定式化
方策分布のエントロピーを最大化
観測可能な状態集合𝑂𝑏𝑠(𝑆)のみ考慮
全Agentを考慮した状態訪問頻度を計算する必要
39
エントロピー最大化
確率条件
特徴期待値
一致

状態訪問頻度の計算
40
Dynamic programming
相互作用の考慮・状態遷移確率が必要
MaxEnt IRLのBackward・Forward pass
相互作用状態でone-step gameを実行
利得行列から均衡を計算，相互作用状態では均衡に従う
相互作用の考慮利得行列所与
観測した軌跡にあう確率を推定
状態遷移確率を推定 ※省略
𝑠’が相互作用状態なら均衡，それ以外は方策

実験設定
 状態離散座標
 行動前進・停止・回転±90, 180
 特徴量移動で1, 回転180で1
 Expert X付近で折り返し
41
警備ロボ
1. 一定時間警備ロボを観測
2. IRLで報酬を推定．再学習して振舞予測
3. 警備ロボの位置に負の報酬
目標座標に正の報酬を設定しRL
4. 警備に見つからずに行ける経路があれば実行
5. ない場合は1に戻る
侵入者
侵
警
警

Simulation実験
観測可能領域大
観測時間長
予測が改善
42
推定方策の一致度
報酬既知よりは低い
状態遷移推定で改善
侵入成功率
状態遷移確率Tのパラメータ
(T所与のアルゴリズムのみ)
成
功
率
観測可能領域観測時間
振
舞
一
致
度

実機環境
成功例
警備ロボが両方通り過ぎるのを待って
移動を開始
43
俯瞰図

小まとめ
44
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
△
Expert軌跡
任意
Lin18
なし／Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし／Zero-sum
Song18
Pros
 Taskに応じて使い分け
Cons
 連続状態が扱えない

目次
45
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
△
Expert軌跡
任意
Lin18
なし／Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし／Zero-sum
Song18

Zero-sum game [Wang+ 18]
2人zero-sum game
深層強化学習(論文中ではPPO)を導入
Sub-optimalなExpert軌跡
46
特徴
Nash均衡とExpert方策のGAP最小化
敵対型学習によりNash均衡を学習
Key point
3. DeepNNの利用：2人Zero-sum＋Sub-opt [Wang+ 18]

Nash均衡とExpert方策の関係
47
Nash均衡(𝑓∗
, 𝑔∗
)
任意の状態・方策𝑓, 𝑔について
Expert方策がSub-Optimalの場合
状態価値
Expert方策

定式化
均衡方策とExpert方策の状態価値の差の期待値
48
Nash均衡とExpert方策のGAP
定式化 GAPを最小化
Nash均衡

Algorithm
49
各Agentごとに
Nash均衡計算
SampleからGAP推定
報酬パラメータ更新
均衡が求まったら報酬更新

SampleからGAP推定
報酬パラメータ更新
Algorithm
50
各Agentごとに
Nash均衡計算
均衡が求まったら報酬更新
敵対的学習
• Nash均衡𝑓を求めるサブルーチン
• 相手方策𝑔の更新を優先
• 局所解なし(Proposition1)

Chasing game
 Agent2体
 各Agentが𝑓1, 𝑓2 か𝑔1, 𝑔2を制御
 𝑓は𝑔へ接近・𝑔は𝑓から逃走
 True reward
 Expertの生成
1. 敵対学習でNash均衡解を生成
2. 確率𝜖でランダム行動
51
Predators(𝑓1, 𝑓2) vs Prey(𝑔1, 𝑔2)
True Rewardと相関あり
推定報酬

Chasing game
ランダム・学習初期より
Nash均衡に近い
52
Nash均衡解とのKL距離
ランダム・学習初期より
Nash均衡に近い
再学習時の獲得報酬
Random||𝑔∗
初期||𝑔∗
推定||𝑔∗
Random||𝑓∗
初期||𝑓∗
推定||𝑓∗
Random vs 𝑔∗
初期 vs 𝑔∗
推定 vs 𝑔∗
Random vs 𝑓∗
初期 vs 𝑓∗
推定 vs 𝑓∗
𝑓∗
vs 𝑔∗

目次
53
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
△
Expert軌跡
任意
Lin18
なし／Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし／Zero-sum
Song18

Multi-agent GAIL [Song+ 18]
Generative adversarial imitation learning[Ho16]を一般化
問題分割なし
Actor-critic baseのMulti-agent natural policy gradで学習
Discriminatorの構造に報酬の知識反映
54
特徴
Nash均衡を求めるの最適化問題
GAIL [Ho+ 16]
定式化のカギ
3. DeepNNの利用：Multi-agent GAIL [Song+ 18]

Nash均衡解
獲得報酬を増やせる他方策・Agentが存在しない
55
𝜋𝑖 𝑖=1
𝑁
がNash均衡の必要十分条件
制約付き最適化問題（式2,3）

MaxEntに基づくMAIRL定式化
Nash均衡制約＋エントロピー正則化
56
Multi-agent強化学習
Agentに関して和をとった形
Multi-agent逆強化学習
・制約条件書き換え
・ラグランジュ緩和
MaxEnt IRL
の場合

GANによる解法
Generator 方策パラメータ𝜃
Discriminator 𝜔
57
目的関数
Discriminatorに事前知識を導入
※Zero-sumの詳細不明

実験設定
Cooperative communication 協調
Cooperative navigation 協調
Keep-away 競合
Predator-prey 競合
58
Particle environment (MADDPG環境とほぼ同様)
協力問題
複数の二足歩行ロボで長い板を運ぶ
Control task

実験設定
59
Behavioral cloning Expert軌跡を最尤推定
GAIL BCで他Agentを事前学習・一体ずつGAIL
比較
協調タスク analytic expression ※詳細な記述なし
競合タスク MACKの学習結果
各50timestep, 100～400episodeの軌跡
Expert軌跡の生成
エピソードごとに初期位置・障害物をランダム生成
その他

Particle Env. 協調task 獲得方策
60
Behavioral cloning MGAIL

Particle Env. 協調task
平均獲得報酬
MAGIRL>BC
Expert数に応じて獲得報酬が高い
Centralized>Decentralized

Particle Env. 競合task 獲得方策
62
緑：BC 赤：BC 緑：GAIL 赤：BC

Particle Env. 競合task
BC vs. 各アルゴリズムの獲得報酬
Decentralized, Zero-sumの獲得報酬が最大
事前知識が重要

Cooperative control 獲得方策
64
Expert生成環境
 地面が平＋板重
テスト環境
 凹凸あり＋板軽
Expert
BC GAIL

まとめ
65
対象問題
algorithm
線形
計画
Natarajan10
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
Swarm system
△
Expert軌跡
任意
Lin18
なし／Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし／Zero-sum
○
Expert軌跡
なし
Song18
○
Expert軌跡
GAIL

参考文献
[Natarajan10] Natarajan, S., et al., “Multi-Agent Inverse Reinforcement Learning.”
in 2010 Ninth International Conference on Machine Learning and Applications,
pp. 395–400 (2010)
[Reddy12] Reddy, T. S., et al., “Inverse reinforcement learning for decentralized non-
cooperative multiagent systems.” in 2012 IEEE International Conference on Systems,
pp. 1930–1935 (2012)
[ŠoŠić17] Šošić, A., et al., “Inverse Reinforcement Learning in Swarm Systems.”
in Proceedings of the 16th Conference on Autonomous Agents and Multi Agent Systems,
pp. 1413–1421 (2017)
[Bogert18] Bogert, K., et al., "Multi-robot inverse reinforcement learning under occlusion
with estimation of state transitions ." Artificial Intelligence, vol. 263, pp. 46–73 (2018)
[Lin18] Lin, X., et al., "Multiagent Inverse Reinforcement Learning for Two-Person
Zero-Sum Games." IEEE Transactions on Games, vol. 10, no. 1, pp. 56–68 (2018)
[Wang18] Wang, X., et al., "Competitive Multi-agent Inverse Reinforcement Learning
with Sub-optimal Demonstrations." in Proceedings of the 35th International Conference
on Machine Learning, vol. 80, pp. 5143–5151 (2018)
[Song18] Song, J., et al. "Multi-agent generative adversarial imitation learning."
Advances in Neural Information Processing Systems, pp. 7461-7472 (2018)
66

Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定

More Related Content

What's hot (20)

Similar to Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定 (20)

Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定