SlideShare a Scribd company logo
Multi-Agent Inverse
Reinforcement Learning
相互作用する行動主体の報酬推定
千葉大学
融合理工学府
浪越圭一
第37回 強化学習アーキテクチャ勉強会 (H31/4/23)
Profile
浪越圭一(Namikoshi Keiichi)
千葉大学荒井研究室所属
博士2年
経歴
産総研社会知能研究チームRA (2017~2018)
特別研究員DC2 (2019~)
研究テーマ
実データに基づくMulti-agent simulation構築
2
逆強化学習(IRL)
3
対象問題
強化学習の報酬設計
Expertの目的推定・行動予測
タクシーの運転行動解析[Ziebart+ 08], 歩行者予測[Kitani+12]
用途
Linear IRL[Ng+ 00], MaxEnt IRL[Ziebart+ 08],
Bayesian IRL[Ramachandran+ 07], GAIL[Ho+ 16], …
※詳細は過去の勉強会資料へ
定式化
MarkovDecisionProcess
< 𝑆, 𝐴, 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝑎 𝑡
Expert報酬
𝑅
𝑆:状態集合 𝐴:行動集合 𝑃(𝑠′
|𝑠, 𝑎):状態遷移確率 𝛾:割引率
0. 逆強化学習からMulti-agent逆強化学習へ
逆強化学習(IRL)
4
対象問題
推定報酬の最適方策とExpert軌跡を比較
内部で強化学習(RL)を解く
報酬の更新
0. 逆強化学習からMulti-agent逆強化学習へ
MarkovDecisionProcess
< 𝑆, 𝐴, 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝑎 𝑡
Expert報酬
𝑅
𝑆:状態集合 𝐴:行動集合 𝑃(𝑠′
|𝑠, 𝑎):状態遷移確率 𝛾:割引率
Expert
と比較
方策
計算
報酬
更新
荒井幸代, et al., “強化学習における脱創発志向の
潮流 : 試行錯誤~見まね~目的理解へ”, 人工知能
学会誌, vol. 33, 2, pp170-180
Multi-agent IRLのボトルネック
Expert報酬
{𝑅𝑖}
Multi-agent逆強化学習(MAIRL)
Agentが複数
他Agentの行動が報酬・状態遷移確率に影響
5
対象問題
MARLの諸問題がそのまま発生
非定常性 他Agentも同時に学習
均衡解 ジレンマの発生
状態・行動空間爆発 Agent数に応じて指数オーダー
MARILの難しさ
0. 逆強化学習からMulti-agent逆強化学習へ
Stochastic Game
< 𝑁, 𝑆, 𝐴𝑖 , 𝑃, 𝛾 >
Expert軌跡
𝐷 = 𝑠𝑡, 𝒂 𝒕
𝑁:Agent集合 𝐴𝑖:Agent 𝑖の行動集合 𝑃(𝑠′
|𝑠, 𝒂):状態遷移確率 𝒂 = (𝑎1, … , 𝑎 𝑛):結合行動
Multi-agent逆強化学習の分類軸
6
なし Multi-agent RLで方策計算
あり MDPへ問題分割,RLで方策計算
問題分割
Homogeneous性 𝑅𝑖 = 𝑅𝑗
対称性 ∑𝑅𝑖 = 0
General-sum 仮定なし
報酬の構造
0. 逆強化学習からMulti-agent逆強化学習へ
目次
7
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
Reddy12
なし/General-sum
Non cooperative setting
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
目次
8
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
Reddy12
なし/General-sum
Non cooperative setting
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Cooperative setting [Natarajan+ 10]
MAIRLをはじめて定式化
全Agentが協調してcommon goalを目指すタスク
9
特徴
Linear IRL [Ng+ 00]
中央制御Agentの導入
Multi-objective RL [Natarajan+ 05]をMulti-agentへ読み替え
Key point
1. 線形計画:Cooperative setting [Natarajan+ 10]
Linear IRL [Ng+ 00]
Theorem 3[Ng+ 00]
有限状態空間𝑆,行動集合𝐴,割引率𝛾のもとで𝜋 𝑠 ≡ 𝑎1が最適
↔ 𝑎1以外の行動で以下が成り立つ
10
制約条件 Expert方策=最適方策
定式化 Expert方策と状態遷移確率所与の線形計画問題
𝑷 𝑎:行動aをとったときの
状態遷移行列
𝑹:報酬ベクトル
1. 線形計画:Cooperative setting [Natarajan+ 10]
Multi-objective RL [Natarajan+ 05]
11
更新則 報酬ベクトルと平均報酬最大化
「Agent1体・目的複数」を「中央Agent1体・Agent複数」へ
各Agentの報酬を重みづけ収益を中央Agentが最大化
各Agentの行動を中央Agentが決定
目的をAgentに読み替え
状態価値観数に相当
greedy行動選択
平均報酬の更新
平均報酬
1. 線形計画:Cooperative setting [Natarajan+ 10]
(中央Agentからみた)最適性条件
Theorem 3.1 [Natarajan+ 10]
有限状態空間𝑆, (joint)行動集合𝐴,状態遷移確率𝑃𝑎 のもとで𝑎1が最適行動
↔Average adjusted reward(報酬𝑟と平均報酬𝜌の差)が以下を満たす
12
𝑤:Agentに対する重み
平均
報酬
報酬
1. 線形計画:Cooperative setting [Natarajan+ 10]
定式化と問題分割
13
分割前 全体の報酬𝜃+M体への配分𝜃1≤𝑖≤𝑀を推定
分割後 Expert方策から各Agentの報酬𝜃を推定
仮定①重み𝑤𝑖 = 1/𝑀
仮定②状態空間をAgentごとに分割
1. 線形計画:Cooperative setting [Natarajan+ 10]
分散信号制御 (4Agent)
 状態 周辺の車両密度
 行動 青色にする信号方向
 Expert highway最優先のif-then rule
14
Trafficの最小化問題
Expertとの一致度
Expertデータのtuple(s,a,s’)数
方
策
の
一
致
率
Time steps
車
両
数
途中から
Expertを逸脱
Expertより
良い制御則
再学習のPerformance
1. 線形計画:Cooperative setting [Natarajan+ 10]
highway
Non-Cooperative setting [Reddy+ 12]
Linear IRL [Ng+ 00]の拡張
General-sum gameへ適用可能
Cooperative setting [Natarajan+ 10]を含む一般化
15
特徴
Nash均衡を制約条件化
Key point
1. 線形計画:Non-cooperative setting [Reddy+ 12]
Nash均衡を制約条件化
𝜋∗(𝑠) がNash均衡
↔ 全Agent 𝑖と状態𝑠 ∈ 𝑆で以下が成り立つ
16
Nash均衡 (or Nash perfect 均衡)
Theorem 4.1
Agent集合,有限状態空間𝑆, Agent 𝑖の行動集合𝐴i = (𝑎𝑖1
, … , 𝑎𝑖 𝑚
),
状態遷移確率𝑃𝑎 𝑖,𝑎−𝑖
, 割引率𝛾のもとで𝜋∗(𝑠) ≡ 𝜋𝑖
∗
𝜋−𝑖
∗
がNash均衡解
↔ 報酬Riは以下を満たす
Nash均衡条件
1. 線形計画:Non-cooperative setting [Reddy+ 12]
定式化
17
Agent 𝑖について
Expert方策・状態遷移確率所与
※Expert軌跡所与の場合についても議論あり
報酬は状態にのみ依存
注意
1. 線形計画:Non-cooperative setting [Reddy+ 12]
Grid world (2 agent)
 状態は座標・行動は4方向
 初期状態 ランダム
 終了条件 どちらかがGoalするまで
 Expert Nash-Q learningで生成
18
衝突を回避しつつGoalへ移動
一部異なる均衡に収束
真の報酬に近い推定
報酬値(Agent1/2)
Goal+100, 中央-100, 衝突-100
報
酬
値
状態
推定報酬から再学習
複数の均衡がある場合
特定の均衡の獲得保証なし
1. 線形計画:Non-cooperative setting [Reddy+ 12]
小まとめ
19
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Pros
 General-sumが扱える
 Linear IRLの素直な拡張
Cons
 方策・状態遷移確率所与
目次
20
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Swarm system [ŠoŠić+ 17]
Homogeneous性を利用してSingle-agentのIRLに落とす
様々なIRLを適用可能
21
特徴
swarMDP
3種類の価値関数
Heterogeneous Q-learning
Key point
IRLの共通手順
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
swarMDP
性質1 Homogeneity
全Agentは共通の構造をもち
各Agentが交換可能
22
DecPOMDPにHomogeneous性を仮定
性質2 Locality
部分観測
各Agentごとの周辺のみ観測可能
状態
報酬 行動
観測
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
3種類の価値関数
Global value 状態に非依存
23
Private Value 状態価値
Local value 観測価値
Agent・時刻に依存
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
3種類の価値関数
Global value 状態に非依存
Sampling軌跡から計算
特徴期待値計算に利用
24
Private Value 状態価値
Local value 観測価値
Heterogeneous Q-learning
Proposition 1 Proposition 1
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
Heterogeneous Q-learning
1. 温度パラメータによりExploringとGreedy agentを割当て
2. 行動選択,報酬と次状態を観測
3. Q値を更新
4. 学習率・温度パラメータを減らし1に戻る
25
青:Greedy 赤:Exploring
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
実験1 The Vicsek model
二次元平面上をAgentが移動
周期的境界条件
観測 半径𝜌以内の平均速度
行動 方向-60, -50, … , +50, +60
Expert方策
26
方向
座標
平均方向 ノイズ
速度
定常状態での例
色の濃さ=時間経過
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
実験1 The Vicsek model
推定報酬(平均方向との差)
再学習中のalignment度合い推移
27
再学習中・後の振る舞い
近傍に
従う
報酬
相対角度
でみると
ほぼ同様
Randomやhand-craftより
Optimalと類似の推移
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
実験2 The Ising Model
100x100の格子上にスピン(±𝟏)をもつAgentを配置
Global energy 系全体でのスピンの一致度合い
観測 local energy
行動 スピンの維持、反転
Expert 近傍で最も多いスピンを選択
28
Local energy
スピンが不一致
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
実験2 The Ising Model
近傍Agentとスピンを揃える
29
推定報酬
下がるとスピン一致
Optimalと類似
再学習中のGlobal energy
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
目次
30
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Zero-sum game [Lin+ 18]
2人zero-sum game
報酬の事前知識を導入可能(Bayesian-base)
方策・状態遷移確率所与
31
特徴
Minimax均衡
IRL with Gaussian Process [Qiao+ 11] ※省略
Bayesian推定を凸二次計画で定式化
軌跡の生成にガウス過程を導入
Key point
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
ベイズによる定式化
32
ベイズの定理
制約条件を計算しやすい形式に書き換え
MAP推定
事前分布
尤度
事後分布
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
Minimax均衡制約の導入
Minimax均衡では,全ての状態で以下が成り立つ
33
Minimax均衡制約の書き換え
二次計画問題
𝐵:𝜋のmatrix
𝐷:報酬ベクトルをQ値matrixへ変換
−log(𝑓 𝑟 :凹関数
Minimax均衡制約
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
Soccer game (2Agent)
 ボールをGoalへ運ぶかシュート
 同じマス移動時にボール交換
 報酬の事前分布
平均値
Weak ボール所持
Strong ゴール位置・シュート
共分散
Weak 分散一定・相関なし
Strong 移動行動は座標と相関
34
Grid World版Soccer
適切な事前分布で
推定可能
推定報酬
GoalGoal
提案
IRL
[Reddy12]
Reward Index
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
推定報酬から再学習
事前分布と再学習環境のパラメータ𝛽に対する勝率(W/L)
適切な事前分布で
真の報酬と同等か他手法より強い
35
提案 vs 真の報酬 提案 vs IRL
提案 vs [Reddy12] 提案 vs BC(重回帰分析)
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
目次
36
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
対象問題 Penetrating perimeter patrols by multiple robots
二体の警備ロボが狭い廊下を巡回
侵入者
1. 一定位置から警備ロボを観察
2. 推定報酬から振舞予測
3. 警備ロボに見つからず所定位置に侵入
37
俯瞰図
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
Occlusion,相互作用が疎 [Bogert+ 18]
MaxEnt IRLベース
Occlusion Expertの軌跡が一部観測不可
相互作用 すれ違う警備ロボットの報酬推定
38
特徴
観測空間が限定的なMaxEnt IRLの定式化
相互作用が疎かつ状態遷移確率不明のInner-Loop
Key point
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
定式化
方策分布のエントロピーを最大化
観測可能な状態集合𝑂𝑏𝑠(𝑆)のみ考慮
全Agentを考慮した状態訪問頻度を計算する必要
39
エントロピー最大化
確率条件
特徴期待値
一致
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
状態訪問頻度の計算
40
Dynamic programming
相互作用の考慮・状態遷移確率が必要
MaxEnt IRLのBackward・Forward pass
相互作用状態でone-step gameを実行
利得行列から均衡を計算,相互作用状態では均衡に従う
相互作用の考慮 利得行列所与
観測した軌跡にあう確率を推定
状態遷移確率を推定 ※省略
𝑠’が相互作用状態なら均衡,それ以外は方策
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
実験設定
 状態 離散座標
 行動 前進・停止・回転±90, 180
 特徴量 移動で1, 回転180で1
 Expert X付近で折り返し
41
警備ロボ
1. 一定時間警備ロボを観測
2. IRLで報酬を推定.再学習して振舞予測
3. 警備ロボの位置に負の報酬
目標座標に正の報酬を設定しRL
4. 警備に見つからずに行ける経路があれば実行
5. ない場合は1に戻る
侵入者
侵
警
警
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
Simulation実験
観測可能領域 大
観測時間 長
予測が改善
42
推定方策の一致度
報酬既知よりは低い
状態遷移推定で改善
侵入成功率
状態遷移確率Tのパラメータ
(T所与のアルゴリズムのみ)
成
功
率
観測可能領域観測時間
振
舞
一
致
度
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
実機環境
成功例
警備ロボが両方通り過ぎるのを待って
移動を開始
43
俯瞰図
2. 特殊条件下のMAIRL:相互作用が疎+Occlusion [Bogert+ 18]
小まとめ
44
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
△
Expert軌跡
任意
Lin18
なし/Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
あり/General-sum
相互作用が疎,Occlusion
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Pros
 Taskに応じて使い分け
Cons
 連続状態が扱えない
目次
45
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
△
Expert軌跡
任意
Lin18
なし/Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
あり/General-sum
相互作用が疎,Occlusion
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Zero-sum game [Wang+ 18]
2人zero-sum game
深層強化学習(論文中ではPPO)を導入
Sub-optimalなExpert軌跡
46
特徴
Nash均衡とExpert方策のGAP最小化
敵対型学習によりNash均衡を学習
Key point
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
Nash均衡とExpert方策の関係
47
Nash均衡(𝑓∗
, 𝑔∗
)
任意の状態・方策𝑓, 𝑔について
Expert方策がSub-Optimalの場合
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
状態価値
Expert方策
定式化
均衡方策とExpert方策の状態価値の差の期待値
48
Nash均衡とExpert方策のGAP
定式化 GAPを最小化
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
Nash均衡
Algorithm
49
各Agentごとに
Nash均衡計算
SampleからGAP推定
報酬パラメータ更新
均衡が求まったら報酬更新
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
SampleからGAP推定
報酬パラメータ更新
Algorithm
50
各Agentごとに
Nash均衡計算
均衡が求まったら報酬更新
敵対的学習
• Nash均衡𝑓を求めるサブルーチン
• 相手方策𝑔の更新を優先
• 局所解なし(Proposition1)
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
Chasing game
 Agent2体
 各Agentが𝑓1, 𝑓2 か𝑔1, 𝑔2を制御
 𝑓は𝑔へ接近・𝑔は𝑓から逃走
 True reward
 Expertの生成
1. 敵対学習でNash均衡解を生成
2. 確率𝜖でランダム行動
51
Predators(𝑓1, 𝑓2) vs Prey(𝑔1, 𝑔2)
True Rewardと相関あり
推定報酬
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
Chasing game
ランダム・学習初期より
Nash均衡に近い
52
Nash均衡解とのKL距離
ランダム・学習初期より
Nash均衡に近い
再学習時の獲得報酬
Random||𝑔∗
初期||𝑔∗
推定||𝑔∗
Random||𝑓∗
初期||𝑓∗
推定||𝑓∗
Random vs 𝑔∗
初期 vs 𝑔∗
推定 vs 𝑔∗
Random vs 𝑓∗
初期 vs 𝑓∗
推定 vs 𝑓∗
𝑓∗
vs 𝑔∗
3. DeepNNの利用:2人Zero-sum+Sub-opt [Wang+ 18]
目次
53
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
△
Expert軌跡
任意
Lin18
なし/Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
あり/General-sum
相互作用が疎,Occlusion
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
Multi-agent GAIL [Song+ 18]
Generative adversarial imitation learning[Ho16]を一般化
問題分割なし
Actor-critic baseのMulti-agent natural policy gradで学習
Discriminatorの構造に報酬の知識反映
54
特徴
Nash均衡を求めるの最適化問題
GAIL [Ho+ 16]
定式化のカギ
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Nash均衡解
獲得報酬を増やせる他方策・Agentが存在しない
55
𝜋𝑖 𝑖=1
𝑁
がNash均衡の必要十分条件
制約付き最適化問題(式2,3)
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
MaxEntに基づくMAIRL定式化
Nash均衡制約+エントロピー正則化
56
Multi-agent強化学習
Agentに関して和をとった形
Multi-agent逆強化学習
・制約条件書き換え
・ラグランジュ緩和
MaxEnt IRL
の場合
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
GANによる解法
Generator 方策パラメータ𝜃
Discriminator 𝜔
57
目的関数
Discriminatorに事前知識を導入
※Zero-sumの詳細不明
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
実験設定
Cooperative communication 協調
Cooperative navigation 協調
Keep-away 競合
Predator-prey 競合
58
Particle environment (MADDPG環境とほぼ同様)
協力問題
複数の二足歩行ロボで長い板を運ぶ
Control task
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
実験設定
59
Behavioral cloning Expert軌跡を最尤推定
GAIL BCで他Agentを事前学習・一体ずつGAIL
比較
協調タスク analytic expression ※詳細な記述なし
競合タスク MACKの学習結果
各50timestep, 100~400episodeの軌跡
Expert軌跡の生成
エピソードごとに初期位置・障害物をランダム生成
その他
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Particle Env. 協調task 獲得方策
60
Behavioral cloning MGAIL
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Particle Env. 協調task
平均獲得報酬
MAGIRL>BC
Expert数に応じて獲得報酬が高い
Centralized>Decentralized
613. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Particle Env. 競合task 獲得方策
62
緑:BC 赤:BC 緑:GAIL 赤:BC
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Particle Env. 競合task
BC vs. 各アルゴリズムの獲得報酬
Decentralized, Zero-sumの獲得報酬が最大
事前知識が重要
633. DeepNNの利用:Multi-agent GAIL [Song+ 18]
Cooperative control 獲得方策
64
Expert生成環境
 地面が平+板重
テスト環境
 凹凸あり+板軽
Expert
BC GAIL
3. DeepNNの利用:Multi-agent GAIL [Song+ 18]
まとめ
65
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
△
Expert軌跡
任意
Lin18
なし/Zero-sum
2人zero-sum game
✕
Expert方策
状態遷移確率
Bayesian IRL
Bogert18
あり/General-sum
相互作用が疎,Occlusion
-
Expert軌跡
利得行列
MaxEnt IRL
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
○
Expert軌跡
なし
Song18
なし/推定しない
n人general-sum game
○
Expert軌跡
GAIL
参考文献
[Natarajan10] Natarajan, S., et al., “Multi-Agent Inverse Reinforcement Learning.”
in 2010 Ninth International Conference on Machine Learning and Applications,
pp. 395–400 (2010)
[Reddy12] Reddy, T. S., et al., “Inverse reinforcement learning for decentralized non-
cooperative multiagent systems.” in 2012 IEEE International Conference on Systems,
pp. 1930–1935 (2012)
[ŠoŠić17] Šošić, A., et al., “Inverse Reinforcement Learning in Swarm Systems.”
in Proceedings of the 16th Conference on Autonomous Agents and Multi Agent Systems,
pp. 1413–1421 (2017)
[Bogert18] Bogert, K., et al., "Multi-robot inverse reinforcement learning under occlusion
with estimation of state transitions ." Artificial Intelligence, vol. 263, pp. 46–73 (2018)
[Lin18] Lin, X., et al., "Multiagent Inverse Reinforcement Learning for Two-Person
Zero-Sum Games." IEEE Transactions on Games, vol. 10, no. 1, pp. 56–68 (2018)
[Wang18] Wang, X., et al., "Competitive Multi-agent Inverse Reinforcement Learning
with Sub-optimal Demonstrations." in Proceedings of the 35th International Conference
on Machine Learning, vol. 80, pp. 5143–5151 (2018)
[Song18] Song, J., et al. "Multi-agent generative adversarial imitation learning."
Advances in Neural Information Processing Systems, pp. 7461-7472 (2018)
66

More Related Content

PPTX
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
PPTX
[DL輪読会]逆強化学習とGANs
PDF
バンディット問題の理論とアルゴリズムとその実装
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
PPTX
勾配降下法の 最適化アルゴリズム
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
[DL輪読会]逆強化学習とGANs
バンディット問題の理論とアルゴリズムとその実装
論文紹介-Multi-Objective Deep Reinforcement Learning
強化学習と逆強化学習を組み合わせた模倣学習
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
勾配降下法の 最適化アルゴリズム

What's hot (20)

PPTX
海鳥の経路予測のための逆強化学習
PDF
TensorFlowで逆強化学習
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
Contrastive learning 20200607
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
PPTX
A3C解説
PDF
正準相関分析
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
「これからの強化学習」勉強会#1
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
機械学習におけるオンライン確率的最適化の理論
PDF
多様な強化学習の概念と課題認識
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
PDF
物体検出の歴史まとめ(1) 20180417
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PDF
全力解説!Transformer
PDF
Word2vecの理論背景
海鳥の経路予測のための逆強化学習
TensorFlowで逆強化学習
Domain Adaptation 発展と動向まとめ(サーベイ資料)
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Contrastive learning 20200607
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
A3C解説
正準相関分析
【DL輪読会】Scaling Laws for Neural Language Models
「これからの強化学習」勉強会#1
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
機械学習におけるオンライン確率的最適化の理論
多様な強化学習の概念と課題認識
[DL輪読会]Deep Learning 第15章 表現学習
(修正)機械学習デザインパターン(ML Design Patterns)の解説
物体検出の歴史まとめ(1) 20180417
DQNからRainbowまで 〜深層強化学習の最新動向〜
全力解説!Transformer
Word2vecの理論背景
Ad

Similar to Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定 (20)

PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
PPTX
JSAI2015_Twin_net
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
PDF
強化学習の実適用に向けた課題と工夫
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PPTX
A Generalist Agent
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
ICML2017 参加報告会 山本康生
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
PPTX
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
PPTX
マルチエージェント強化学習 (MARL) と M^3RL
PDF
強化学習その4
PPTX
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
PDF
[Dl輪読会]introduction of reinforcement learning
PPTX
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
JSAI2015_Twin_net
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
[DL輪読会]相互情報量最大化による表現学習
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
強化学習の実適用に向けた課題と工夫
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
A Generalist Agent
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
ICML2017 参加報告会 山本康生
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
マルチエージェント強化学習 (MARL) と M^3RL
強化学習その4
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
[Dl輪読会]introduction of reinforcement learning
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Ad

Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定