26. 実験1 The Vicsek model
二次元平面上をAgentが移動
周期的境界条件
観測 半径𝜌以内の平均速度
行動 方向-60, -50, … , +50, +60
Expert方策
26
方向
座標
平均方向 ノイズ
速度
定常状態での例
色の濃さ=時間経過
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
27. 実験1 The Vicsek model
推定報酬(平均方向との差)
再学習中のalignment度合い推移
27
再学習中・後の振る舞い
近傍に
従う
報酬
相対角度
でみると
ほぼ同様
Randomやhand-craftより
Optimalと類似の推移
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
28. 実験2 The Ising Model
100x100の格子上にスピン(±𝟏)をもつAgentを配置
Global energy 系全体でのスピンの一致度合い
観測 local energy
行動 スピンの維持、反転
Expert 近傍で最も多いスピンを選択
28
Local energy
スピンが不一致
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
29. 実験2 The Ising Model
近傍Agentとスピンを揃える
29
推定報酬
下がるとスピン一致
Optimalと類似
再学習中のGlobal energy
2. 特殊条件下のMAIRL:Swarm system [ŠoŠić+ 17]
30. 目次
30
問題分割/報酬の構造
対象問題
連続𝑆 所与 Base IRL
algorithm
線形
計画
Natarajan10
あり/General-sum
Cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
Reddy12
なし/General-sum
Non cooperative setting
✕
Expert方策
状態遷移確率
Linear IRL
特殊
条件
ŠoŠić17
なし/Homogeneous
Swarm system
Lin18
なし/Zero-sum
2人zero-sum game
Bogert18
あり/General-sum
相互作用が疎,Occlusion
DNN
利用
Wang18
なし/Zero-sum
準最適Expert, 2人zero-sum
Song18
なし/推定しない
n人general-sum game
31. Zero-sum game [Lin+ 18]
2人zero-sum game
報酬の事前知識を導入可能(Bayesian-base)
方策・状態遷移確率所与
31
特徴
Minimax均衡
IRL with Gaussian Process [Qiao+ 11] ※省略
Bayesian推定を凸二次計画で定式化
軌跡の生成にガウス過程を導入
Key point
2. 特殊条件下のMAIRL:2人Zero-sum game [Lin+ 18]
66. 参考文献
[Natarajan10] Natarajan, S., et al., “Multi-Agent Inverse Reinforcement Learning.”
in 2010 Ninth International Conference on Machine Learning and Applications,
pp. 395–400 (2010)
[Reddy12] Reddy, T. S., et al., “Inverse reinforcement learning for decentralized non-
cooperative multiagent systems.” in 2012 IEEE International Conference on Systems,
pp. 1930–1935 (2012)
[ŠoŠić17] Šošić, A., et al., “Inverse Reinforcement Learning in Swarm Systems.”
in Proceedings of the 16th Conference on Autonomous Agents and Multi Agent Systems,
pp. 1413–1421 (2017)
[Bogert18] Bogert, K., et al., "Multi-robot inverse reinforcement learning under occlusion
with estimation of state transitions ." Artificial Intelligence, vol. 263, pp. 46–73 (2018)
[Lin18] Lin, X., et al., "Multiagent Inverse Reinforcement Learning for Two-Person
Zero-Sum Games." IEEE Transactions on Games, vol. 10, no. 1, pp. 56–68 (2018)
[Wang18] Wang, X., et al., "Competitive Multi-agent Inverse Reinforcement Learning
with Sub-optimal Demonstrations." in Proceedings of the 35th International Conference
on Machine Learning, vol. 80, pp. 5143–5151 (2018)
[Song18] Song, J., et al. "Multi-agent generative adversarial imitation learning."
Advances in Neural Information Processing Systems, pp. 7461-7472 (2018)
66