[DL輪読会]Inverse Constrained Reinforcement Learning

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
論⽂紹介：Inverse Constrained Reinforcement Learning
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo

書誌情報
2
題⽬： Inverse Constrained Reinforcement Learning
著者： Usman Anwar, Shehryar Malik, Alireza Aghasi, and Ali Ahmed
採録： ICML2021 accepted
概要：
• 連続⾏動空間でコスト関数の推定⼿法を定式化
• 重点サンプリングと学習の早期打ち切りによる学習の効率化
• コスト関数の転移学習において⾼い性能を発揮
※注釈無しの図は本論⽂から抜粋

背景
3
強化学習:
累積報酬の最大化を目的に学習
制約付き強化学習:
累積報酬を最大化しつつ、制約に関するコストを抑えて学
習
→報酬の最大化と制約の考慮を両立
制約付き逆強化学習:
エキスパートデータからコスト関数を推定し、制約付き強化学習を用い
て学習
→最適なコストの設計、報酬の最大化、制約の考慮を達成 ☺
問題点：現実世界の制約を考慮不可 ☹
問題点：コストの設計が試行錯誤的 ☹

制約付き逆強化学習（ICRL）
4
制約付きマルコフ決定過程(CMDP):
通常のMDPをコスト関数𝑐で拡張
制約条件を満たしつつ割引報酬和を最大化
方策：
コスト：
本論文では𝜶 = 𝟎の場合を扱う
constraint set を定義して以下の問題を解く
コスト関数
従来の試行錯誤的な設計ではなく
エキスパートのデータを用いて推定
CMDPで良い振る舞いをするためのコスト関数の推定
（※報酬関数は設計済みと仮定）

コスト関数の推論
5
制約条件のないMDP の確率分布をとする
に属する軌跡に対しては
0
最大エントロピー（MaxEnt）逆強化学習モデル
最尤推定に基づく定式化：
データセットがMaxEntに基づくと仮
定
エキスパートの軌
跡
制約条件
が最大となるを検討
5

連続⾏動空間での定式化
6
ニューラルネットワークを用いてを近
似：
→ 勾配：
対数尤度：
二項分類器を用いての制約条件への合致を0,1で判断するように学習

学習時の⼯夫
7
重点サンプリング:
学習の早期打ち切り:
forwardとreverse KL-divergenceに閾値を設定
過去の方策からサンプルされたデータを用いて勾配を
近似
大幅なパラメータ更新による性能劣化を防止

方策のパラメータ更新
ICRLのアルゴリズム
8
本論文ではPPO-Lagrangianを使用
コスト関数の更新
重点サンプリングの重みを計算
Early stoppingの判定
勾配計算

数値実験 - 学習環境 -
9
学習環境：
制約に関する情報なし
評価環境：
制約を違反するとエピソードが終了
学習時に制約を考慮しないと評価環境では累積報酬を獲得できない
→ 制約を考慮すれば報酬を獲得できる問題設定

数値実験 - 評価指標 -
10
学習⼿法：
性能評価指標：
1) 制約付きマルコフ決定過程（CMDP）における累積
報酬
2) 制約条件を違反した平均回数
ICRL：本論⽂の提案⼿法
BC（Binary Classifier）：交差エントロピー誤差のみを⽤い
た⼿法
GC（GAIL-Constraint）：報酬と制約を同時に扱う⼿法
制約を回避すれば０に近づく
→ が増加

制約付き逆強化学習の結果
11
各⼿法で⽅策とコスト関数を学習
→ (b) HalfCheetah, (c) Ant でICRLとGCは⾼い性能を発揮
累積報酬
制約違反の回数

コスト関数の転移学習結果
12
制約付き逆強化学習で得たコスト関数を⽤いて (a) Point, (b) Ant-Broken で転移学
習
→ ICRLで得たコスト関数を⽤いると⾼い性能を発揮
累積報酬

学習効率化の有効性の検証
13
重点サンプリング（IS）, 学習の早期打ち切り（ES）を使⽤せず学習
し⽐較
➝ どちらも学習の効率化に有効
累積報酬

まとめ
14
→ 連続⾏動空間でコスト関数の推定⼿法を定式化
→ 既存⼿法より学習を効率化
→ エキスパートと同程度の⾼い性能を発揮
コスト関数の最尤推定において、制約条件に対する判別器を導⼊
学習アルゴリズムに重点サンプリングと学習の早期打ち切りを導⼊
学習したコスト関数を⽤いて転移学習を実施

[DL輪読会]Inverse Constrained Reinforcement Learning

More Related Content

What's hot (20)

More from Deep Learning JP (20)

Recently uploaded (20)

[DL輪読会]Inverse Constrained Reinforcement Learning