[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
論文紹介
Autonomous Reinforcement Learning: Formalism and Benchmarking
Ryoichi Takase, The University of Tokyo

概要： Autonomous Reinforcement Learning (ARL) を定式化
ARLを用いた学習の利点や改善点を考察
1Stanford University
2University of California, Berkeley
3MIT
4Google Brain
*Equal contribution
書誌情報
2
題目： Autonomous Reinforcement Learning: Formalism and Benchmarking
著者： Archit Sharma*1, Kelvin Xu*2, Nikhil Sardana1, Abhishek Gupta3,
Karol Hausman4, Sergey Levine2, Chelsea Finn1
タスクの学習中に環境のリセットを(ほとんど)行わない問題設定
※注釈無しの図は本論文から抜粋
採録： ICLR2022 accepted

背景
3
強化学習の利点：
人間や動物のように試行錯誤から複雑な行動の獲得が可能
強化学習の課題：
現実世界での学習を模擬しているがギャップが大きい
現実世界：継続的で周期的ではない環境
強化学習：周期的に環境がリセットされる（エージェントは多数回の試行が可能）
→ 強化学習を現実世界に適用するにはギャップを埋める作業が必要
この論文はリセットに焦点を当てギャップを小さくすることが目的
※本論文では自律性が高い≒学習環境のリセット回数が少ない
エンジニアリングのコストがかかる

背景：具体例
4
ロボットを用いた家の掃除・整理の学習
理想：
ロボットが自律的に家を探索、掃除道具を理解
→ プロセス全体を通して優れた方策を自身で獲得、家（環境）の変化に対応可能
典型的な強化学習の実験：
人間による介入（エンジニアリング）が必要
→ エージェントは初期条件に一貫してリセットされる、家（環境）の変化に自律的には対応が困難
理想と強化学習の実験の差が大きい

研究目的
5
研究目的：
現実世界と強化学習での学習のギャップを埋める
周期的ではない（non-episodic）環境における学習の定式化、ベンチマークの開発
自律性を考慮した強化学習の研究状況：
強化学習の自律性を評価する一貫した性能指標やベンチマークが存在しない
→ 自律性を考慮した強化学習のアルゴリズムの開発を促進・結果の信頼度を高める

自律的な強化学習のMDP
6
一般的な強化学習のMarkov Decision Process (MDP)：
𝒮: 状態空間
𝒜：行動空間
𝑝：状態遷移確率
𝑟：報酬関数
𝜌：初期状態の分布確率
𝛾：割引率
目的関数 𝐽 𝜋 = 𝔼[ 𝑡=0
∞
𝛾𝑡
𝑟(𝑠𝑡, 𝑎𝑡)] を最大化
初期状態は 𝑠0~𝜌 で毎回リセットされる
自律的（non-episodic）な強化学習のMDP：
学習アルゴリズム 𝔸: {𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1, 𝑟𝑖}𝑖=0
𝑡−1
↦ (𝑎𝑡, 𝜋𝑡)
𝑎𝑡: 環境で実行される行動
𝜋𝑡: 時刻𝑡での方策（評価で使用される）
初期状態は 𝑠0~𝜌 でサンプルされ、𝑠0, 𝑎0, 𝑠1, 𝑎1, … (𝑡 → ∞) と継続される
ただし 𝑠0~𝜌, 𝑎𝑡~𝜋(⋅ |𝑠𝑡), 𝑠𝑡+1~𝑝(⋅ |𝑠𝑡, 𝑎𝑡)

定式化
7
２つの問題設定・性能評価指標を定義
1）Deployment setting：
周期的でない環境で学習後、周期性のあるテスト環境に適用して性能評価
→ 一回のタスクで発揮できる能力を評価
目的：テスト環境において高性能を発揮する方策の学習
掃除ロボットの例：散らかった家を掃除する能力を評価
2）Continued learning setting：
周期的でない環境で学習し、性能評価
→ 継続的に性能を保つ能力を評価
目的：持続的に高性能を発揮する方策の学習
掃除ロボットの例：家の清潔さを持続的に保つ能力を評価

定式化
8
２つの問題設定・性能評価指標を定義
1）Deployed policy evaluation：
2）Continuing policy evaluation：
ただし、
→ 値が大きいほど高性能
※性能評価で𝜋𝑡は使用されない
→ 理想の方策𝜋∗との差が小さいほど高性能
ただし、

例外の扱い方
9
周期性の介入：
𝜀を導入して周期的な介入を表現
𝜀が小さい → より自律的であることを意味
𝑝：状態遷移確率
𝜌：初期状態の分布確率
𝟏/𝜺がリセットまでのステップ数と解釈可能：
一般的な強化学習の環境は100~1000ステップでリセット → 𝜀が1e-3～1e-2に対応

数値実験
10
環境のリセット周期が学習性能に与える影響を考察
アルゴリズム：soft actor-critic（SAC）
タスク：cheetah、fish
Biased TD update
1000ステップ毎：
それ以外：
通常のSACの結果（左図）：
リセットまでのステップ数が大きくなるにつれて学習が不安定
Biased TD updateの結果（中央・右図）：
cheetah（infinite-horizonな環境）→性能改善
fish（goal-reachingなタスク）→性能は改善されない

Environments for Autonomous Reinforcement Learning (EARL)
11
代表的な自律学習タスクの設定:
現実世界での自律学習を想定した幅広い種類のタスク
性能評価指標は1）Deployment setting, 2）Continuing learning setting
Tabletop-Organization (TO):
指定された４か所にマグカップを移動
Sawyer-Door (SD):
ドアの施錠
Sawyer-Peg (SP):
目標位置にペグを挿入
Franka-Kitchen (FK):
電子レンジやドアの開放
Dhand-LightBulb (DL):
ランプに電球を挿入
Minitaur-Pen (MP):
ペンを目標位置に移動

数値実験
12
学習のセットアップ
評価指標
アルゴリズム
Continuing policy evaluation: ℂ 𝔸 = 𝑡=0
𝐻𝑚𝑎𝑥
𝑟(𝑠𝑡, 𝑎𝑡)
Deployed policy evaluation:𝔻 𝔸 = 𝑡=0
𝐻𝑚𝑎𝑥
(𝐽𝐷 𝜋∗ − 𝐽𝐷 𝜋𝑡 )
𝐻𝑚𝑎𝑥：トータルのステップ数
𝐻𝑇 ：リセットまでのステップ数
𝐻𝐸 ：評価時のステップ数
naïve RL： Biased TD-update
oracle RL: 環境を𝐻𝐸ステップでリセット (deployed policy evaluationのみ)
FBRL (forward-backward RL)：通常の方策と、環境リセットのための行動を実行する方策
R3L (perturbation controller)： Perturbation controllerを導入し、未踏の状態の探索を奨励
VaPRL (value-accelerated persistent RL)：サブタスクを設定し、タスクを効率的に学習
（結果の表では𝐽𝐷 𝜋𝑡=𝐻𝑚𝑎𝑥
= 𝑡=0
𝐻𝐸
𝑟(𝑠𝑡, 𝑎𝑡)を比較）
少ない周期性の介入を仮定
ARLのアルゴリズム

数値実験：Deployed Policy Evaluation
13
VaPRLのtabletop-organization (TO)とR3Lのminitaur-pen (MP)はoracle RLより高性能
結果の傾向：デモの利用が可能→ VaPRL
デモの利用が不可→ R3Lが良い性能を発揮
しかし、他のタスクではARLはoracle RLを下回る性能
→ ベンチマークの性能を見る限りはARLの性能改善の余地あり

数値実験：Continuing Policy Evaluation
14
ARLは６個中４個のタスクで高性能を発揮
e.g., R3LのDhand-LightBulb (DL)とMinitaur-Pen (MP)
→ Continuing settingでは、未踏状態の探索の奨励は必ずしも性能低下にならない可能性を示唆

ARLの性能低下を考察
15
ARLがoracle RLより性能が低下する理由を考察
oracle RLとFBRLの探索した状態空間の確立分布を比較
リセットあり：初期状態と目標状態の確率分布にとどまる傾向
リセットなし：エージェントはあてもなく彷徨うので、タスクの難易度が上がる傾向
→ 環境のリセットは、エージェントが訪問する状態分布を初期状態と目標状態に近づける働きを示唆

初期状態の確率分布に対するロバスト性
16
Oracle、FBRL、VaPRLで得られた方策に対して、既定の初期状態確率分布から変更
Tabletop-organization (TO) のタスクでロバスト性を評価
ARLはoracle と比較して性能低下を抑えることに成功
→ ARLの設定で学習が成功すると、よりロバストな方策が得られる可能性を示唆
各手法の性能低下の割合：
Oracle： 37.4% 減
FBRL： 14.3 % 減
VaPRL： 2% 減

まとめ
17
Autonomous Reinforcement Learning (ARL) を定式化：
1) Deployed setting
一回のタスクで発揮できる能力を評価
2) Continuing learning setting
継続的に性能を保つ能力を評価
タスクの学習中に環境のリセットを(ほとんど)行わない問題設定
ARLのベンチマークを提案：
Environments for Autonomous Reinforcement Learning (EARL)
現実世界での自律学習を想定した幅広い種類のタスク
性能評価指標は1）Deployment setting, 2）Continuing learning setting

[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking

More Related Content

What's hot (20)

Similar to [DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking (20)

More from Deep Learning JP (20)

[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking