SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
論文紹介
Autonomous Reinforcement Learning: Formalism and Benchmarking
Ryoichi Takase, The University of Tokyo
概要: Autonomous Reinforcement Learning (ARL) を定式化
ARLを用いた学習の利点や改善点を考察
1Stanford University
2University of California, Berkeley
3MIT
4Google Brain
*Equal contribution
書誌情報
2
題目: Autonomous Reinforcement Learning: Formalism and Benchmarking
著者: Archit Sharma*1, Kelvin Xu*2, Nikhil Sardana1, Abhishek Gupta3,
Karol Hausman4, Sergey Levine2, Chelsea Finn1
タスクの学習中に環境のリセットを(ほとんど)行わない問題設定
※注釈無しの図は本論文から抜粋
採録: ICLR2022 accepted
背景
3
強化学習の利点:
人間や動物のように試行錯誤から複雑な行動の獲得が可能
強化学習の課題:
現実世界での学習を模擬しているがギャップが大きい
現実世界:継続的で周期的ではない環境
強化学習:周期的に環境がリセットされる(エージェントは多数回の試行が可能)
→ 強化学習を現実世界に適用するにはギャップを埋める作業が必要
この論文はリセットに焦点を当てギャップを小さくすることが目的
※本論文では自律性が高い≒学習環境のリセット回数が少ない
エンジニアリングのコストがかかる
背景:具体例
4
ロボットを用いた家の掃除・整理の学習
理想:
ロボットが自律的に家を探索、掃除道具を理解
→ プロセス全体を通して優れた方策を自身で獲得、家(環境)の変化に対応可能
典型的な強化学習の実験:
人間による介入(エンジニアリング)が必要
→ エージェントは初期条件に一貫してリセットされる、家(環境)の変化に自律的には対応が困難
理想と強化学習の実験の差が大きい
研究目的
5
研究目的:
現実世界と強化学習での学習のギャップを埋める
周期的ではない(non-episodic)環境における学習の定式化、ベンチマークの開発
自律性を考慮した強化学習の研究状況:
強化学習の自律性を評価する一貫した性能指標やベンチマークが存在しない
→ 自律性を考慮した強化学習のアルゴリズムの開発を促進・結果の信頼度を高める
自律的な強化学習のMDP
6
一般的な強化学習のMarkov Decision Process (MDP):
𝒮: 状態空間
𝒜:行動空間
𝑝:状態遷移確率
𝑟:報酬関数
𝜌:初期状態の分布確率
𝛾:割引率
目的関数 𝐽 𝜋 = 𝔼[ 𝑡=0
∞
𝛾𝑡
𝑟(𝑠𝑡, 𝑎𝑡)] を最大化
初期状態は 𝑠0~𝜌 で毎回リセットされる
自律的(non-episodic)な強化学習のMDP:
学習アルゴリズム 𝔸: {𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1, 𝑟𝑖}𝑖=0
𝑡−1
↦ (𝑎𝑡, 𝜋𝑡)
𝑎𝑡: 環境で実行される行動
𝜋𝑡: 時刻𝑡での方策(評価で使用される)
初期状態は 𝑠0~𝜌 でサンプルされ、𝑠0, 𝑎0, 𝑠1, 𝑎1, … (𝑡 → ∞) と継続される
ただし 𝑠0~𝜌, 𝑎𝑡~𝜋(⋅ |𝑠𝑡), 𝑠𝑡+1~𝑝(⋅ |𝑠𝑡, 𝑎𝑡)
定式化
7
2つの問題設定・性能評価指標を定義
1)Deployment setting:
周期的でない環境で学習後、周期性のあるテスト環境に適用して性能評価
→ 一回のタスクで発揮できる能力を評価
目的:テスト環境において高性能を発揮する方策の学習
掃除ロボットの例:散らかった家を掃除する能力を評価
2)Continued learning setting:
周期的でない環境で学習し、性能評価
→ 継続的に性能を保つ能力を評価
目的:持続的に高性能を発揮する方策の学習
掃除ロボットの例:家の清潔さを持続的に保つ能力を評価
定式化
8
2つの問題設定・性能評価指標を定義
1)Deployed policy evaluation:
2)Continuing policy evaluation:
ただし、
→ 値が大きいほど高性能
※性能評価で𝜋𝑡は使用されない
→ 理想の方策𝜋∗との差が小さいほど高性能
ただし、
例外の扱い方
9
周期性の介入:
𝜀を導入して周期的な介入を表現
𝜀が小さい → より自律的であることを意味
𝑝:状態遷移確率
𝜌:初期状態の分布確率
𝟏/𝜺がリセットまでのステップ数と解釈可能:
一般的な強化学習の環境は100~1000ステップでリセット → 𝜀が1e-3~1e-2に対応
数値実験
10
環境のリセット周期が学習性能に与える影響を考察
アルゴリズム:soft actor-critic(SAC)
タスク:cheetah、fish
Biased TD update
1000ステップ毎:
それ以外:
通常のSACの結果(左図):
リセットまでのステップ数が大きくなるにつれて学習が不安定
Biased TD updateの結果(中央・右図):
cheetah(infinite-horizonな環境)→性能改善
fish(goal-reachingなタスク)→性能は改善されない
Environments for Autonomous Reinforcement Learning (EARL)
11
代表的な自律学習タスクの設定:
現実世界での自律学習を想定した幅広い種類のタスク
性能評価指標は1)Deployment setting, 2)Continuing learning setting
Tabletop-Organization (TO):
指定された4か所にマグカップを移動
Sawyer-Door (SD):
ドアの施錠
Sawyer-Peg (SP):
目標位置にペグを挿入
Franka-Kitchen (FK):
電子レンジやドアの開放
Dhand-LightBulb (DL):
ランプに電球を挿入
Minitaur-Pen (MP):
ペンを目標位置に移動
数値実験
12
学習のセットアップ
評価指標
アルゴリズム
Continuing policy evaluation: ℂ 𝔸 = 𝑡=0
𝐻𝑚𝑎𝑥
𝑟(𝑠𝑡, 𝑎𝑡)
Deployed policy evaluation:𝔻 𝔸 = 𝑡=0
𝐻𝑚𝑎𝑥
(𝐽𝐷 𝜋∗ − 𝐽𝐷 𝜋𝑡 )
𝐻𝑚𝑎𝑥:トータルのステップ数
𝐻𝑇 :リセットまでのステップ数
𝐻𝐸 :評価時のステップ数
naïve RL: Biased TD-update
oracle RL: 環境を𝐻𝐸ステップでリセット (deployed policy evaluationのみ)
FBRL (forward-backward RL): 通常の方策と、環境リセットのための行動を実行する方策
R3L (perturbation controller): Perturbation controllerを導入し、未踏の状態の探索を奨励
VaPRL (value-accelerated persistent RL): サブタスクを設定し、タスクを効率的に学習
(結果の表では𝐽𝐷 𝜋𝑡=𝐻𝑚𝑎𝑥
= 𝑡=0
𝐻𝐸
𝑟(𝑠𝑡, 𝑎𝑡)を比較)
少ない周期性の介入を仮定
ARLのアルゴリズム
数値実験:Deployed Policy Evaluation
13
VaPRLのtabletop-organization (TO)とR3Lのminitaur-pen (MP)はoracle RLより高性能
結果の傾向:デモの利用が可能→ VaPRL
デモの利用が不可→ R3Lが良い性能を発揮
しかし、他のタスクではARLはoracle RLを下回る性能
→ ベンチマークの性能を見る限りはARLの性能改善の余地あり
数値実験:Continuing Policy Evaluation
14
ARLは6個中4個のタスクで高性能を発揮
e.g., R3LのDhand-LightBulb (DL)とMinitaur-Pen (MP)
→ Continuing settingでは、未踏状態の探索の奨励は必ずしも性能低下にならない可能性を示唆
ARLの性能低下を考察
15
ARLがoracle RLより性能が低下する理由を考察
oracle RLとFBRLの探索した状態空間の確立分布を比較
リセットあり:初期状態と目標状態の確率分布にとどまる傾向
リセットなし:エージェントはあてもなく彷徨うので、タスクの難易度が上がる傾向
→ 環境のリセットは、エージェントが訪問する状態分布を初期状態と目標状態に近づける働きを示唆
初期状態の確率分布に対するロバスト性
16
Oracle、FBRL、VaPRLで得られた方策に対して、既定の初期状態確率分布から変更
Tabletop-organization (TO) のタスクでロバスト性を評価
ARLはoracle と比較して性能低下を抑えることに成功
→ ARLの設定で学習が成功すると、よりロバストな方策が得られる可能性を示唆
各手法の性能低下の割合:
Oracle: 37.4% 減
FBRL: 14.3 % 減
VaPRL: 2% 減
まとめ
17
Autonomous Reinforcement Learning (ARL) を定式化:
1) Deployed setting
一回のタスクで発揮できる能力を評価
2) Continuing learning setting
継続的に性能を保つ能力を評価
タスクの学習中に環境のリセットを(ほとんど)行わない問題設定
ARLのベンチマークを提案:
Environments for Autonomous Reinforcement Learning (EARL)
現実世界での自律学習を想定した幅広い種類のタスク
性能評価指標は1)Deployment setting, 2)Continuing learning setting

More Related Content

PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
変分推論と Normalizing Flow
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
三次元点群を取り扱うニューラルネットワークのサーベイ
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
変分推論と Normalizing Flow
物体検出の歴史(R-CNNからSSD・YOLOまで)

What's hot (20)

PDF
Transformer メタサーベイ
PPTX
[DL輪読会]Attentive neural processes
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
20190706cvpr2019_3d_shape_representation
PPTX
カルマンフィルタ入門
PDF
【メタサーベイ】Neural Fields
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
[DL輪読会]画像を使ったSim2Realの現況
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
深層学習によるHuman Pose Estimationの基礎
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PPTX
強化学習における好奇心
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
深層学習の数理
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PDF
semantic segmentation サーベイ
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PDF
Deeplearning輪読会
Transformer メタサーベイ
[DL輪読会]Attentive neural processes
【メタサーベイ】数式ドリブン教師あり学習
20190706cvpr2019_3d_shape_representation
カルマンフィルタ入門
【メタサーベイ】Neural Fields
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
[DL輪読会]画像を使ったSim2Realの現況
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
深層学習によるHuman Pose Estimationの基礎
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習における好奇心
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】A Path Towards Autonomous Machine Intelligence
深層学習の数理
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
semantic segmentation サーベイ
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deeplearning輪読会
Ad

Similar to [DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking (20)

PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
PDF
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
Reinforcement Learning: An Introduction 輪読会第1回資料
PDF
[DL輪読会]Learning an Embedding Space for Transferable Robot Skills
PDF
強化学習の実適用に向けた課題と工夫
PPTX
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
PPTX
1017 論文紹介第四回
PDF
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
PDF
[DL輪読会]Learning to Act by Predicting the Future
PDF
ICLR読み会 奥村純 20170617
PDF
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
PPTX
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Reinforcement Learning: An Introduction 輪読会第1回資料
[DL輪読会]Learning an Embedding Space for Transferable Robot Skills
強化学習の実適用に向けた課題と工夫
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
1017 論文紹介第四回
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning to Act by Predicting the Future
ICLR読み会 奥村純 20170617
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking