SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization (CoRL 2021)
Presenter: Mitsuhiko Nakamoto, The University of Tokyo
Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization
https://clvrai.github.io/skill-chaining/
Author:
Youngwoon Lee, Joseph J. Lim, Anima Anandkumar, Yuke Zhu (USC, NVIDA, Caltech, UT Austin)
Conference: CoRL 2021
概要:
複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案
書誌情報
- 強化学習では、単一のpolicyでlong-horizon taskを解くのは難しい
- 複数のsubtaskに分解して解くアプローチが主流
- それぞれの subtask policy を学習 → subtask policy を順番に実行 (skill chaining)
- skill chainingは、 の終端状態分布と の初期状態分布が乖離していると上手くいかない
πi πi+1
背景と課題
先行研究: Policy Sequencing
- 赤: terminal states / 緑: initial states
- (a) の終端状態分布と の初期状態分布が乖離していると上手くいかない
- (b) の対応可能な初期状態分布を広げると、その分終端状態も広がってしまう
πi−1 πi
πi
提案手法: Terminal State Regularization
- sub policy を学習する際に、終端状態が の初期状態分布に近づくような制約を加える
πi−1 πi
提案手法の流れ
事前準備:
- Long-horizon task を subtask に分解
- 各 subtask に対して、expert demonstations を用意
- ,
Step 1. Learning Subtask Policies
- 各 subtask に対して、それ解く方策 を学習(デモデータから模倣学習)
Step 2. Skill Chaining with Terminal State Regularization
- 1だけだと、sub policy 間の終端/初期状態分布の乖離が生じて上手くskill chainingできない
- 各 sub policy を Terminal State Regularization を用いてfine-tuning
ℳi
ℳi De
i
De
i = {τe
1, …, τe
N} τe
j = (s0, a0, …, sTj−1, aTj−1, sTj)
ℳi πi
θ
πi
θ
Step 1. Learning Subtask Policies with GAIL
- Subtaskの方策 を環境からの報酬のみで学習するのは効率が悪い
- 本研究では、Generative Adversarial Imitation Learning (GAIL) を用いて効率化
- GAILでは、方策 の軌道を expert demonstrations と区別されないように学習
- の学習に使用する報酬は以下:
πi
θ
πi
θ De
i
πi
θ
Ri
(st, at, st+1; ϕ) = λ1Ri
ENV (st, at, st+1) + λ2Ri
GAIL (st, at; ϕ)
通常の環境からの報酬 GAILのdiscriminatorを用いた報酬 Ri
GAIL (st, at; ϕ) = 1 − 0.25 ⋅ [fi
ϕ (st, at) − 1]
2
Step 2. Terminal State Regularization
- sub policy の終端状態が の初期状態分布に近づくような制約を加えて fine-tuning
- の終端状態と の初期状態を分別する discriminator を学習
- : を用いて を成功させた軌道の終端状態の集合
- : を用いて を成功させた軌道の初期状態の集合
- discriminator は 以下の損失関数を最小化して学習
πi−1 πi
πi−1 πi
βi−1 πi−1 subtaski−1
Ii πi subtaski
Di
ω (st)
Step 2. Terminal State Regularization
- discriminator は、入力 が の初期状態に似ていれば大きい値を出力する
- の終端状態が の初期状態分布に近づくような正則化項 (terminal state regularization)
Di+1
ω (st) st πi+1
πi πi+1
- を以下の報酬でfine-tuning
πi
Ri
(st, at, st+1; ϕ, ω) = λ1Ri
ENV (st, at, st+1) + λ2Ri
GAIL (st, at; ϕ) + λ3Ri
TSR (st+1; ω)
タスクを成功させるための報酬 terminal state regularization
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via  Terminal State Regularization (CoRL 2021)
実験環境: Furniture Assembly
TABLE LACK:
table leg x 4
CHAIR INGOLF:
seat supports x 2, chair seat x 1, front legs x 1
- それぞれ4つのsubtaskに分解
- GAIL用のdemonstrationは、各subtaskにつき200個用意
Baselines
BC, PPO, GAIL, GAIL + PPO: 単一の方策で学習
SPiRL: Hierarchical Skill-based learning [Pertsch+ 2020]
Policy Sequencing: [Clegg+ 2018]
T-STAR (Proposed)
実験結果
- 200 testing episodes におけるタスクの平均達成率 (1つのsubtaskを完了したら達成率+0.25)
- BC, GAIL, SPiRL, PPOは一つのsubtaskを完了することすらできなかった
- GAIL + PPOは1つの部品を組み立てることには成功したが、それ以上はできなかった
実験結果
- Policy Sequencingでは達成率が 0.63 & 0.77 であるのに対して、提案手法は 0.90 & 0.89
- policy間の終端状態と初期状態を近づけたことによってパフォーマンスが向上
実験結果: TABLE LACK
T-STAR (Proposed) Policy Sequencing GAIL+PPO BC
https://clvrai.github.io/skill-chaining/
実験結果: CHAIR_INGOLF
T-STAR (Proposed) Policy Sequencing GAIL+PPO BC
https://clvrai.github.io/skill-chaining/
実験結果: Qualitative Results
- 3つ目のsub policyの終端状態をPCAで2次元に圧縮して可視化 (青: Proposed / 赤: Policy Sequencing)
- Policy Sequencing (赤) は学習を進めるにつれ、終端状態の分布が広がっている
- 提案手法 (青) は終端状態の分布がまとまっている
まとめ
- 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案
- Terminal State Regularization を用いて policy 間の終端状態と初期状態を近づけた
- Furniture assemblyのタスクで高いパフォーマンスを発揮

More Related Content

PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
Transformer メタサーベイ
PPTX
Tensor コアを使った PyTorch の高速化
PPTX
強化学習 DQNからPPOまで
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
【メタサーベイ】数式ドリブン教師あり学習
Transformer メタサーベイ
Tensor コアを使った PyTorch の高速化
強化学習 DQNからPPOまで
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination

What's hot (20)

PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
自己教師学習(Self-Supervised Learning)
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
PDF
深層生成モデルと世界モデル
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
Curriculum Learning (関東CV勉強会)
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
PPTX
強化学習アルゴリズムPPOの解説と実験
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
【メタサーベイ】Video Transformer
PDF
Active Learning の基礎と最近の研究
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】Transformers are Sample Efficient World Models
自己教師学習(Self-Supervised Learning)
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
深層生成モデルと世界モデル
Transformerを雰囲気で理解する
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Curriculum Learning (関東CV勉強会)
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
[DL輪読会] マルチエージェント強化学習と心の理論
【論文読み会】Autoregressive Diffusion Models.pptx
強化学習アルゴリズムPPOの解説と実験
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】ViT + Self Supervised Learningまとめ
【メタサーベイ】Video Transformer
Active Learning の基礎と最近の研究
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021)

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021) Presenter: Mitsuhiko Nakamoto, The University of Tokyo
  • 2. Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization https://clvrai.github.io/skill-chaining/ Author: Youngwoon Lee, Joseph J. Lim, Anima Anandkumar, Yuke Zhu (USC, NVIDA, Caltech, UT Austin) Conference: CoRL 2021 概要: 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案 書誌情報
  • 3. - 強化学習では、単一のpolicyでlong-horizon taskを解くのは難しい - 複数のsubtaskに分解して解くアプローチが主流 - それぞれの subtask policy を学習 → subtask policy を順番に実行 (skill chaining) - skill chainingは、 の終端状態分布と の初期状態分布が乖離していると上手くいかない πi πi+1 背景と課題
  • 4. 先行研究: Policy Sequencing - 赤: terminal states / 緑: initial states - (a) の終端状態分布と の初期状態分布が乖離していると上手くいかない - (b) の対応可能な初期状態分布を広げると、その分終端状態も広がってしまう πi−1 πi πi
  • 5. 提案手法: Terminal State Regularization - sub policy を学習する際に、終端状態が の初期状態分布に近づくような制約を加える πi−1 πi
  • 6. 提案手法の流れ 事前準備: - Long-horizon task を subtask に分解 - 各 subtask に対して、expert demonstations を用意 - , Step 1. Learning Subtask Policies - 各 subtask に対して、それ解く方策 を学習(デモデータから模倣学習) Step 2. Skill Chaining with Terminal State Regularization - 1だけだと、sub policy 間の終端/初期状態分布の乖離が生じて上手くskill chainingできない - 各 sub policy を Terminal State Regularization を用いてfine-tuning ℳi ℳi De i De i = {τe 1, …, τe N} τe j = (s0, a0, …, sTj−1, aTj−1, sTj) ℳi πi θ πi θ
  • 7. Step 1. Learning Subtask Policies with GAIL - Subtaskの方策 を環境からの報酬のみで学習するのは効率が悪い - 本研究では、Generative Adversarial Imitation Learning (GAIL) を用いて効率化 - GAILでは、方策 の軌道を expert demonstrations と区別されないように学習 - の学習に使用する報酬は以下: πi θ πi θ De i πi θ Ri (st, at, st+1; ϕ) = λ1Ri ENV (st, at, st+1) + λ2Ri GAIL (st, at; ϕ) 通常の環境からの報酬 GAILのdiscriminatorを用いた報酬 Ri GAIL (st, at; ϕ) = 1 − 0.25 ⋅ [fi ϕ (st, at) − 1] 2
  • 8. Step 2. Terminal State Regularization - sub policy の終端状態が の初期状態分布に近づくような制約を加えて fine-tuning - の終端状態と の初期状態を分別する discriminator を学習 - : を用いて を成功させた軌道の終端状態の集合 - : を用いて を成功させた軌道の初期状態の集合 - discriminator は 以下の損失関数を最小化して学習 πi−1 πi πi−1 πi βi−1 πi−1 subtaski−1 Ii πi subtaski Di ω (st)
  • 9. Step 2. Terminal State Regularization - discriminator は、入力 が の初期状態に似ていれば大きい値を出力する - の終端状態が の初期状態分布に近づくような正則化項 (terminal state regularization) Di+1 ω (st) st πi+1 πi πi+1 - を以下の報酬でfine-tuning πi Ri (st, at, st+1; ϕ, ω) = λ1Ri ENV (st, at, st+1) + λ2Ri GAIL (st, at; ϕ) + λ3Ri TSR (st+1; ω) タスクを成功させるための報酬 terminal state regularization
  • 11. 実験環境: Furniture Assembly TABLE LACK: table leg x 4 CHAIR INGOLF: seat supports x 2, chair seat x 1, front legs x 1 - それぞれ4つのsubtaskに分解 - GAIL用のdemonstrationは、各subtaskにつき200個用意
  • 12. Baselines BC, PPO, GAIL, GAIL + PPO: 単一の方策で学習 SPiRL: Hierarchical Skill-based learning [Pertsch+ 2020] Policy Sequencing: [Clegg+ 2018] T-STAR (Proposed)
  • 13. 実験結果 - 200 testing episodes におけるタスクの平均達成率 (1つのsubtaskを完了したら達成率+0.25) - BC, GAIL, SPiRL, PPOは一つのsubtaskを完了することすらできなかった - GAIL + PPOは1つの部品を組み立てることには成功したが、それ以上はできなかった
  • 14. 実験結果 - Policy Sequencingでは達成率が 0.63 & 0.77 であるのに対して、提案手法は 0.90 & 0.89 - policy間の終端状態と初期状態を近づけたことによってパフォーマンスが向上
  • 15. 実験結果: TABLE LACK T-STAR (Proposed) Policy Sequencing GAIL+PPO BC https://clvrai.github.io/skill-chaining/
  • 16. 実験結果: CHAIR_INGOLF T-STAR (Proposed) Policy Sequencing GAIL+PPO BC https://clvrai.github.io/skill-chaining/
  • 17. 実験結果: Qualitative Results - 3つ目のsub policyの終端状態をPCAで2次元に圧縮して可視化 (青: Proposed / 赤: Policy Sequencing) - Policy Sequencing (赤) は学習を進めるにつれ、終端状態の分布が広がっている - 提案手法 (青) は終端状態の分布がまとまっている
  • 18. まとめ - 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案 - Terminal State Regularization を用いて policy 間の終端状態と初期状態を近づけた - Furniture assemblyのタスクで高いパフォーマンスを発揮