[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021)

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization (CoRL 2021)
Presenter: Mitsuhiko Nakamoto, The University of Tokyo

Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization
https://clvrai.github.io/skill-chaining/
Author:
Youngwoon Lee, Joseph J. Lim, Anima Anandkumar, Yuke Zhu (USC, NVIDA, Caltech, UT Austin)
Conference: CoRL 2021
概要:
複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案
書誌情報

- 強化学習では、単一のpolicyでlong-horizon taskを解くのは難しい
- 複数のsubtaskに分解して解くアプローチが主流
- それぞれの subtask policy を学習 → subtask policy を順番に実行 (skill chaining)
- skill chainingは、の終端状態分布との初期状態分布が乖離していると上手くいかない
πi πi+1
背景と課題

先行研究: Policy Sequencing
- 赤: terminal states / 緑: initial states
- (a) の終端状態分布との初期状態分布が乖離していると上手くいかない
- (b) の対応可能な初期状態分布を広げると、その分終端状態も広がってしまう
πi−1 πi
πi

提案手法: Terminal State Regularization
- sub policy を学習する際に、終端状態がの初期状態分布に近づくような制約を加える
πi−1 πi

提案手法の流れ
事前準備：
- Long-horizon task を subtask に分解
- 各 subtask に対して、expert demonstations を用意
- ,
Step 1. Learning Subtask Policies
- 各 subtask に対して、それ解く方策を学習（デモデータから模倣学習）
Step 2. Skill Chaining with Terminal State Regularization
- 1だけだと、sub policy 間の終端/初期状態分布の乖離が生じて上手くskill chainingできない
- 各 sub policy を Terminal State Regularization を用いてﬁne-tuning
ℳi
ℳi De
i
De
i = {τe
1, …, τe
N} τe
j = (s0, a0, …, sTj−1, aTj−1, sTj)
ℳi πi
θ
πi
θ

Step 1. Learning Subtask Policies with GAIL
- Subtaskの方策を環境からの報酬のみで学習するのは効率が悪い
- 本研究では、Generative Adversarial Imitation Learning (GAIL) を用いて効率化
- GAILでは、方策の軌道を expert demonstrations と区別されないように学習
- の学習に使用する報酬は以下：
πi
θ
πi
θ De
i
πi
θ
Ri
(st, at, st+1; ϕ) = λ1Ri
ENV (st, at, st+1) + λ2Ri
GAIL (st, at; ϕ)
通常の環境からの報酬 GAILのdiscriminatorを用いた報酬 Ri
GAIL (st, at; ϕ) = 1 − 0.25 ⋅ [fi
ϕ (st, at) − 1]
2

Step 2. Terminal State Regularization
- sub policy の終端状態がの初期状態分布に近づくような制約を加えて ﬁne-tuning
- の終端状態との初期状態を分別する discriminator を学習
- : を用いてを成功させた軌道の終端状態の集合
- : を用いてを成功させた軌道の初期状態の集合
- discriminator は以下の損失関数を最小化して学習
πi−1 πi
πi−1 πi
βi−1 πi−1 subtaski−1
Ii πi subtaski
Di
ω (st)

Step 2. Terminal State Regularization
- discriminator は、入力がの初期状態に似ていれば大きい値を出力する
- の終端状態がの初期状態分布に近づくような正則化項 (terminal state regularization)
Di+1
ω (st) st πi+1
πi πi+1
- を以下の報酬でﬁne-tuning
πi
Ri
(st, at, st+1; ϕ, ω) = λ1Ri
ENV (st, at, st+1) + λ2Ri
GAIL (st, at; ϕ) + λ3Ri
TSR (st+1; ω)
タスクを成功させるための報酬 terminal state regularization

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021)

実験環境: Furniture Assembly
TABLE LACK:
table leg x 4
CHAIR INGOLF:
seat supports x 2, chair seat x 1, front legs x 1
- それぞれ4つのsubtaskに分解
- GAIL用のdemonstrationは、各subtaskにつき200個用意

Baselines
BC, PPO, GAIL, GAIL + PPO: 単一の方策で学習
SPiRL: Hierarchical Skill-based learning [Pertsch+ 2020]
Policy Sequencing: [Clegg+ 2018]
T-STAR (Proposed)

実験結果
- 200 testing episodes におけるタスクの平均達成率 (1つのsubtaskを完了したら達成率+0.25)
- BC, GAIL, SPiRL, PPOは一つのsubtaskを完了することすらできなかった
- GAIL + PPOは1つの部品を組み立てることには成功したが、それ以上はできなかった

実験結果
- Policy Sequencingでは達成率が 0.63 & 0.77 であるのに対して、提案手法は 0.90 & 0.89
- policy間の終端状態と初期状態を近づけたことによってパフォーマンスが向上

実験結果: TABLE LACK
T-STAR (Proposed) Policy Sequencing GAIL+PPO BC

実験結果: CHAIR_INGOLF
T-STAR (Proposed) Policy Sequencing GAIL+PPO BC

実験結果: Qualitative Results
- 3つ目のsub policyの終端状態をPCAで2次元に圧縮して可視化 (青: Proposed / 赤: Policy Sequencing)
- Policy Sequencing (赤) は学習を進めるにつれ、終端状態の分布が広がっている
- 提案手法 (青) は終端状態の分布がまとまっている

まとめ
- 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案
- Terminal State Regularization を用いて policy 間の終端状態と初期状態を近づけた
- Furniture assemblyのタスクで高いパフォーマンスを発揮

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021)

More Related Content

What's hot (20)

More from Deep Learning JP (20)

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021)