Skill-Based Meta-Reinforcement Learning

Skill-Based Meta-Reinforcement Learning
Taewook Nam Shao-Hua Sun Karl Pertsch

Sung Ju Hwang Joseph J. Lim

Human Leverages Prior Knowledge
“Cook a pancake”

SAC Policy

Prior knowledge Prior knowledge

How to hold frying pan
How to turn on the stove

“Make a sandwich”
“Fry an egg”

“Fry an egg”
How to hold frying pan
How to turn on the stove
Skill-based RL Meta-RL

Skill-Based Reinforcement Learning[1, 2]
Task-Agnostic

Dataset
How to turn on a stove
How to hold a frying pan
Skill
[1] Accelerating Reinforcement Learning with learned Skill Prior. Pertsch et al. CoRL 2020 
[2] Opal: O
ffl
ine Primitive Discovery for Accelerating O
ffl
ine Reinforcement Learning. Ajay et al. ICLR 2021

Task-Agnostic

Dataset
Skill
[2] Opal: O
ffl
ffl
Reward

T1
T2
T3
T4
TT
T5
Target Task
Task-Agnostic

Dataset
Skill
[2] Opal: O
ffl
ffl
+ E
ffi
cient exploration

Reward

T1
T2
T3
T4
TT
T5
Target Task
Task-Agnostic

Dataset
Skill
[2] Opal: O
ffl
ffl
+ E
ffi
cient exploration

- How to learn quickly
Reward

Meta Reinforcement Learning[1, 2]
T1
T2
T3
T4
TT
T5
Target Task
Training Tasks
T1
T2
T5
T3
T4
“Fry an egg”
[1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. Finn et al. ICML 2017 
[2] E
ffi
cient O
ff
-Policy Meta-reinforcement Learning via Probabilistic Context Variables. Rakelly et al. ICML 2019
+ How to learn quickly

T1
T2
T3
T4
TT
T5
Target Task
Training Tasks
T1
T2
T5
T3
T4
“Fry an egg” “Cook a pancake”
Meta Reinforcement Learning[1, 2]
[1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. Finn et al. ICML 2017 
[2] E
ffi
cient O
ff
+ How to learn quickly

- Limited to short-horizon task

This Work : Meta-RL + Skill-based RL
Training

Tasks
T1
T2
T5
T3
T4
Task-Agnostic

Dataset
T1
T2
T3
T4
TT
T5
Target Task

This Work : Meta-RL + Skill-based RL
Useful skill
T1
T2
T3
T4
TT
T5
Target Task
T1
T2
T5
T3
T4

Meta-RL + Skill-based RL
How to learn

quickly
T1
T2
T3
T4
TT
T5
Target Task
T1
T2
T5
T3
T4

T1
T2
T3
T4
TT
T5
T1
T2
T5
T3
T4
Fast learning of

new long horizon task

T1
T2
T3
T4
TT
T5
T1
T2
T5
T3
T4
Fast learning of

new long horizon task
SiMPL

Phase 1 : Skill Extraction
Extract skill from task-agnostic o
ffl
ine data, following SPiRL[1].
Skill
Task-Agnostic Data
a0 a1 a2 a3
s0 s1 s2 s3 s4 …
[1] Accelerating Reinforcement Learning with learned Skill Prior. Pertsch et al. CoRL 2020

Phase 2 : Skill-based Meta-training
Meta-train based on extracted skill, following PEARL[1].
Meta Policy
T1
T2
Meta-Training Tasks
T5
T3
T4 Skill
[1] E
ffi
cient O
ff

Phase 2 : Skill-based Meta-training
Meta-train based on extracted skill, following PEARL[1].
Transitions
Meta Policy
Task Encoder
T1
T2
Meta-Training Tasks
T5
T3
T4 Skill
[1] E
ffi
cient O
ff

Phase 3 : Target Task Learning
Warm-start target task learning by task encoding.
Target Task
T1
T2
T3
T4
TT
T5

Initial Exploration
Target Task
T1
T2
T3
T4
TT
T5
Task Encoder

Policy
Task Encoder
Skill
Target Task
T1
T2
T3
T4
TT
T5
Initial Exploration

Policy
Task Encoder
Skill
Target Task
T1
T2
T3
T4
TT
T5
Initial Exploration
Fine-tune

Environment
Maze Navigation

2000 steps / sparse reward for completion
Kitchen Manipulation

280 steps / sparse reward for subtask completions

Environment
Meta-Training Tasks
Target Tasks
arget Tasks Agent
Meta-training Tasks
Target Tasks
top burner
light switch
slide cabinet hinge cabinet
slide cabinet bottom burner
bottom burner
kettle
bottom burner light switch top burner
microwave
kettle slide cabinet hinge cabinet
light switch
1
2
3
4
vigation (b) Kitchen Manipulation
Target Tasks
Target Tasks
rget Tasks Agent
Meta-training Tasks
Target Tasks
top burner
light switch
slide cabinet hinge cabinet
slide cabinet bottom burner
bottom burner
kettle
bottom burner light switch top burner
microwave
kettle slide cabinet hinge cabinet
light switch
1
2
3
4
vigation (b) Kitchen Manipulation
Target Tasks
Meta-Training Tasks

SiMPL Learns Quickly
SiMPL can solve this task in 100 episode, but other baseline can’t.
Meta-training Tasks
Episode 0 Episodes 20 Episodes 80
SPiRL
Ours
Meta-Training Task Target Task
Target Task Agent Trajectory
Episode 0 Episode 20 Episode 100
SiMPL

(Ours)
SPiRL
Episode 0 Episode 20 Episode 100
PEARL-ft
MTRL
Target Location
Episode 0 Episodes 20 Episodes 80
SPiRL
Ours
Meta-Training Task Target Task
Meta-training Tasks
Agent Trajectory
Start Location

SiMPL Learns Quickly
SiMPL converges faster than MTRL / Skill-based RL / Meta-RL baselines.
SiMPL (Ours) SPiRL MTRL PEARL-ft SAC
PEARL
SiMPL (Ours) SPiRL MTRL PEARL-ft SAC
PEARL

• SiMPL can leverage both o
ffl
ine dataset and tasks by combining 
skill-based RL and meta-RL
• SiMPL can learn new long-horizon and sparse-reward tasks faster
Summary

Summary
• SiMPL can leverage both o
ffl
ine dataset and tasks by combining 
skill-based RL and meta-RL
• SiMPL can learn new long-horizon and sparse-reward tasks faster

Taewook Nam Shao-Hua Sun Karl Pertsch

Sung Ju Hwang Joseph J. Lim
Paper & Code : namsan96.github.io/SiMPL

Skill-Based Meta-Reinforcement Learning

More Related Content

Similar to Skill-Based Meta-Reinforcement Learning (20)

More from MLAI2 (20)

Recently uploaded (20)

Skill-Based Meta-Reinforcement Learning