Submit Search
CS294-112 Lecture 13
0 likes
87 views
Gyubin Son
Inverse RL
Technology
Read more
1 of 22
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
More Related Content
PDF
CS294-112 18
Gyubin Son
ย
PDF
TinyBERT
Hoon Heo
ย
PDF
Masked Sequence to Sequence Pre-training for Language Generation
Hoon Heo
ย
PDF
Efficient Training of Bert by Progressively Stacking
Hoon Heo
ย
PDF
REALM
Hoon Heo
ย
PDF
Sequence to Sequence Learning with Neural Networks
Hoon Heo
ย
PDF
Character-Aware Neural Language Models
Hoon Heo
ย
PPTX
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
gohyunwoong
ย
CS294-112 18
Gyubin Son
ย
TinyBERT
Hoon Heo
ย
Masked Sequence to Sequence Pre-training for Language Generation
Hoon Heo
ย
Efficient Training of Bert by Progressively Stacking
Hoon Heo
ย
REALM
Hoon Heo
ย
Sequence to Sequence Learning with Neural Networks
Hoon Heo
ย
Character-Aware Neural Language Models
Hoon Heo
ย
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
gohyunwoong
ย
What's hot
(20)
PDF
๋ฅ๋ฌ๋ ์์ฐ์ด์ฒ๋ฆฌ - RNN์์ BERT๊น์ง
deepseaswjh
ย
PPTX
Denoising auto encoders(d a)
Tae Young Lee
ย
PDF
Pretrained summarization on distillation
gohyunwoong
ย
PPTX
Variational Autoencoder๋ฅผ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋์์ ์ดํดํ๊ธฐ (Understanding Variational Autoencod...
Haezoom Inc.
ย
PPTX
Machine translation survey vol2
gohyunwoong
ย
PDF
2017 tensor flow dev summit
Tae Young Lee
ย
PPTX
์ธ๊ณต ์ ๊ฒฝ๋ง ๊ตฌํ์ ๊ดํ ๊ฐ๋จํ ์ค๋ช
Woonghee Lee
ย
PPTX
๋ฉํ์ผ๋ก tensorflow ๋์ ํ๊ธฐ - tutorial
Lee Seungeun
ย
PDF
PYCON KR 2017 - ๊ตฌ๋ฆ์ด ํ๋์ ์ผ์ด๋ผ๋ฉด (์ค์์ )
Haezoom Inc.
ย
PPTX
Machine learning linearregression
HaYoungChoi17
ย
PDF
Tensorflow for Deep Learning(SK Planet)
Tae Young Lee
ย
PDF
๋ฅ๋ฌ๋์ ๊ธฐ๋ณธ
deepseaswjh
ย
PPTX
Chapter 15 Representation learning - 1
KyeongUkJang
ย
PDF
Siamese neural networks for one shot image recognition paper explained
taeseon ryu
ย
PDF
MiniFlow
Jongmin Park
ย
PDF
๋ฅ๋ฌ๋ ๊ธฐ๋ณธ ์๋ฆฌ์ ์ดํด
Hee Won Park
ย
PPTX
A Beginner's guide to understanding Autoencoder
Lee Seungeun
ย
PPTX
Ai ๊ทธ๊น์ด๊ฑฐ
๋ํ ์
ย
PPTX
Variational inference intro. (korean ver.)
Kiho Hong
ย
PDF
์บ๋น๋จธํผ ๋จธ์ ๋ฌ๋ Kevin Murphy Machine Learning Statistic
์ฉ์ง ์กฐ
ย
๋ฅ๋ฌ๋ ์์ฐ์ด์ฒ๋ฆฌ - RNN์์ BERT๊น์ง
deepseaswjh
ย
Denoising auto encoders(d a)
Tae Young Lee
ย
Pretrained summarization on distillation
gohyunwoong
ย
Variational Autoencoder๋ฅผ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋์์ ์ดํดํ๊ธฐ (Understanding Variational Autoencod...
Haezoom Inc.
ย
Machine translation survey vol2
gohyunwoong
ย
2017 tensor flow dev summit
Tae Young Lee
ย
์ธ๊ณต ์ ๊ฒฝ๋ง ๊ตฌํ์ ๊ดํ ๊ฐ๋จํ ์ค๋ช
Woonghee Lee
ย
๋ฉํ์ผ๋ก tensorflow ๋์ ํ๊ธฐ - tutorial
Lee Seungeun
ย
PYCON KR 2017 - ๊ตฌ๋ฆ์ด ํ๋์ ์ผ์ด๋ผ๋ฉด (์ค์์ )
Haezoom Inc.
ย
Machine learning linearregression
HaYoungChoi17
ย
Tensorflow for Deep Learning(SK Planet)
Tae Young Lee
ย
๋ฅ๋ฌ๋์ ๊ธฐ๋ณธ
deepseaswjh
ย
Chapter 15 Representation learning - 1
KyeongUkJang
ย
Siamese neural networks for one shot image recognition paper explained
taeseon ryu
ย
MiniFlow
Jongmin Park
ย
๋ฅ๋ฌ๋ ๊ธฐ๋ณธ ์๋ฆฌ์ ์ดํด
Hee Won Park
ย
A Beginner's guide to understanding Autoencoder
Lee Seungeun
ย
Ai ๊ทธ๊น์ด๊ฑฐ
๋ํ ์
ย
Variational inference intro. (korean ver.)
Kiho Hong
ย
์บ๋น๋จธํผ ๋จธ์ ๋ฌ๋ Kevin Murphy Machine Learning Statistic
์ฉ์ง ์กฐ
ย
Ad
Similar to CS294-112 Lecture 13
(20)
PDF
๊ฐํํ์ต ํด๋ถํ ๊ต์ค: Rainbow ์ด๋ก ๋ถํฐ ๊ตฌํ๊น์ง (2nd dlcat in Daejeon)
Kyunghwan Kim
ย
PDF
์์๋๋ฉด ์ธ๋ฐ์๋ ์ ๊ธฐํ ๊ฐํํ์ต NAVER 2017
Taehoon Kim
ย
PDF
Reinforcement learning basic
Jicheol Woo
ย
PDF
๊ฐํํ์ต ๊ธฐ์ด๋ถํฐ DQN๊น์ง (Reinforcement Learning from Basics to DQN)
Curt Park
ย
PDF
Introduction toDQN
Curt Park
ย
PDF
Alpha Go Introduction
Ildoo Kim
ย
PDF
ํ์ด์ฌ๊ณผ ์ผ๋ผ์ค๋ก ๋ฐฐ์ฐ๋ ๊ฐํํ์ต ์ ์ํน๊ฐ
Woong won Lee
ย
PDF
์.์ .์ .์ผ. ๊ฐํํ์ต!
Dongmin Lee
ย
PPTX
Q Learning๊ณผ CNN์ ์ด์ฉํ Object Localization
ํ๋ฐฐ ๊น
ย
PDF
Rl
wonseok jung
ย
PDF
๊ฐํ ํ์ต ๊ธฐ์ด Reinforcement Learning an introduction
Taehoon Kim
ย
PDF
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho
ย
PPTX
Control as Inference.pptx
ssuserbd1647
ย
PDF
Soft Actor-Critic Algorithms and Applications ํ๊ตญ์ด ๋ฆฌ๋ทฐ
ํ์ ์
ย
PDF
[RLkorea] ๊ฐ์ก๊ณ ๋ก๋ดํ ๋ฐํ
ashley ryu
ย
PDF
CS294-112 Lecture 06
Gyubin Son
ย
PDF
Policy gradient
ํ์ ์
ย
PDF
Multi armed bandit
๋ฏผ์ ๊น
ย
PPTX
แแ กแผแแ ชแแ กแจแแ ณแธ & Unity ML Agents
Hyunjong Lee
ย
PDF
Reinforcement learning v0.5
SANG WON PARK
ย
๊ฐํํ์ต ํด๋ถํ ๊ต์ค: Rainbow ์ด๋ก ๋ถํฐ ๊ตฌํ๊น์ง (2nd dlcat in Daejeon)
Kyunghwan Kim
ย
์์๋๋ฉด ์ธ๋ฐ์๋ ์ ๊ธฐํ ๊ฐํํ์ต NAVER 2017
Taehoon Kim
ย
Reinforcement learning basic
Jicheol Woo
ย
๊ฐํํ์ต ๊ธฐ์ด๋ถํฐ DQN๊น์ง (Reinforcement Learning from Basics to DQN)
Curt Park
ย
Introduction toDQN
Curt Park
ย
Alpha Go Introduction
Ildoo Kim
ย
ํ์ด์ฌ๊ณผ ์ผ๋ผ์ค๋ก ๋ฐฐ์ฐ๋ ๊ฐํํ์ต ์ ์ํน๊ฐ
Woong won Lee
ย
์.์ .์ .์ผ. ๊ฐํํ์ต!
Dongmin Lee
ย
Q Learning๊ณผ CNN์ ์ด์ฉํ Object Localization
ํ๋ฐฐ ๊น
ย
Rl
wonseok jung
ย
๊ฐํ ํ์ต ๊ธฐ์ด Reinforcement Learning an introduction
Taehoon Kim
ย
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho
ย
Control as Inference.pptx
ssuserbd1647
ย
Soft Actor-Critic Algorithms and Applications ํ๊ตญ์ด ๋ฆฌ๋ทฐ
ํ์ ์
ย
[RLkorea] ๊ฐ์ก๊ณ ๋ก๋ดํ ๋ฐํ
ashley ryu
ย
CS294-112 Lecture 06
Gyubin Son
ย
Policy gradient
ํ์ ์
ย
Multi armed bandit
๋ฏผ์ ๊น
ย
แแ กแผแแ ชแแ กแจแแ ณแธ & Unity ML Agents
Hyunjong Lee
ย
Reinforcement learning v0.5
SANG WON PARK
ย
Ad
CS294-112 Lecture 13
1.
Deep Reinforcement Learning CS294-112,
2017 Fall Lecture 13 ์๊ท๋น ๊ณ ๋ ค๋ํ๊ต ์ฐ์ ๊ฒฝ์๊ณตํ๊ณผ
2.
๋ชฉ์ฐจ 1. IRL :
์ ๋ฌธ๊ฐ์ demo์์ reward function ์ถ๋ก 2. MaxEnt IRL 1. Ambiguous reward๊ฐ ์ฌ๋ฌ๊ฐ ์์ ๋ ์ ์ ํ๊ฒ ์ ํ ๊ฐ๋ฅ 2. Dynamic programming์ ํตํด ๋จ์ํ๊ณ ํจ์จ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅ(small space) 3. Large, continuous space์์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ 3. MaxEnt IRL with GANs 1. Guided cost learning algorithm 2. Connection to GAN 3. Generative adversarial imitation learning !2
3.
Where does the
reward function come from? !3 ๊ฒ์ ๊ฐ์ ๊ฒฝ์ฐ score ๊ฐ์ ์์นํ signal์ด ๋ช ํํ๊ฒ ์กด์ฌ ์ค์ ์ธ๊ณ์์ ๊ฒ์์ฒ๋ผ ๋ช ํํ reward๊ฐ ์๊ณ task๊ฐ ์๋ฃ๋์๋์ง ์ฌ๋ถ๋ฅผ ํ์ ํ๋ ๊ฒ์ด ์ด๋ ต๊ณ task ์์ฒด๋ฅผ ๊น์ด ์ดํดํ๋ ๊ฒ์ด ํ์
4.
Where does the
reward function come from? !4 Automated tech support system - ์ปดํจํฐ ์๋ฆฌ ๋ฌธ์ ์์คํ ์ด๋ผ๋ฉดโจ -> ์ต์ข reward : ์์คํ ์ด ๋์์ด ๋์๋์ง ์ฌ๋ถ - ๋ฌดํ์ ๋ชฉํ ์กด์ฌ -> Ground truth ์ป๊ธฐ๊ฐ ์ฝ์ง ์์โจ ex) ๊ณ ๊ฐ์ ๋ง์กฑ, ๋๊ฐ์ ๋ง ๋ฐ๋ณต์ผ๋ก ์ธํ ์ง์ฆ - reward function์ ์์ฑํ๊ธฐ ์ํด ๋ชจ๋ ์์ง๋์ด๋ค์ด ๋ง์กฑํ๋ Convention, Rule์ด ์กด์ฌํ์ง ์์ -> ์ ๋งคํจ Reward function์ ์์ฑํ๊ธฐ ๋งค์ฐ ์ด๋ ค์ (์์จ์ฃผํ์์ ์ด์ ์์ ๋ํ ๋งค๋)
5.
Why shoud we
learn the reward? !5 โข์ค๋ช ํ๊ธฐ ์ด๋ ค์ด task, reward๋ค์ ์คํ๋ ค ์ง์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ํจ์ฌ ์ฌ์ธ ๋๊ฐ ์์โจ (์ด์ ์๊ฐ ๊ฐ์ ธ์ผํ ์์ฌ, ๋งค๋, ์ํฐ์ผ ๋ฑ) โขImitation Learningโจ task์ ๋ํ ์ดํด๊ฐ ์ ํ ํ์ ์์โจ ๊ทธ๋ฅ ๋ฐ๋ผํ๊ธฐ๋ง ํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๋ถํ์ํ ํ๋ ๋ ๋ฐ๋ผํ๊ฒ๋๊ณ , ์ผ๋ง๋ ๋ฅ์ํ ์ ๋ฌธ๊ฐ๋ฅผ ๋ฐ๋ผํ ๋๋์ ๋ฐ๋ผ์๋ ์ฑ๋ฅ์ด ์ฒ์ฐจ๋ง๋ณ โข์ข์ธก ์ด๋ฏธ์ง์ ์์ด ์์์ ๋งค์ฐ ์ ๋ช ํ ์คํ ์ฌ๋ก
6.
Why shoud we
learn the reward? !6 โข์ ์๊ฐ ๋ค๋ฅธ ์ฌ๋์ ์๋๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ โข์์ด๋ ๋งน๋ชฉ์ ์ผ๋ก ํ๋์ ๋ชจ๋ฐฉํ๋ ๊ฒ์ด ์๋๋ผ, task์ ์์คํ ์์ฒด๋ฅผ ์ดํดํ๊ณ ์์ โข๋ง์ฝ ์ฐ๋ฆฌ์ RL ์์คํ ์ด Imitation learning์ ํตํ ๋ชจ๋ธ์ด๋ผ๋ฉด ์์ด์ฒ๋ผ ํ๋ํ ์ ์์ โขํ์ง๋ง ์๋๋ฅผ ์ดํดํ๋, ์์คํ ์ ์ดํดํ๋ ๋ชจ๋ธ ์ผ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด๋ ํจ์จ์ ๋ฌธ์ ๋ฅผ ๋์ด Domain transfer๊น์ง ๊ฐ๋ฅ โข์ฐ์ธก ์ด๋ฅธ: ์๋ฃจ์ ๋ฌผ๊ฑด์ ๋ด์ผ๋ ค ํ๊ณ โจ ๋ ์ ๋จ์ด์ง ๋ฌผ๊ฑด์ด ์ ์ฃผ์์ง โข์์ด๊ฐ ๊ทธ ์ฅ๋ฉด์ ๋ณด๋ค๊ฐ ์ฃผ์์ค
7.
Inverse Optimal Control
/ Inverse Reinforment Learning !7 ์ฃผ์ด์ง ๊ฒ โขstate & action space โขsamples from โขdynamics model ฯ* ๋ชฉํ โขRecover reward function โขUse reward to get policy Challenges โข๋ฌธ์ ๋ฅผ underdefine ํ๋ ๊ฒ โขLearned reward๋ฅผ ํ๊ฐํ๊ธฐ ์ด๋ ค์ด ์ โขdemonstration ๋ถํฐ suboptimal์ธ ์
8.
Chaellenges of IRL !8 1.
Underdefined problem -> Multi-answer 1. ๋ฌธ์ ์ ์๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ ํด์ผํจ 2. ์์ ์คํ์์ ์์ด๋ ์ ๋ฐ ์ํฉ์ ๋ํ ์ง์๋ค์ ์ด๋ฏธ ๋ง์ด ๊ฐ์ง๊ณ ์์ 3. ML ๋ฌธ์ ์ ์ ์ฉํ์ ๋ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ์์ด์ฒ๋ผ ์ต์ํ์ ์ธ์์ ๋ํ ์ดํด๋ ์์ด ๋ฌธ์ ๋ฅผ ํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ ์ํฉ ex) Simple world โข์ ์ธ๋ชจ, ๋๊ทธ๋ผ๋ฏธ, ํ์ดํ๋ฅผ ํด์ โข๋งค์ฐ ๋ค์ํ ํด์์ด ์กด์ฌ โข์ฐ๋ฆฌ๋ ์๋ฌด๋ฐ ์ฌ์ ์ง์์ด ์๊ณ ๋ค์ ์ ์ด๋ป๊ฒ ํ๋ํด์ผํ ์ง ๋ชจํธํจ For any observed policy in general there's an infinite set of reward functions that will all make that policy appear optimal
9.
Chaellenges of IRL !9 2.
Evaluation of learned reward is difficult 1. ์ผ๋ฐ์ ์ธ IRL ๊ตฌ์กฐ 1. Improve the reward function 2. Evaluate the reward function(Gradient ๊ณ์ฐ ๋ฑ์ ๋ฐฉ๋ฒ์ ํตํจ) 2. ์์ ๊ฐ์ ๊ตฌ์กฐ์์ IRL ๊ณผ์ ์์์ inner loop์ ํตํด RL ๊ณผ์ ์ ์ํ 3. IRL ์์ ๋ฐ๋ณต๋๋ RL์ด ์๊ธฐ ๋๋ฌธ์ ๊ต์ฅํ ๊ณ ๋น์ฉ 3. Sub-optimality of experts 1. ์ฐธ๊ณ ํ ์ ๋ฌธ๊ฐ์ demonstration ์์ฒด๊ฐ ๋ถ์ ํฉํ ๊ฒฝ์ฐ 2. ์์ ๋ ๋ฌธ์ ๊ฐ ์๋ฒฝํ๊ฒ ํด๊ฒฐ๋๋ค ํ๋๋ผ๋ ์ด ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉด ๋์ ์ฑ๋ฅ ๋ณด์
10.
A bit more
formally !10 Forward RL given: - state & action - transitions p(s'|s, a) - reward function r(s, a) learn ฯ*(a|s) Inverse RL given: - state & action - transitions p(s'|s, a) - trajectory samples sampled from learn ( reward parameters ) ----> reward function์ ๋ค์ policy ํ์ต์ ์ฐ์ ฯ*(a|s) ฯ*(ฯ){ฯi} rฯ(s, a) ฯ
11.
Linear reward function ์ฌ๊ธฐ์
f์ ๋ถ๋ psi๋ ํด๋น feature๋ฅผ ์ผ๋ง ๋ ํ์๋ก ํ๋์ง๋ฅผ ๋ํ๋ Feature matching IRL !11 rฯ(s, a) = โ i ฯi fi(s, a) = ฯT f(s, a) Eฯrฯ[f(s, a)] = Eฯ*[f(s, a)] ํ์ฌ reward function์ optimal์ธ policy Unknown optimal policy using expert sample ํ์ตํ policy์ ์ ๋ฌธ๊ฐ policy์ f๊ฐ ๊ฐ๋ค๋ฉด ๋น์ทํ feature๋ฅผ ๋งค์นญํ ์ ์๋ค. maximum margin principle์ ์ด์ฉ
12.
Maximum margin principle ๋ชฉํ:
margin m์ ์ต๋ํํ์. ์ขํญ: feature ๊ฐ์ ํ์ด๋ก expectation psi๋ฅผ dot productํ๋ฉด reward์ expectation ๊ตฌํ ์ ์์ Feature matching IRL !12 ฯT Eฯ*[f(s, a)] โฅ maxฯT Eฯ[f(s, a)] + m ์ฐํญ: ์ฐ๋ฆฌ๊ฐ ์ฐพ์ ์ ์๋ ์ต๊ณ ์ ์ ์ฑ ์ผ๋ก feature ๊ฐ์ expectationํ๊ณ psi๋ฅผ dot product ํ์ ๋ ๋์ค๋ reward์ expectation
13.
Apply "SVM trick" Feature
matching IRL & maximum margin !13 ฯT Eฯ*[f(s, a)] โฅ maxฯT Eฯ[f(s, a)] + m < m์ ์ต๋ํํ๋ ๋ฌธ์ > ฯT Eฯ*[f(s, a)] โฅ maxฯT Eฯ[f(s, a)] + D(ฯ, ฯ*) < ์ weight magnitude ์์ฒด๋ฅผ ์ต์ํํ๋ ๋ฐฉ์>ฯ feature expectation์ ์ฐจ์ด๊ฐ์ ์๋ฏธ ๋ฌธ์ ์ 1. ๋ชจํธํ ๋ฐฉ์์ผ๋ก ํด๊ฒฐ: Margin์ด ์ด๋ค ์๋ฏธ๋ฅผ ์ง๋๋์ง ์ ์ ์์ 2. ์ ๋ฌธ๊ฐ์ ๋น์๋ จ, ๋ถ์ ํฉ์ฑ์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ ๋ฑํ ์์ 3. Linear model์์์กฐ์ฐจ ์ ์ฝ์กฐ๊ฑด์ด ๋ง๊ณ ๋ณต์ก
14.
MaxEnt IRL algorithm !14 ์
1-5 ์์๋ฅผ ๋ฐ๋ณต
15.
MaxEnt IRL Case
study : Road navigation !15 1. ํ์ ์ด์ ์ฌ์ ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชฉ์ ์ง๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ 2. Discrete state, action space -> ํฌ์ง๋ง ์ถฉ๋ถํ tabular representation ๊ฐ๋ฅ 3. ์ข ๋ ๋์๊ฐ์ Feature weight ์์๋ 1. ์ด์ ์ ์ธํฐ๋ทฐ๋ฅผ ํตํด ๊ตญ๋์ ๊ณ ์๋๋ก, ์ด๋ค turn์ ์ ํธํ๋์ง ๋ฑ์ ์กฐ์ฌ 2. human driver๊ฐ ์ด๋ป๊ฒ ์ด์ ํ๋์ง reward function์์ ๋ ์ ๋ํ๋๋๋ก ์๋ 3. tabular ํฌ๊ธฐ์ space๋ง์ผ๋ก๋ ์ค์ ์ธ๊ณ์ ์ํฉ์ ์์ธกํ ์ข์ ์ฌ๋ก
16.
MaxEnt IRL Case
study : MaxEnt Deep IRL !16 1. ๋ก๋ด์ด๋ ์ค๋ด์ฃผํ์ง๋ ๊ทธ๋ฆฌ๋ task์์ ์ฌ์ฉ -> Reward๊ฐ ๋ณต์กํ representation 2. Discrete state, action space๋ฅผ ์ฌ์ฉํ์ง๋ง, Reward function์ Neural networks 3. ๊ณ์์ ์ผ๋ก environment๋ฅผ ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ดฌ์ 1. ์ดฌ์๋ ๊ฒฐ๊ณผ๋ฌผ์ด ์ด๋ฏธ์ง๊ฐ ์๋ ์๋ ์๊ณ , ์๋ง์ feature๋ค์ด encoding๋ ๊ฒฐ๊ณผ๋ฌผ 2. ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ๋ชจ์์ reward function์ ํ์ตํ๋๋ฐ ์ฌ์ฉ
17.
Unknown dynamics &
large state / action spaces !17 Deep IRL์ ๊ณ ์ฐจ์ ๊ณต๊ฐ, Unknown space๋ก ํ์ฅํ๊ธฐ - ์ฒซ ๋ฒ์งธ ํญ: ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ reward๋ฅผ ๋จ์ sum ํ๋ ๊ฑฐ๋ผ์ ๊ณ์ฐ ๋ณต์ก๋ ๋ฎ๋ค - ๋์งธ ํญ: distribution์ model free ๊ด์ ์ผ๋ก ํด๊ฒฐํด๋ณด์
18.
More efficient sample-based
updates !18 1. p(a|s)๋ฅผ ํ์ตํ๋ ๊ฒ์ ์ด๋ค MaxEnt IRL ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด๋ ์ข๋ค 2. Model free ๊ด์ ์ผ๋ก ํ์ตํ๋ ๊ฒ์ ์์คํ Dynamics๋ฅผ ๋๋ ค์ผํด์ ์๊ฐ ๋ณต์ก ๋๊ฐ ์์ฒญ๋๊ณ inner loop์์ RL ์๊ณ ๋ฆฌ์ฆ์ด ๋์๊ฐ๊ธฐ ๋๋ฌธ์ ์ฌ์ค์ ๋ถ๊ฐ๋ฅ 3. policy๋ฅผ ์์ ํ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ์ด์ง ๊ฐ์ ํ๊ณ gradient step ์งํ 4. ํ์ง๋ง ์ด ๋๋ ์์ ํ policy๋ฅผ ํ์ฉํ๋ ๊ฒ์ด ์๋๋ฏ๋ก ํ๋ฆฐ ์ ๋ฐ์ 5. ํ๋ฆฐ ์ ์ Importance sampling์ผ๋ก ๊ต์
19.
Connection to Generative
Adversarial Networks !19 GAN๊ณผ ํตํ๋ ๋ถ๋ถ์ด ์์
20.
Guided cost learning
algorithm - Finn et al. ICML 2016 !20
21.
IRL as adversarial
optimization !21 ์ผ๋ฐ GAN์์์ฒ๋ผ ๋ก๋ด์์ ๋์จ ํ๋์ธ์ง, ์ค์ ๋ฐ๋ชจ์ธ์ง ๊ตฌ๋ถํ๋ ๊ฒ์ผ๋ก ํ์ต
22.
Questions !22 ๊ฐ์ฌํฉ๋๋ค.
Download