SlideShare a Scribd company logo
4
Most read
8
Most read
9
Most read
DEEP LEARNING JP
[DL Papers]
Dream to Control: Learning Behaviors by Latent
Imagination
Hiroki Furuta
http://deeplearning.jp/
書誌情報
• タイトル: Dream to Control: Learning Behaviors by Latent Imagination
• 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2
• 所属: 1University of Toronto, 2Google Brain, 3DeepMind
• 会議: ICLR2020, Spotlight
• URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603
• 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent
imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを
提案
2
研究背景
• 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミクス
モデルを学習することが可能になった
• ダイナミクスモデルから制御方策を獲得する方法はいくつか存在
 予測される報酬を最大化するようにパラメタ化した方策を学習
• Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など
 Online planning
• PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など
• Neural Networkによるダイナミクスモデルでは勾配が計算できることを利用して
long-horizonなタスクを解きたい
 固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬の最大
化を図ると近視眼的な方策に陥りがちなため
3
貢献
• 潜在空間での想像(latent imagination)のみにより, long-
horizonなタスクの方策を学習
 潜在変数(state)から長期的な価値を推定し, 方策の更新にダイナミ
クスモデルを通した価値関数の勾配を直接利用する(後述)
• DeepMind Control Suiteの画像入力のControl タスクでサン
プル効率, 計算時間, 性能の面で, 既存のモデルベース/モ
デルフリーのべンチマークを上回った
• 状態表現学習(Representation Learning)というよりは, モデ
ルベース強化学習の新たなアルゴリズムついての論文
4(本資料の図は断りがない限り論文より引用)
先行研究(PlaNet)
とほぼ同じ
新規性
準備: 問題設定
• 画像入力なので部分観測Markov Decision Process(POMDP)を仮定
離散 time step 𝑡 ∈ 1; 𝑇
エージェントの出力する連続値action(ベクトル) 𝑎 𝑡 ~ 𝑝 𝑎 𝑡 𝑜≤𝑡, 𝑎<𝑡
観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡)
• 今回は環境は未知
目標は期待報酬の和を最大化する方策を学習すること Ε 𝑝(∑ 𝑡=1
𝑇
𝑟𝑡)
5
DeepMindControl Suitから20
タスクを実験に使用(図はそのう
ちの5つの例)
準備: エージェント
• モデルベース強化学習でimaginationから学習するエージェントは以下の3
つの要素を繰り返すことで学習する[Sutton, 1991]
ダイナミクスモデルの学習
• 今回はlatent dynamics
方策の学習
• 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用
環境との相互作用
• ダイナミクスモデルのデータセットを拡張するため
6
アルゴリズム
7
ダイナミクスモデルの学習: Latent dynamics
Dreamerで用いるLatent dynamicsは3つのモデルからなる
• Representation model 𝑝(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1, 𝑜𝑡)
観測𝑜𝑡とaction 𝑎 𝑡−1からマルコフ性を仮定した連続値ベクトルのstate(潜在変数) 𝑠𝑡
をエンコード
• Transition model 𝑞(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1)
観測𝑜𝑡によらない潜在空間上の遷移のモデル (latent imaginationに使用)
• Reward model 𝑞(𝑟𝑡|𝑠𝑡)
state 𝑠𝑡における報酬𝑟𝑡の予測モデル (latent imaginationに使用)
8
ダイナミクスモデルの学習: Reward Prediction
ダイナミクスモデルの学習には代表的な3つのアプローチがある
• Reward Prediction
前ページで説明したRepresentation model, Transition model, Reward modelを, 行動
と過去の観測で条件づけられた将来の報酬の予測から学習する方法
大量で多様なデータがあればControl taskを解くのに十分なモデルが学習できる(ら
しい)
• Reconstruction
• Contrastive estimation
9
ダイナミクスモデルの学習: Reconstruction
Reconstruction
• PlaNet[Hafner et al. 2018]同様, 観測の画像の再構成によって学習
Observation modelは学習時のみ使用
Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で
実装
10
※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください
https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-
for-planning-from-pixels
ダイナミクスモデルの学習: Latent dynamics
Contrastive estimation
• 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)による
学習がある
ReconstructionのObservation modelをState modelに置き換える
実験では3つの性能を比較
11
Constructive Estimation
Reconstruction
Latent Imaginationによる方策の学習
• State 𝑠𝑡(潜在空間)にはMDPを仮定
• 過去の経験の観測𝑜𝑡からエンコードされた𝑠𝑡をスタートとして, Transition
model 𝑠𝜏 ~ 𝑞(𝑠𝜏|𝑠𝜏, 𝑎 𝜏), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏|𝑠𝜏), 方策 𝑎 𝜏 ~ 𝑞 𝑎 𝜏 𝑠𝜏 を
順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力
12
Latent Imaginationによる方策の学習
• Value model 𝑣 𝜓(𝑠𝜏)で, 現在のstate 𝑠𝜏以降のエージェントの期待報酬を推
定する
• Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで学習
を進める
• 方策の学習時にはReparameterization trickを使う
13
Long Horizonな価値の推定
• Value model 𝑣 𝜓(𝑠𝜏)を用いて, k-step先まで考慮した価値関数𝑉𝑁
𝑘
と,異なる
長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆の値の推定を
行う(本論文の要点1)
 𝑉𝑅はValue modelを持たない価値関数(実験で𝑉𝜆の効果を比較)
(今回の実験では𝐻 = 15ぐらいでいいらしい)
14
学習の目的関数
• 方策(Action model)と価値関数(Value model)の更新のために, imagined
trajectory中の全てのstate 𝑠𝜏について価値関数𝑉𝜆(𝑠𝜏)を計算
• Actor-Criticのようにそれぞれの目的関数について交互に更新
• 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本論
文の要点2)
 𝑉𝜆は報酬𝑟𝜏 とValue model 𝑣 𝜓から求まり, 報酬とValueはimagined state 𝑠𝜏とimagined
action 𝑎 𝜏から求まるため(全てNNでモデル化)
15
既存研究との差分
• DDPG, SAC: 方策の目的関数にQ-valueを用いている点で異なる
• A3C, PPO: これらは方策勾配のvarianceを下げるためにベースラインとして
価値関数を用いるが, Dreamerは直接価値関数を微分する
• MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮したQ-
learningをダイナミクスモデルを用いて行うが, ダイミクスモデルを通した微
分を行わない点と, Dreamerは価値関数𝑉のみで学習する点で異なる
16
実験: ベースライン手法との比較
• 画像入力のPlaNet, D4PG, MDPで学習させたA3Cと比較
Dreamerはサンプル効率よくモデルフリーの手法に近い性能
20taskの平均で823(PlaNetは332, D4PGは109stepで786)
17
実験: 価値関数𝑉𝜆の検証
• Dreamerはlong-horizonの信用割り当てが必要なAcrobotやHopperでもうま
くいっている
長期性を考慮した価値関数𝑉𝜆が効果的(Horizon 𝐻に対してもロバスト)
18
実験: ダイナミクスモデルの比較
• 異なるダイナミクスモデルの目的関数について性能を比較
Reconstructionが最も良く, Contrastive estimationでも半分のタスクは解けるが
Reward predictionでは不十分
19
まとめ
• 潜在空間での想像(latent imagination)のみにより, long-horizonなタスクの
方策を学習する手法 Dreamerを提案
• ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値関数に
関する勾配を直接計算
感想
ダイナミクスモデルや学習方法についての拡張性が高い
画像入力のロボットアームのタスクでも解けるのか気になる
20

More Related Content

PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
[DL輪読会]World Models
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PDF
「世界モデル」と関連研究について
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
[DL輪読会]World Models
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
「世界モデル」と関連研究について
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜

What's hot (20)

PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
Transformer メタサーベイ
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PDF
ドメイン適応の原理と応用
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PDF
深層生成モデルと世界モデル
PDF
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
PPTX
【DL輪読会】Reward Design with Language Models
PDF
POMDP下での強化学習の基礎と応用
PDF
自己教師学習(Self-Supervised Learning)
PPTX
3Dマップを活用したVisual Localization
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
【DL輪読会】Transformers are Sample Efficient World Models
【メタサーベイ】数式ドリブン教師あり学習
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
強化学習と逆強化学習を組み合わせた模倣学習
Transformer メタサーベイ
Curriculum Learning (関東CV勉強会)
[DL輪読会]GQNと関連研究,世界モデルとの関係について
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Domain Adaptation 発展と動向まとめ(サーベイ資料)
ドメイン適応の原理と応用
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
深層生成モデルと世界モデル
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】Reward Design with Language Models
POMDP下での強化学習の基礎と応用
自己教師学習(Self-Supervised Learning)
3Dマップを活用したVisual Localization
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Ad

Similar to [DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination (20)

PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PDF
[DL輪読会]Learning Task Informed Abstractions
PDF
Learning to Navigate in Complex Environments 輪読
PDF
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
PDF
ICML2017 参加報告会 山本康生
PDF
生成モデルの Deep Learning
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
「機械学習とは?」から始める Deep learning実践入門
PDF
Ibis2016okanohara
PDF
[DL輪読会]Learning to Act by Predicting the Future
PDF
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
RLアーキテクチャ勉強会 MERLIN
PDF
Generative deeplearning #02
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning Task Informed Abstractions
Learning to Navigate in Complex Environments 輪読
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
ICML2017 参加報告会 山本康生
生成モデルの Deep Learning
Decision Transformer: Reinforcement Learning via Sequence Modeling
「機械学習とは?」から始める Deep learning実践入門
Ibis2016okanohara
[DL輪読会]Learning to Act by Predicting the Future
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
RLアーキテクチャ勉強会 MERLIN
Generative deeplearning #02
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination

  • 1. DEEP LEARNING JP [DL Papers] Dream to Control: Learning Behaviors by Latent Imagination Hiroki Furuta http://deeplearning.jp/
  • 2. 書誌情報 • タイトル: Dream to Control: Learning Behaviors by Latent Imagination • 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2 • 所属: 1University of Toronto, 2Google Brain, 3DeepMind • 会議: ICLR2020, Spotlight • URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603 • 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを 提案 2
  • 3. 研究背景 • 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミクス モデルを学習することが可能になった • ダイナミクスモデルから制御方策を獲得する方法はいくつか存在  予測される報酬を最大化するようにパラメタ化した方策を学習 • Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など  Online planning • PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など • Neural Networkによるダイナミクスモデルでは勾配が計算できることを利用して long-horizonなタスクを解きたい  固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬の最大 化を図ると近視眼的な方策に陥りがちなため 3
  • 4. 貢献 • 潜在空間での想像(latent imagination)のみにより, long- horizonなタスクの方策を学習  潜在変数(state)から長期的な価値を推定し, 方策の更新にダイナミ クスモデルを通した価値関数の勾配を直接利用する(後述) • DeepMind Control Suiteの画像入力のControl タスクでサン プル効率, 計算時間, 性能の面で, 既存のモデルベース/モ デルフリーのべンチマークを上回った • 状態表現学習(Representation Learning)というよりは, モデ ルベース強化学習の新たなアルゴリズムついての論文 4(本資料の図は断りがない限り論文より引用) 先行研究(PlaNet) とほぼ同じ 新規性
  • 5. 準備: 問題設定 • 画像入力なので部分観測Markov Decision Process(POMDP)を仮定 離散 time step 𝑡 ∈ 1; 𝑇 エージェントの出力する連続値action(ベクトル) 𝑎 𝑡 ~ 𝑝 𝑎 𝑡 𝑜≤𝑡, 𝑎<𝑡 観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡) • 今回は環境は未知 目標は期待報酬の和を最大化する方策を学習すること Ε 𝑝(∑ 𝑡=1 𝑇 𝑟𝑡) 5 DeepMindControl Suitから20 タスクを実験に使用(図はそのう ちの5つの例)
  • 6. 準備: エージェント • モデルベース強化学習でimaginationから学習するエージェントは以下の3 つの要素を繰り返すことで学習する[Sutton, 1991] ダイナミクスモデルの学習 • 今回はlatent dynamics 方策の学習 • 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用 環境との相互作用 • ダイナミクスモデルのデータセットを拡張するため 6
  • 8. ダイナミクスモデルの学習: Latent dynamics Dreamerで用いるLatent dynamicsは3つのモデルからなる • Representation model 𝑝(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1, 𝑜𝑡) 観測𝑜𝑡とaction 𝑎 𝑡−1からマルコフ性を仮定した連続値ベクトルのstate(潜在変数) 𝑠𝑡 をエンコード • Transition model 𝑞(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1) 観測𝑜𝑡によらない潜在空間上の遷移のモデル (latent imaginationに使用) • Reward model 𝑞(𝑟𝑡|𝑠𝑡) state 𝑠𝑡における報酬𝑟𝑡の予測モデル (latent imaginationに使用) 8
  • 9. ダイナミクスモデルの学習: Reward Prediction ダイナミクスモデルの学習には代表的な3つのアプローチがある • Reward Prediction 前ページで説明したRepresentation model, Transition model, Reward modelを, 行動 と過去の観測で条件づけられた将来の報酬の予測から学習する方法 大量で多様なデータがあればControl taskを解くのに十分なモデルが学習できる(ら しい) • Reconstruction • Contrastive estimation 9
  • 10. ダイナミクスモデルの学習: Reconstruction Reconstruction • PlaNet[Hafner et al. 2018]同様, 観測の画像の再構成によって学習 Observation modelは学習時のみ使用 Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で 実装 10 ※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics- for-planning-from-pixels
  • 11. ダイナミクスモデルの学習: Latent dynamics Contrastive estimation • 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)による 学習がある ReconstructionのObservation modelをState modelに置き換える 実験では3つの性能を比較 11 Constructive Estimation Reconstruction
  • 12. Latent Imaginationによる方策の学習 • State 𝑠𝑡(潜在空間)にはMDPを仮定 • 過去の経験の観測𝑜𝑡からエンコードされた𝑠𝑡をスタートとして, Transition model 𝑠𝜏 ~ 𝑞(𝑠𝜏|𝑠𝜏, 𝑎 𝜏), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏|𝑠𝜏), 方策 𝑎 𝜏 ~ 𝑞 𝑎 𝜏 𝑠𝜏 を 順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力 12
  • 13. Latent Imaginationによる方策の学習 • Value model 𝑣 𝜓(𝑠𝜏)で, 現在のstate 𝑠𝜏以降のエージェントの期待報酬を推 定する • Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで学習 を進める • 方策の学習時にはReparameterization trickを使う 13
  • 14. Long Horizonな価値の推定 • Value model 𝑣 𝜓(𝑠𝜏)を用いて, k-step先まで考慮した価値関数𝑉𝑁 𝑘 と,異なる 長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆の値の推定を 行う(本論文の要点1)  𝑉𝑅はValue modelを持たない価値関数(実験で𝑉𝜆の効果を比較) (今回の実験では𝐻 = 15ぐらいでいいらしい) 14
  • 15. 学習の目的関数 • 方策(Action model)と価値関数(Value model)の更新のために, imagined trajectory中の全てのstate 𝑠𝜏について価値関数𝑉𝜆(𝑠𝜏)を計算 • Actor-Criticのようにそれぞれの目的関数について交互に更新 • 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本論 文の要点2)  𝑉𝜆は報酬𝑟𝜏 とValue model 𝑣 𝜓から求まり, 報酬とValueはimagined state 𝑠𝜏とimagined action 𝑎 𝜏から求まるため(全てNNでモデル化) 15
  • 16. 既存研究との差分 • DDPG, SAC: 方策の目的関数にQ-valueを用いている点で異なる • A3C, PPO: これらは方策勾配のvarianceを下げるためにベースラインとして 価値関数を用いるが, Dreamerは直接価値関数を微分する • MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮したQ- learningをダイナミクスモデルを用いて行うが, ダイミクスモデルを通した微 分を行わない点と, Dreamerは価値関数𝑉のみで学習する点で異なる 16
  • 17. 実験: ベースライン手法との比較 • 画像入力のPlaNet, D4PG, MDPで学習させたA3Cと比較 Dreamerはサンプル効率よくモデルフリーの手法に近い性能 20taskの平均で823(PlaNetは332, D4PGは109stepで786) 17
  • 20. まとめ • 潜在空間での想像(latent imagination)のみにより, long-horizonなタスクの 方策を学習する手法 Dreamerを提案 • ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値関数に 関する勾配を直接計算 感想 ダイナミクスモデルや学習方法についての拡張性が高い 画像入力のロボットアームのタスクでも解けるのか気になる 20