Submit Search
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Download as PPTX, PDF
3 likes
2,619 views
Deep Learning JP
2020/03/13 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 20
Download now
Downloaded 29 times
1
2
3
4
Most read
5
6
7
8
Most read
9
Most read
10
11
12
13
14
15
16
17
18
19
20
More Related Content
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
PPTX
[DL輪読会]World Models
Deep Learning JP
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
PDF
「世界モデル」と関連研究について
Masahiro Suzuki
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
[DL輪読会]World Models
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
「世界モデル」と関連研究について
Masahiro Suzuki
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
What's hot
(20)
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
PDF
Transformer メタサーベイ
cvpaper. challenge
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PDF
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
Deep Learning JP
PPTX
【DL輪読会】Reward Design with Language Models
Deep Learning JP
PDF
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PPTX
3Dマップを活用したVisual Localization
Hajime Taira
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
Transformer メタサーベイ
cvpaper. challenge
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
ドメイン適応の原理と応用
Yoshitaka Ushiku
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
深層生成モデルと世界モデル
Masahiro Suzuki
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
Deep Learning JP
【DL輪読会】Reward Design with Language Models
Deep Learning JP
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
3Dマップを活用したVisual Localization
Hajime Taira
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
Ad
Similar to [DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
(20)
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
PDF
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
PDF
Learning to Navigate in Complex Environments 輪読
Tatsuya Matsushima
PDF
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
PDF
ICML2017 参加報告会 山本康生
Yahoo!デベロッパーネットワーク
PDF
生成モデルの Deep Learning
Seiya Tokui
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
PPTX
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
PDF
Ibis2016okanohara
Preferred Networks
PDF
[DL輪読会]Learning to Act by Predicting the Future
Deep Learning JP
PDF
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Preferred Networks
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Preferred Networks
PDF
RLアーキテクチャ勉強会 MERLIN
YumaKajihara
PDF
Generative deeplearning #02
逸人 米田
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
Learning to Navigate in Complex Environments 輪読
Tatsuya Matsushima
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
ICML2017 参加報告会 山本康生
Yahoo!デベロッパーネットワーク
生成モデルの Deep Learning
Seiya Tokui
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
Ibis2016okanohara
Preferred Networks
[DL輪読会]Learning to Act by Predicting the Future
Deep Learning JP
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Preferred Networks
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Preferred Networks
RLアーキテクチャ勉強会 MERLIN
YumaKajihara
Generative deeplearning #02
逸人 米田
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
1.
DEEP LEARNING JP [DL
Papers] Dream to Control: Learning Behaviors by Latent Imagination Hiroki Furuta http://deeplearning.jp/
2.
書誌情報 • タイトル: Dream
to Control: Learning Behaviors by Latent Imagination • 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2 • 所属: 1University of Toronto, 2Google Brain, 3DeepMind • 会議: ICLR2020, Spotlight • URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603 • 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを 提案 2
3.
研究背景 • 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミクス モデルを学習することが可能になった •
ダイナミクスモデルから制御方策を獲得する方法はいくつか存在 予測される報酬を最大化するようにパラメタ化した方策を学習 • Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など Online planning • PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など • Neural Networkによるダイナミクスモデルでは勾配が計算できることを利用して long-horizonなタスクを解きたい 固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬の最大 化を図ると近視眼的な方策に陥りがちなため 3
4.
貢献 • 潜在空間での想像(latent imagination)のみにより,
long- horizonなタスクの方策を学習 潜在変数(state)から長期的な価値を推定し, 方策の更新にダイナミ クスモデルを通した価値関数の勾配を直接利用する(後述) • DeepMind Control Suiteの画像入力のControl タスクでサン プル効率, 計算時間, 性能の面で, 既存のモデルベース/モ デルフリーのべンチマークを上回った • 状態表現学習(Representation Learning)というよりは, モデ ルベース強化学習の新たなアルゴリズムついての論文 4(本資料の図は断りがない限り論文より引用) 先行研究(PlaNet) とほぼ同じ 新規性
5.
準備: 問題設定 • 画像入力なので部分観測Markov
Decision Process(POMDP)を仮定 離散 time step 𝑡 ∈ 1; 𝑇 エージェントの出力する連続値action(ベクトル) 𝑎 𝑡 ~ 𝑝 𝑎 𝑡 𝑜≤𝑡, 𝑎<𝑡 観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡) • 今回は環境は未知 目標は期待報酬の和を最大化する方策を学習すること Ε 𝑝(∑ 𝑡=1 𝑇 𝑟𝑡) 5 DeepMindControl Suitから20 タスクを実験に使用(図はそのう ちの5つの例)
6.
準備: エージェント • モデルベース強化学習でimaginationから学習するエージェントは以下の3 つの要素を繰り返すことで学習する[Sutton,
1991] ダイナミクスモデルの学習 • 今回はlatent dynamics 方策の学習 • 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用 環境との相互作用 • ダイナミクスモデルのデータセットを拡張するため 6
7.
アルゴリズム 7
8.
ダイナミクスモデルの学習: Latent dynamics Dreamerで用いるLatent
dynamicsは3つのモデルからなる • Representation model 𝑝(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1, 𝑜𝑡) 観測𝑜𝑡とaction 𝑎 𝑡−1からマルコフ性を仮定した連続値ベクトルのstate(潜在変数) 𝑠𝑡 をエンコード • Transition model 𝑞(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1) 観測𝑜𝑡によらない潜在空間上の遷移のモデル (latent imaginationに使用) • Reward model 𝑞(𝑟𝑡|𝑠𝑡) state 𝑠𝑡における報酬𝑟𝑡の予測モデル (latent imaginationに使用) 8
9.
ダイナミクスモデルの学習: Reward Prediction ダイナミクスモデルの学習には代表的な3つのアプローチがある •
Reward Prediction 前ページで説明したRepresentation model, Transition model, Reward modelを, 行動 と過去の観測で条件づけられた将来の報酬の予測から学習する方法 大量で多様なデータがあればControl taskを解くのに十分なモデルが学習できる(ら しい) • Reconstruction • Contrastive estimation 9
10.
ダイナミクスモデルの学習: Reconstruction Reconstruction • PlaNet[Hafner
et al. 2018]同様, 観測の画像の再構成によって学習 Observation modelは学習時のみ使用 Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で 実装 10 ※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics- for-planning-from-pixels
11.
ダイナミクスモデルの学習: Latent dynamics Contrastive
estimation • 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)による 学習がある ReconstructionのObservation modelをState modelに置き換える 実験では3つの性能を比較 11 Constructive Estimation Reconstruction
12.
Latent Imaginationによる方策の学習 • State
𝑠𝑡(潜在空間)にはMDPを仮定 • 過去の経験の観測𝑜𝑡からエンコードされた𝑠𝑡をスタートとして, Transition model 𝑠𝜏 ~ 𝑞(𝑠𝜏|𝑠𝜏, 𝑎 𝜏), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏|𝑠𝜏), 方策 𝑎 𝜏 ~ 𝑞 𝑎 𝜏 𝑠𝜏 を 順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力 12
13.
Latent Imaginationによる方策の学習 • Value
model 𝑣 𝜓(𝑠𝜏)で, 現在のstate 𝑠𝜏以降のエージェントの期待報酬を推 定する • Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで学習 を進める • 方策の学習時にはReparameterization trickを使う 13
14.
Long Horizonな価値の推定 • Value
model 𝑣 𝜓(𝑠𝜏)を用いて, k-step先まで考慮した価値関数𝑉𝑁 𝑘 と,異なる 長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆の値の推定を 行う(本論文の要点1) 𝑉𝑅はValue modelを持たない価値関数(実験で𝑉𝜆の効果を比較) (今回の実験では𝐻 = 15ぐらいでいいらしい) 14
15.
学習の目的関数 • 方策(Action model)と価値関数(Value
model)の更新のために, imagined trajectory中の全てのstate 𝑠𝜏について価値関数𝑉𝜆(𝑠𝜏)を計算 • Actor-Criticのようにそれぞれの目的関数について交互に更新 • 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本論 文の要点2) 𝑉𝜆は報酬𝑟𝜏 とValue model 𝑣 𝜓から求まり, 報酬とValueはimagined state 𝑠𝜏とimagined action 𝑎 𝜏から求まるため(全てNNでモデル化) 15
16.
既存研究との差分 • DDPG, SAC:
方策の目的関数にQ-valueを用いている点で異なる • A3C, PPO: これらは方策勾配のvarianceを下げるためにベースラインとして 価値関数を用いるが, Dreamerは直接価値関数を微分する • MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮したQ- learningをダイナミクスモデルを用いて行うが, ダイミクスモデルを通した微 分を行わない点と, Dreamerは価値関数𝑉のみで学習する点で異なる 16
17.
実験: ベースライン手法との比較 • 画像入力のPlaNet,
D4PG, MDPで学習させたA3Cと比較 Dreamerはサンプル効率よくモデルフリーの手法に近い性能 20taskの平均で823(PlaNetは332, D4PGは109stepで786) 17
18.
実験: 価値関数𝑉𝜆の検証 • Dreamerはlong-horizonの信用割り当てが必要なAcrobotやHopperでもうま くいっている 長期性を考慮した価値関数𝑉𝜆が効果的(Horizon
𝐻に対してもロバスト) 18
19.
実験: ダイナミクスモデルの比較 • 異なるダイナミクスモデルの目的関数について性能を比較 Reconstructionが最も良く,
Contrastive estimationでも半分のタスクは解けるが Reward predictionでは不十分 19
20.
まとめ • 潜在空間での想像(latent imagination)のみにより,
long-horizonなタスクの 方策を学習する手法 Dreamerを提案 • ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値関数に 関する勾配を直接計算 感想 ダイナミクスモデルや学習方法についての拡張性が高い 画像入力のロボットアームのタスクでも解けるのか気になる 20
Download