SlideShare a Scribd company logo
4
Most read
11
Most read
16
Most read
DEEP LEARNING JP
[DL Papers] Data-Efficient Reinforcement Learning
with Self-Predictive Representations
Xin Zhang, Matsuo Lab
http://deeplearning.jp
/
目次
2
1. 書誌情報
2. Introduction
3. Self-Predictive Representation
4. Related Works
5. Experiment Evaluation
6. Discussion
書誌情報
● タイトル:
○ Data-Efficient Reinforcement Learning with Self-Predictive Representations
● 著者
○ Max Schwarzer, Ankesh Anand, Rishab Goel, R Devon Hjelm, Aaron Courville,
Philip Bachman
● 所属:Mila, Université de Montréal, Microsoft Research
● 投稿日:2020/7/12 (arXiv), ICRL2021 Spotlight (7776)
● 概要
○ 強化学習のサンプル効率をあげるため、表現学習をSelf-supervisedで行った。
○ k step後の状態を予測する、状態予測ダイナミックスモデルを学習する。
○ ただし、状態の潜在空間上において、予測を行うことで、複雑度を下げる。
3
Introduction
強化学習におけるサンプル効率問題
- Atrai game, 10~50 years. OpenAI Five 45000 years of experience.
- 実世界では許されないので、サンプル効率を上げないといけない!
- CVとNLPでは、自己教師表現学習が有効で、業績残している。
- 強化学習における表現学習が有効。前から研究されていた。
- 強化学習のための状態表現学習(松嶋さんDL輪読会)
- 未来の状態が予測できるような、状態の表現が学習できないか?
- 自己教師で..
- データ拡張が使えて..
4
Kステップ後の表現を予測できるように学習した状態表現
Self-Predictive Representations(SPR)
5
1. Online encoder and
target encoder
2. Transition Model
3. Projection Heads
4. Prediction Loss
Target encoder, using EMA of online encoder.
Self-Predictive Representations(SPR)
6
1. Online encoder and
target encoder
2. Transition Model
3. Projection Heads
4. Prediction Loss
1 ステップずつ、Kステップ分の状態表現を予測する。
Self-Predictive Representations(SPR)
7
1. Online encoder and
target encoder
2. Transition Model
3. Projection Heads
4. Prediction Loss
Projection で小さい次元に圧縮する。predictionでさらに予測。
Self-Predictive Representations(SPR)
8
1. Online encoder and
target encoder
2. Transition Model
3. Projection Heads
4. Prediction Loss
ステップごとのCosine Similarity Lossを取る。
Self-Predictive Representations(SPR)
9
1. Online encoder and
target encoder
2. Transition Model
3. Projection Heads
4. Prediction Loss
Self-Predictive Representations.
10
Related Works
11
● Data-Efficient RL
○ SiMPle:pixel-level transition model.
○ Data-Efficient Rainbow(DER) and OTRainbow:
○ 再構築Lossで潜在空間モデルを学習
○ DrQ, RAD:image augmentationすることで多くのモデルベースよりも精度が良い
○ Data augmentionはマルチタスク、転移学習における汎化性の向上に有効
SPRのアプローチの方が、data-augmentationをさらに有効に使える。
Related Works
12
● Representation Learning in RL:
○ CURL:image augmentation + contrastive loss.
■ Image augmentationの方が効いる?(by RAD)
○ CPC, ST-DIM, DRIML:temporal contrastive losses.
○ DeepMDP, trains a transition model with L2 loss.
■ online encoder to prediction target. prone to representational collapse.
■ add observation reconstruction objective.
○ PBL:directly predicts representations of future states.
■ Two target networks. Focus on multi-task generalization. 100 times data as SPR.
SPRはself-supervised, trained in latent space, uses a normalized loss.
Target encoder. Augmentations.
Experiments. Atari
13
Human-Normalized scores:人間のスコアを1.0 にして評価する基準。
SPRは、データ拡張しなくてもSOTA。
(*はデータ拡張。100k steps or 400k frames per game.)
Experiments
14
SimPLeも良さそうだが、結果の分布で見るとわかりやすい。SPRはSOTA。
Experiments
15
Dynamics modeling consistently improving performance.
Discussion
16
考察
- The target encoderは重要
- データ拡張がある時は、T=0. 並行して2つのencoderを学習する。
- 拡張がない時は、T=0.99. でほぼ固定
- Dynamics modelingは重要, K = 5.
- 流行っているContrastive lossesよりは良い。
今後の方向性
- CVとNLPを見ると、RLにも大規模なデータセットで事前学習し、fine
tuningする流れもやってくるのでは?
- SPRで学習したモデルで、モデルベースの学習をやる。
感想
17
- サンプル効率問題に向けて、自己教師あり学習でモデルを学習するアプローチ
は面白いと思って、読んだ。
- 思ったより、たくさんの研究があって、新規性をどう出すのか?
- Self-Supervised * Model-based あたりが可能性高いと思っている。
参考文献
18
- https://zhuanlan.zhihu.com/p/164842371
- https://arxiv.org/pdf/2006.07733.pdf

More Related Content

PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Neural networks for Graph Data NeurIPS2018読み会@PFN
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
【DL輪読会】Transformers are Sample Efficient World Models
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

What's hot (20)

PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Curriculum Learning (関東CV勉強会)
PDF
画像生成・生成モデル メタサーベイ
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
実装レベルで学ぶVQVAE
PPTX
深層学習の数理
PDF
PRML学習者から入る深層生成モデル入門
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]Explainable Reinforcement Learning: A Survey
PDF
深層生成モデルと世界モデル(2020/11/20版)
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
グラフニューラルネットワーク入門
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
最適輸送入門
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Curriculum Learning (関東CV勉強会)
画像生成・生成モデル メタサーベイ
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
実装レベルで学ぶVQVAE
深層学習の数理
PRML学習者から入る深層生成モデル入門
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Transformerを雰囲気で理解する
[DL輪読会]Explainable Reinforcement Learning: A Survey
深層生成モデルと世界モデル(2020/11/20版)
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
グラフニューラルネットワーク入門
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】時系列予測 Transfomers の精度向上手法
最適輸送入門
【論文紹介】How Powerful are Graph Neural Networks?
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
Ad

Similar to 【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representations (20)

PDF
ICML2017 参加報告会 山本康生
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PDF
Deep learning勉強会20121214ochi
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
[DL輪読会]Ensemble Distribution Distillation
PDF
【CVPR 2019】Do Better ImageNet Models Transfer Better?
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
Deep learningの概要とドメインモデルの変遷
PDF
ディープラーニング最近の発展とビジネス応用への課題
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
NeurIPS'21参加報告 tanimoto_public
PDF
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
PDF
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
Deeplearning lt.pdf
PDF
【2016.08】cvpaper.challenge2016
ICML2017 参加報告会 山本康生
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep learning勉強会20121214ochi
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
[DL輪読会]Ensemble Distribution Distillation
【CVPR 2019】Do Better ImageNet Models Transfer Better?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep learningの概要とドメインモデルの変遷
ディープラーニング最近の発展とビジネス応用への課題
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
NeurIPS'21参加報告 tanimoto_public
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]Deep Face Recognition: A Survey
Deeplearning lt.pdf
【2016.08】cvpaper.challenge2016
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representations