SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Learning Task Informed Abstractions
発表者: 阿久澤圭 (松尾研D3)
書誌情報
• タイトル: Learning Task Informed Abstractions
• 著者: Xiang Fu (MIT), Ge Yang (University of Chicago), Pulkit Agrawal (MIT),
Tommi Jaakkola (MIT)
• 投稿先: ICML2021 accepted
• 概要: 強化学習のための,タスク関連・非関連の特徴量を分離する表現学習手法
背景
• 強化学習において画像観測は,タスク(報酬関数)と無関係な特徴
(disctactor)を含むことが多々ある
• モデルベース強化学習(図ではDreamer (Hafner et. al., 2019))の性能
はdistractorに強く影響される
既存研究の問題点と本論文の提案
• 既存研究の問題点:
• モデルベースRLにおけるモデルは,(1)画像の予測と(2)報酬の予測で学習する.
• しかし観測がタスクに関係のない情報(distractor)を含む時,
• (1) 画像の予測(再構成)では,タスクに関係のない情報を捉えてしまう
• (2) 報酬の予測では,シグナルが弱く学習が難しい
• 提案:
• Dreamerを拡張した,Task Informed Abstraction (TIA) を提案.既存のDreamerと同様
に,画像と報酬の予測で学習.しかし,タスクに関係のない特徴量を捉えないように制約
関連研究
• 提案手法のバックボーン
• Dream to Control: Learning Behaviors by Latent Imagination. (ICLR2020)
• タスク関連・非関連の特徴量の分離に関する研究
• Deepmdp: Learning continuous latent space models for representation
learning (ICML2019)
• Invariant causal prediction for block mdps (ICML2020)
• Learning invariant representations for reinforcement learning without
reconstruction (ICLR2021)
関連研究: Dreamer [Hafner et. al. 2020]
• (a) 画像・観測予測によって表現(緑色の点)を学習
• (b) 表現を入力に取る価値関数・方策を訓練(データはモデル自身から生成)
• 欠点(発表論文での指摘): 表現は,タスク関連/非関連の情報を分離できていない
関連研究: DeepMDP [Gelada et. al. 2019]
• 二つの損失関数で表現学習
• 報酬の予測
• 次の時刻の表現(の分布)の予測
• メリット:
• 画像予測を用いないため,表現は
distractor-free
• デメリット(発表論文の指摘):
• 画像予測を用いないと,学習が難しい
関連研究: MISA [Zhang et. al. 2020]
• 提案:
• グラフィカルモデル上で状態を
タスク関連・非関連に分離する
ことを提案
• 欠点(紹介論文の指摘):
• アイデア自体は紹介論文と同じ
• practicalな手法の提案や,複雑
な画像観測を使った実験がない
関連研究: DBC [Zhang et. al. 2021]
• 提案:
• bisimulation metricsを用
いた,タスク関連・非関連
の特徴量の分離
• DeepMDPと似ている(画
像予測を学習に用いない)
• 欠点(発表論文の指摘):
• 画像予測を用いないと,学
習が難しい
提案手法
• グラフィカルモデル上で,状
態を報酬に関係のある と,
関係のない に分割
s+
s−
提案手法の学習
• 基本的にDreamerと同様Amortized Inference(VAE)で前出のグラフィカルモデルを学習
• 追加的な4つの工夫
• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
• Cooperative Reconstruction: と からそれぞれ画像を生成しそれらを合成
• Distractor-model-only Reconstruction: が無情報になる問題を回避するため,
のみから再構成を行う
• Policy Learning: のみを方策への入力とする
s−
s+
s−
s−
s−
s+
提案手法の学習
• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
s−
提案手法の学習
• Cooperative Reconstruction: と からそれぞれ画像を生成し,それらを足し合わせる
s+
s−
提案手法の学習
• Distractor-model-only Reconstruction: が無情報になる問題を回避するため,
のみから再構成を行う
s−
s−
提案手法の学習
• Policy Learning: のみを方策への入力とする
s+
実験: 提案手法による画像特徴の分離
•TIAは,ノイズとタスク関連の特徴をよく分離できていることがわかる
実験: ManyWorld and DMC
• ManyWorld env. (a, b) と DeepMind Control suit (c, d, e) 環境を用い
た実験.人工的に画像特徴にdistractorを加える
• 既存のモデルベースRL手法を上回る性能を確認
実験: Atari
• Atari環境で実験.この環境はもともとdistractorが存在する
• いくつかの環境でDreamerV2を上回る・モデルフリーのアルゴリズムに匹敵
まとめ
• 貢献
• タスク関連・非関連の特徴を分離するRL手法を提案
• DeepMind Control suit と Atari で,実験的に良い性能を発揮した
• Future work
• Test-time adaptation: 訓練時に見たことのないdistractorが来たときに,それを分離したい
• ハイパラ頑健性(敵対学習など使っているので)
• スパース報酬への対応
• タスク関連・非関連というbinaryの帰納バイアスではなく,よりソフトな制約を課す
参考文献
• Hafner, Danijar, et al. "Dream to Control: Learning Behaviors by Latent Imagination."
International Conference on Learning Representations. 2020.
• Gelada, C., Kumar, S., Buckman, J., Nachum, O., and Belle- mare, M. G. Deepmdp:
Learning continuous latent space models for representation learning., International
Conference on Machine Learning, 2019.
• Zhang, A., Lyle, C., Sodhani, S., Filos, A., Kwiatkowska, M., Pineau, J., Gal, Y., and Precup,
D. Invariant causal prediction for block mdps. In International Conference on Machine
Learning, pp. 11214‒11224. PMLR, 2020
• Zhang, A., McAllister, R. T., Calandra, R., Gal, Y., and Levine, S. Learning invariant
representations for reinforcement learning without reconstruction. International
Conference on Learning Representations, 2021.

More Related Content

PPTX
ResNetの仕組み
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
点群深層学習 Meta-study
PPTX
[DL輪読会]World Models
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
PRML8章
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
ResNetの仕組み
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
点群深層学習 Meta-study
[DL輪読会]World Models
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PRML8章
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜

What's hot (20)

PDF
【DL輪読会】Segment Anything
PPTX
変分ベイズ法の説明
PDF
グラフニューラルネットワーク入門
PPTX
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PPTX
A3C解説
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
[DL輪読会]Relational inductive biases, deep learning, and graph networks
PDF
[DL Hacks]Self-Attention Generative Adversarial Networks
PDF
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
PRML輪読#13
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPTX
動画像を用いた経路予測手法の分類
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
PDF
Transformer 動向調査 in 画像認識(修正版)
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Segment Anything
変分ベイズ法の説明
グラフニューラルネットワーク入門
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会] マルチエージェント強化学習と心の理論
A3C解説
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL Hacks]Self-Attention Generative Adversarial Networks
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PRML輪読#13
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
動画像を用いた経路予測手法の分類
三次元点群を取り扱うニューラルネットワークのサーベイ
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
Transformer 動向調査 in 画像認識(修正版)
【DL輪読会】Can Neural Network Memorization Be Localized?
Ad

Similar to [DL輪読会]Learning Task Informed Abstractions (20)

PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PPTX
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
Deep learningの概要とドメインモデルの変遷
PPTX
survey on math transformer 2023 0628 sato
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
Fast abstractive summarization with reinforce selected sentence rewriting
PPTX
全脳関西編(松尾)
PDF
IIBMP2016 深層生成モデルによる表現学習
PDF
Ibis2016okanohara
PDF
深層学習入門
PDF
生成モデルの Deep Learning
PDF
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
"Universal Planning Networks" and "Composable Planning with Attributes"
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Decision Transformer: Reinforcement Learning via Sequence Modeling
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Deep learningの概要とドメインモデルの変遷
survey on math transformer 2023 0628 sato
【DL輪読会】Transformers are Sample Efficient World Models
Fast abstractive summarization with reinforce selected sentence rewriting
全脳関西編(松尾)
IIBMP2016 深層生成モデルによる表現学習
Ibis2016okanohara
深層学習入門
生成モデルの Deep Learning
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

[DL輪読会]Learning Task Informed Abstractions