[DL輪読会]Learning Task Informed Abstractions

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Learning Task Informed Abstractions
発表者: 阿久澤圭 (松尾研D3)

書誌情報
• タイトル: Learning Task Informed Abstractions
• 著者: Xiang Fu (MIT), Ge Yang (University of Chicago), Pulkit Agrawal (MIT),
Tommi Jaakkola (MIT)
• 投稿先: ICML2021 accepted
• 概要: 強化学習のための，タスク関連・非関連の特徴量を分離する表現学習手法

背景
• 強化学習において画像観測は，タスク（報酬関数）と無関係な特徴
（disctactor）を含むことが多々ある
• モデルベース強化学習（図ではDreamer (Hafner et. al., 2019)）の性能
はdistractorに強く影響される

既存研究の問題点と本論文の提案
• 既存研究の問題点:
• モデルベースRLにおけるモデルは，(1)画像の予測と(2)報酬の予測で学習する．
• しかし観測がタスクに関係のない情報（distractor）を含む時，
• (1) 画像の予測（再構成）では，タスクに関係のない情報を捉えてしまう
• (2) 報酬の予測では，シグナルが弱く学習が難しい
• 提案:
• Dreamerを拡張した，Task Informed Abstraction (TIA) を提案．既存のDreamerと同様
に，画像と報酬の予測で学習．しかし，タスクに関係のない特徴量を捉えないように制約

関連研究
• 提案手法のバックボーン
• Dream to Control: Learning Behaviors by Latent Imagination. (ICLR2020)
• タスク関連・非関連の特徴量の分離に関する研究
• Deepmdp: Learning continuous latent space models for representation
learning (ICML2019)
• Invariant causal prediction for block mdps (ICML2020)
• Learning invariant representations for reinforcement learning without
reconstruction (ICLR2021)

関連研究: Dreamer [Hafner et. al. 2020]
• (a) 画像・観測予測によって表現（緑色の点）を学習
• (b) 表現を入力に取る価値関数・方策を訓練（データはモデル自身から生成）
• 欠点（発表論文での指摘）: 表現は，タスク関連/非関連の情報を分離できていない

関連研究: DeepMDP [Gelada et. al. 2019]
• 二つの損失関数で表現学習
• 報酬の予測
• 次の時刻の表現（の分布）の予測
• メリット:
• 画像予測を用いないため，表現は
distractor-free
• デメリット（発表論文の指摘）:
• 画像予測を用いないと，学習が難しい

関連研究: MISA [Zhang et. al. 2020]
• 提案:
• グラフィカルモデル上で状態を
タスク関連・非関連に分離する
ことを提案
• 欠点（紹介論文の指摘）:
• アイデア自体は紹介論文と同じ
• practicalな手法の提案や，複雑
な画像観測を使った実験がない

関連研究: DBC [Zhang et. al. 2021]
• 提案:
• bisimulation metricsを用
いた，タスク関連・非関連
の特徴量の分離
• DeepMDPと似ている（画
像予測を学習に用いない）
• 欠点（発表論文の指摘）:
• 画像予測を用いないと，学
習が難しい

提案手法
• グラフィカルモデル上で，状
態を報酬に関係のあると，
関係のないに分割
s+
s−

提案手法の学習
• 基本的にDreamerと同様Amortized Inference(VAE)で前出のグラフィカルモデルを学習
• 追加的な4つの工夫
• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
• Cooperative Reconstruction: とからそれぞれ画像を生成しそれらを合成
• Distractor-model-only Reconstruction: が無情報になる問題を回避するため，
のみから再構成を行う
• Policy Learning: のみを方策への入力とする
s−
s+
s−
s−
s−
s+

• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
s−

• Cooperative Reconstruction: とからそれぞれ画像を生成し，それらを足し合わせる
s+
s−

• Distractor-model-only Reconstruction: が無情報になる問題を回避するため，
のみから再構成を行う
s−
s−

• Policy Learning: のみを方策への入力とする
s+

実験: 提案手法による画像特徴の分離
•TIAは，ノイズとタスク関連の特徴をよく分離できていることがわかる

実験: ManyWorld and DMC
• ManyWorld env. (a, b) と DeepMind Control suit (c, d, e) 環境を用い
た実験．人工的に画像特徴にdistractorを加える
• 既存のモデルベースRL手法を上回る性能を確認

実験: Atari
• Atari環境で実験．この環境はもともとdistractorが存在する
• いくつかの環境でDreamerV2を上回る・モデルフリーのアルゴリズムに匹敵

まとめ
• 貢献
• タスク関連・非関連の特徴を分離するRL手法を提案
• DeepMind Control suit と Atari で，実験的に良い性能を発揮した
• Future work
• Test-time adaptation: 訓練時に見たことのないdistractorが来たときに，それを分離したい
• ハイパラ頑健性（敵対学習など使っているので）
• スパース報酬への対応
• タスク関連・非関連というbinaryの帰納バイアスではなく，よりソフトな制約を課す

参考文献
• Hafner, Danijar, et al. "Dream to Control: Learning Behaviors by Latent Imagination."
International Conference on Learning Representations. 2020.
• Gelada, C., Kumar, S., Buckman, J., Nachum, O., and Belle- mare, M. G. Deepmdp:
Learning continuous latent space models for representation learning., International
Conference on Machine Learning, 2019.
• Zhang, A., Lyle, C., Sodhani, S., Filos, A., Kwiatkowska, M., Pineau, J., Gal, Y., and Precup,
D. Invariant causal prediction for block mdps. In International Conference on Machine
Learning, pp. 11214‒11224. PMLR, 2020
• Zhang, A., McAllister, R. T., Calandra, R., Gal, Y., and Levine, S. Learning invariant
representations for reinforcement learning without reconstruction. International
Conference on Learning Representations, 2021.

[DL輪読会]Learning Task Informed Abstractions

More Related Content

What's hot (20)

Similar to [DL輪読会]Learning Task Informed Abstractions (20)

More from Deep Learning JP (20)

[DL輪読会]Learning Task Informed Abstractions