SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
相互情報量最大化による表現学習
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
相互情報量関連論文(前々回の輪読で話したやつ)
• “Learning deep representations by mutual information estimation and maximization”
(ICLR2019)
• “Mutual Information Neural Estimates” (ICML2018)
• “Representation Learning with Contrastive Predictive Coding” (NIPS2018)
• “On variational lower bounds of mutual information” (NIPS2018, workshop)
• “Emergence of Invariance and Disentanglement in Deep Representations ” (JMLR)
• “Deep Variational Information Bottleneck” (ICLR2017)
• ” Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and
GANs by Constraining Information Flow” (ICLR2019, poster)
• “Fixing a Broken ELBO” (ICML2018)
• “MAE: Mutual Posterior-Divergence Regularization for Variational AutoEncoders”
(ICLR2019, poster)
• “EnGAN: Latent Space MCMC and Maximum Entropy Generators for Energy-based
Models” (ICLR2019, reject)
• “Deep Graph Info Max” (ICLR2019, poster)
• “Formal Limitations on the Measurement of Mutual Information” (ICLR2019 Reject) 2
メインで話す
少しだけ触れる
相互情報量最大化による表現学習系の最近の文献
• “Learning Representations by Maximizing Mutual Information”, NIPS2019
• “On Variational Bounds of Mutual Infromation”, ICML2019
• “Greedy InforMax for Biologically Plausible Self-Supervised Representation Learning”,
NIPS2019
• “On Mutual Information Maximization for Representation Learning”
• “Region Mutual Information Loss for Semantic Segmentation”, NIPS2019
• (あとで追加)
3
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
4
表現学習(Representation Learning)
5
Bengio先生のスライドより抜粋
教師なし表現学習
• 教師あり表現学習
– 興味のあるタスクラベルが事前にわかっている
– 例:Image Netでは
– こういう問題設定では、すでに人間を超える精度
• 教師なし表現学習
– 興味のあるタスクラベルは事前にわかっていない
– 再利用可能な表現を観測からどう見つけるか
6
(深層)生成モデルによる教師なし表現学習 2013 ~
• 右のような生成過程を考える
• log 𝑝 𝑥 = 𝑝 𝑥 𝑧 𝑑𝑧
• 良い生成を与えるような表現を学習する
• VAE系やGAN系など多数
– [Kingma+ 14] VAE
– [Donahue+ 17] bidirectional GAN
– [Dumoulin+ 17] adversarial learned inference
7
𝑥
𝑧
Large Scale Adversarial Representation Learning, NIPS2019
8
Jeff Donahue, Karen Simonyan, DeepMind
• 左上:提案手法
• 左下:Image Net、教師なしで
SoTA
• 右上:生成画像もきれい
(Unconditional)
相互情報量最大化による表現学習
• 相互情報量の定義
𝐼 𝑋, 𝑍 =
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑥, 𝑧 log
𝑝(𝑥, 𝑧)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
• 解釈:確率変数XがYについての情報をどれくらい持つか
• 性質
– (1) 𝐼 𝑋, 𝑍 ≥ 0
– (2) 𝐼 𝑋, 𝑍 = 𝐻 𝑍 − 𝐻 𝑍 𝑋 = 𝐻 𝑋 − 𝐻 𝑋 𝑍 = 𝐼(𝑍, 𝑋)
– (3) 𝐼 𝑋, 𝑍 = 0 𝑖𝑓𝑓. 𝑋 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑡𝑜 𝑍
• 問題:どうやって計算するのか(Xは観測、Zは特徴量で高次限) 9
相互情報量最大化と再構築誤差
𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥|𝑧 𝑝(𝑧)
𝑝 𝑥 𝑝 𝑧
= 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥 𝑧 𝑞(𝑥|𝑧)
𝑝 𝑥 𝑞 𝑥|𝑧
= 𝔼 𝑝 𝑥,𝑧 log
𝑞(𝑥|𝑧)
𝑝 𝑥
+ 𝐾𝐿(𝑝(𝑥|𝑧)||𝑞 𝑥 𝑧 )
≥ 𝔼 𝑝 𝑥,𝑧 log 𝑞 𝑥 𝑧 + ℎ(𝑋)
10
負の再構築誤差 (Distortion)
• 詳しくは[Poole+18] “On Variational Bounds of MI”, [Alemi+17] “Fixing Broken
Elbo”
• q(x|z)がtractableなら良い(が高次限の出力に難?
• 例:動画の生成
q(x|z)によらない近似:p(z)を近似分布r(z)に置き換える
𝐼 𝑋, 𝑍 =
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑥, 𝑧 log
𝑝(𝑥, 𝑧)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
=
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑧|𝑥 𝑝(𝑥) log
𝑝 𝑧 𝑥 𝑝(𝑥)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
≤
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑧|𝑥 𝑝(𝑥) log
𝑝 𝑧 𝑥
𝑟(𝑧)
𝑑𝑥 𝑑𝑧
• 利用例:Variational Information Bottoleneck(I(X,Z)を制限)
• 問題:上界なので最大化しても意味がない(下界がほしい)
11
MIの下界を抑える研究郡
12
• [Poole+18] “On Variational Bounds of MI”より抜粋
• いろいろな推定方法とその問題点がまとまっている
(どの下界が良いのかは今回は話しません)
MIを最大化する手法の基本的な考え方:対照推定
• 求めたいのは𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥|𝑧 𝑝(𝑧)
𝑝 𝑥 𝑝 𝑧
– 同時分布𝑝 𝑥, 𝑧 と、周辺分布の積𝑝 𝑥 𝑝 𝑧 が区別できれば良い
• 同時分布から得られたペア{x,z}と適当なp(z)からサンプルしたz’と
xのペア{x,z’}が区別できれば良い
– p(x)p(z)とp(x,z)を対照推定
• 適当な𝑓𝜃(𝑥, 𝑧)を用意して、{x,z}と{x, z’}の差が大きくなるように
𝑓𝜃(𝑥, 𝑧)自身とエンコーダ: X->Zを学習
13
具体例 (“On Variational Bounds of MI”より抜粋)
14
• ZではなくYで表されているが基本的には同じ
• f(x, y)の置き方によっていろいろな亜種が導ける
具体例:Contrastive Predictive Coding [Oord+18]
15
手法:時刻Tまでの系列の埋め込みcから、未来の
潜在表現zを予測(zとcの相互情報量を最大化)
系列は一貫した情報を表しているはずというpriorを
使っている
テキスト
音声
具体例:Contrastive Predictive Coding [Oord+18]
画像データの場合
16
手法:重なりありでパッチに切って系列っぽく扱う
具体例:DeepInfoMax [Hjelm+19]
17
手法:画像全体の特徴量yとロー
カルな特徴量を対照推定
(画像のローカルな特徴はグ
ローバルな特徴と一致してほし
いと言うpriorを使ってる)
実験:CIFAR10、SVMで分類
18
バク上がり、他にもたくさん実験あるが割愛
ここまでまとめ
• 教師なし表現学習は未解決問題
• デコーダを使わない手法として、対照推定に基づく手法が
近年登場 => 精度大幅な改善
• 具体例:対照推定のときに使っているpriorが異なる
– CPC [Oord+18]
– Deep InfoMax [Hjelm+19]
– など
19
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
20
書誌情報
21
• 基本的には巨大なDeep InfoMax + 細かい工夫
• Image Netで教師なし学習+線形分類で68.1%
– Top1正解率のベースラインを7%改善
• 実装が公開されている( https://github.com/Philip-Bachman/amdim-public)
工夫1:巨大なエンコーダ
22
余談:Tesla V100×8は人権
“We train our models using 4-8 standard Tesla
V100 GPUs per model. Other recent, strong
self-supervised models are nonreproducible on
standard hardware.”
23
工夫2:DIM across Views
24
1. 異なるデータ拡張で画像Xから
X1とX2を得る
2. X1からはSummary Vector cを得る
3. X2からはLocal Vector z_i,jを得る
4. 異なる画像X’と適当なデータ拡張で
得たz’_i,jと対照推定
工夫3:Multiscale Mutual Information
25
固定化した層を使って予測するので
はなく、複数の層間で予測
実験では {1, 5}{1, 7}{5, 5}間で予測
(数字は受容野の大きさ)
工夫4:Mixture-Based Representations
• 各層の特徴量𝑓𝑖を適当な関数𝑚 𝑘に通して混合特徴ベクトル
𝑓𝑖
1
, 𝑓𝑖
2
, … 𝑓𝑖
𝑘
= 𝑚 𝑘(𝑓𝑖)を得る
• これを各層でやって、NCE誤差(MIの下界)を重み付けする
(重みが下の式)
• 気持ちとしては、NCEが大きい特徴を選択するようになる
• (ただそれだとGreedyになるからとH(q)を足してたりよくわからない
26
実験:ImageNet, Places205
27
実験:CIFAR
28
まとめ
• Local DIMを拡張
– 巨大なエンコーダ
– Data Augmentation Prior
– Multiscale Predictions
– Mixture-based representations
• Image Netで教師なしSoTA
• (結局どれが効いているのかはよくわからない)
29
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
30
書誌情報
31
• MI最大化に従って、各層を独立に訓練
• 独立に訓練することで、独立に学習可能、メモリ効率がよくなる、勾配消失が
原理的に起こらないなどの潜在的な利点がある
提案手法:Greedy InfoMax
32
• 基本は各モジュールごとに勾配を止めるだけ
• 各モジュールは接続された下位モジュールの出力でCPC
実験結果(STL10)
33
CPCやSupervisedより高精度
※ Greedy Supervisedの手続きがよくわからない(適宜固定?)
実験結果(LibriSpeech)
34
CPCや教師ありよりはやや悪いがまぁまぁ良い
まとめ
• 層ごとの学習にMIの最大化を利用するGreedy InfoMaxを提案
– CPCベース
• 音声や画像タスクでCPCや全教師ありとComparable
• 特にNCE系の損失はメモリ効率が悪いことが多いので、実用的に
も使える場面はあるかもしれない
(学習遅くなる気がするが)
35
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
36
書誌情報
37
• 最近のMI系の手法が、本当にMIを最大化しているから良いのか?と
言うことに疑問を投げかける実験論文
• まだ採録されたわけではない(と思う)
実験1:可逆なエンコーダを利用したMI最大化
• Flow Basedな手法(例えばRealNVP[Dinh+16])はInvertible(可逆)
• 可逆変換fをかませたz = f(x)を考えると、MI(X;Z)は常に最大
• 可逆変換なfをMI最大化で学習させるとどうなるか?
(MI最大化系の研究が本当に単にMIの最大化なら、精度は変わら
ないはず
38
実験1の結果
39
• (a)MIの推定はほぼコンスタント、(b)一方精度は改善
• 単にMIの最大化という観点だけでは説明できない?
実験2:異なるf(x,y)の形による分類精度とMI
40
• (左)分類精度はBilinearかSeparableがよい
• (右)MIの値はMLPが良い
• MIが高い表現ほど悪い???
実験3:ネットワーク構造の重要性
41
• (左)NCEを使った場合、(右)NWJを使った場合の精度比較
• どちらの損失を使うかより、ネットワーク構造の選び方が支配的
まとめ
• 最近の精度向上が本当にMIの最大化と言う観点から説明できる
のか?についての実験的な検証
• ネットワーク構造が支配的に重要というのは自分が実験したとき
もそうだったので多分そう
• MIを本当に最大化しているのかというより、MI最大化の上で良い
Priorをどう入れるかが重要?
42
全体まとめ
• 相互情報量最大化による教師なし表現学習の最近の話題につい
てまとめた
– 2018年:MI(X,Z)の下界について
– 2019年:どういうネットワーク構造を使うか、どう言うpriorを入れるか
• ImageNet・教師なしで大きな進展
• 感想:MI最大化自体はきれいだが、それ自体というよりは
構造的なpriorをどう入れ込むかが重要
– Global特徴の選び方、対照方法など
43

More Related Content

PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
最適輸送の解き方
PDF
深層生成モデルと世界モデル(2020/11/20版)
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
学振特別研究員になるために~2024年度申請版
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
ChatGPT 人間のフィードバックから強化学習した対話AI
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
最適輸送の解き方
深層生成モデルと世界モデル(2020/11/20版)
【DL輪読会】ViT + Self Supervised Learningまとめ
学振特別研究員になるために~2024年度申請版
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

What's hot (20)

PDF
PRML学習者から入る深層生成モデル入門
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
Transformerを雰囲気で理解する
PDF
POMDP下での強化学習の基礎と応用
PDF
Attentionの基礎からTransformerの入門まで
PDF
実装レベルで学ぶVQVAE
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
深層学習の数理
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
自己教師学習(Self-Supervised Learning)
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
最適輸送入門
PDF
GAN(と強化学習との関係)
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PPTX
近年のHierarchical Vision Transformer
PDF
ELBO型VAEのダメなところ
PPTX
Triplet Loss 徹底解説
PRML学習者から入る深層生成モデル入門
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【論文紹介】How Powerful are Graph Neural Networks?
Transformerを雰囲気で理解する
POMDP下での強化学習の基礎と応用
Attentionの基礎からTransformerの入門まで
実装レベルで学ぶVQVAE
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
深層学習の数理
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
最適輸送の計算アルゴリズムの研究動向
自己教師学習(Self-Supervised Learning)
How Much Position Information Do Convolutional Neural Networks Encode?
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
最適輸送入門
GAN(と強化学習との関係)
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
近年のHierarchical Vision Transformer
ELBO型VAEのダメなところ
Triplet Loss 徹底解説
Ad

Similar to [DL輪読会]相互情報量最大化による表現学習 (20)

PDF
20170422 数学カフェ Part2
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
PDF
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
PDF
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PDF
Deep learningの概要とドメインモデルの変遷
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
PPTX
MIRU2014 tutorial deeplearning
PPTX
ICML2018読み会: Overview of NLP / Adversarial Attacks
PDF
九大_DS実践_画像処理基礎
PPT
Jokyokai
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PPTX
画像処理基礎
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PDF
コース導入講義(荒木)
PPTX
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
PDF
大規模画像認識とその周辺
PDF
確率的深層学習における中間層の改良と高性能学習法の提案
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
PPTX
Knowledge_graph_alignment_with_entity-pair_embedding
20170422 数学カフェ Part2
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
Deep learningの概要とドメインモデルの変遷
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
MIRU2014 tutorial deeplearning
ICML2018読み会: Overview of NLP / Adversarial Attacks
九大_DS実践_画像処理基礎
Jokyokai
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
画像処理基礎
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
コース導入講義(荒木)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
大規模画像認識とその周辺
確率的深層学習における中間層の改良と高性能学習法の提案
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
Knowledge_graph_alignment_with_entity-pair_embedding
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]相互情報量最大化による表現学習