SlideShare a Scribd company logo
Semi-supervised Learning with
Deep Generative Models
Yusuke Iwasawa
DL Hacks 輪読 2015.04.21
• NIPS2014(非引用:4)
• 選定理由
• MNISTデータでStyle(筆跡みたいなもの)を学習している結果を見て
• 人間行動でも同じこと大事なんじゃないかなーと
• Semi-Supervised Learningというよりは、Deep Generative Modelsの方に興味
Summary
• 変分AutoEncoder(ICML2014, ICLR2014)を半教師あり学習に有効に

利用するためのモデルを提案
• 3つのデータセットで定量評価(※(%f.2->%f.2)はエラー率の変化)
• MNIST(8.10->3.33)
• SVHN(66.55->36.02)
• NORB(26.00->18.79)
• テストデータ1つから、アナロジーを生成可能
3
Test Analogies
半教師有り学習
• ラベル有りデータ:少ない、ラベル付コストは一般に高い
• ラベル無しデータ:多い
• ->学習の段階でラベルなしデータを使えれば良い学習ができるのでは?
4
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
一般に1. Self Thought Learning, 2. グラフベースの方法, 

3. 多様体学習による方法, 4. 生成モデルを用いた方法,がある
本論文はこれ
生成モデルを半教師有り学習に活用するモデル
• M1: Latent Discriminative Model
• 観測値xが隠れ変数z(連続値)によって生成されている
• P(z)とP(x|z)を学習する
• M2: Generative Semi-Supervised Model
• 観測値xが隠れ変数z(連続値)と隠れクラス変数yによって生成されている
• p(y), P(z), P(x|y, z)を学習する
• M1+M2: Stacked Generative Semi-Supervised Model
• M1とM2を重ねたもの
• xが隠れ変数z1に生成されており(M1)、
• その隠れ変数z1が隠れ変数z2とクラス変数yによって生成されている�
5
3つのモデルを提案、これらをNNで表現
M1, M2, M1+M2をグラフィカルモデルで書く
6
M1 M2
M1+M2
z1
z2 y
x
z
x z1
z y
p(x, y) = p(z)p(x|z) p(x, y, z) = p(y)p(z)p(x|y, z)
p(x, y, z1, z2) = p(y)p(z2)p(z1|y, z2)p(x|z1)
M1
M2}
}
M1をNNで表現
• zを入力にとり、確率pθ(x|z)を出力にする
NNを考える
• zはどこからやってくるのか
• pθ(z|x)は解析的に解けない
7
………
※1Neural Network
(パラメタ※2θ)
………
pθ(x¦z)
z pθ(z)
※1岩澤理解ではNNの部分はどうなっていて
もOK。Dropoutなどのテクニックも使える
※2パラメタθ=(W1, W2, b1, b2)など
z
x
p(x, y) = p(z)p(x|z)
グラフィカルモデル NNで生成モデル
M1をNNで表現: Variational Autoencoderを利用
• VAE Approach: pθ(z|x) を近似するqΦ(z|x)を出力するNNを考える

(推論モデル)
• 生成モデルのNNと推論モデルのNN(パラメタθとΦ)を同時に学習する
8
………
Neural Network
(パラメタθ)
………
pθ(x¦z)
生成モデル
………
Neural Network
(パラメタΦ)
………
Observations

x
qΦ(z|x)
推論モデル
z pθ(z)
M1をNNで表現:アルゴリズム全体像
9
2. qΦ(z¦x)に従ってzを生成
1. 学習に使う観測値の選択
3. Objective
4. Gradientの計算
5. パラメタの更新
mini-batch SGD + AdaGrad
(Duchi et al., 2010)
生成モデルの訓練
識別モデルの訓練
latent variable zを使った
通常の分類器の学習
ex) SVM, KNN
M1をNNで表現: Objective
周辺尤度を最大化する代わりに(無理だから)

その変分下界(Variational Bound)を最大化
10
周辺尤度最大化
Reconstruction Error Regulations
※理解甘いので間違ってるかも知れません
式を直接解釈すると、qΦ(z|x)がpθ(z)と出来るだけ
同じになるようにするという意味合い
Variational Bound
M1をNNで表現: Gradientの計算
• Stochastic Gradient Variational Bayes(SGVB)やStochastic
BackProp(SBP)と呼ばれる手法を利用
• ICLR2014, ICML2014で提案
• Keyとなるのは次のReparameterisation
• pθ(z) ~ N (z|0, I)
• qΦ(z|x) ~ N(z|uΦ(x), diag(σΦ
2(x)))
• つまり、z = µz(x) + σz(x) ϵz where ϵz = N (0, 1)
• こうすると、KLダイバージェンス(第2項)については解析的に計算できて、
• 対数尤度の部分(第1項)については勾配が計算できる
11
M2をNNで表現: M1と同じくVariational Autoencoderを利用
12
………
※Neural Network
(パラメタθ)
pθ(x¦z)
生成モデル
………
※Neural Network
(パラメタΦ)
Observations x
qΦ(y|x)
推論モデル
• 基本的にM1と同じでVariational Autoencoderを利用すればできる
• 基本的な流れも同じ
…
qΦ(z|x)
…
z ~ pθ(z)
…
y~ pθ(y)
…
M2をNNで表現: アルゴリズム全体像をM1と比較
• 左:M1(説明済み)、右:M2
• yの認識モデルまで同時に学習できる
13
zとyを生成
zを生成
M2
M2をNNで表現: ObjectiveをM1と比較
14
M1: J(x)がObjective
M2: Jα(x)がObjective
1. ラベル有りデータとラベルなしデータ別々にObjectiveを定義して足す
2. ラベル有りデータについては
1
ラベル無しデータ
※ラベル無しデータではyも隠れ変数だとみなす以外は同じ
※M1と同じ形(M1のKLダイバージェンスを元に直せば)なので論文参照
パラメタ ラベル有りデータに対する分類誤差
ラベル有りデータ
M2をNNで表現: Gradientの計算をM1と比較
• SGD + AdaGradを使うのは同じ
15
M1: zとqΦ(z¦x)がガウス分布に従うと仮定
• pθ(z) ~ N (z|0, I)
• qΦ(z|x) ~ N(z|uΦ(x), diag(σΦ
2(x)))
• つまり、z = µz(x) + σz(x) ϵz where ϵz = N (0, 1)
M2: zとqΦ(z¦x)がガウス分布に従うと仮定
• pθ(z) ~ N (z|0, I)
• qΦ(z|x) ~ N(z|uΦ(x), diag(σΦ
2(x)))
• qΦ(y|x) ~ Cat(y|πΦ(x))
M1+M2のアルゴリズム全体
• M1の学習部分のうち、yの識別モデルの学習部分をM2のアルゴリズムに

置き換える
• (変数は適宜読み替える)
16
yの識別モデルの学習置
き
換
え
Computational Complexity
• auto-encoderやNNをベースにした他のアプローチより計算量が少ない
• 既存の有力な手法と比べて最も少ない計算量である
• (よく調べてないので詳しい方教えてください)
• かつ、完全な確率モデルを提供している
• いろんな推論を行える(あとで示すように、アナロジーみたいなものも

出せる)
17
評価実験
• 定量的評価
• ラベル有りデータ数を制限した上でMNIST, SVHN, NORBで評価
• 定性的評価:
• テストデータXから2次元の隠れ変数yを学習、ラベルyを固定して様々な

ZからX|y, zを生成
• テストデータXからZ|Xの推論モデルを構築し、あるテストデータxに対する
z推論、様々なラベルyでX|y,zを生成
18
定量評価
• いずれのデータセットでも提案手法(特にM1+M2)が良い精度
• MNISTだとラベル100枚だけでも3.33%のエラー率(既存で最も

良かったのはAtlasRBF8.10%.AtlasRBFはECML2014で提案)
• 隠れ変数は50に固定、活性化関数をsoftplus関数を利用。M1についてはUnit数
600の隠れ層を2層、M2についてはUnit数500の隠れ層を1層
• SVHN, NORBでは入力をPCAに入れて白色化
19
定性評価1(ラベルを固定)
• テストデータXから2次元の隠れ変数yを学習
• zを-5 ~ 5まで変化させてxを生成
• zが近いと筆跡が似ている(zがstyleのようなものを捉えている)
20
z1
z2
定性評価2(zを固定)
• 訓練データDで学習済みのqΦ(z|x)と、あるテストデータxを使ってzを固定
• クラスyを色々いじってxを生成
• MNIST, SVHNともにstyleのようなものが見える
21
Test Analogies AnalogiesTest
Discussion and Conclusion
• 半教師有り学習に有効なNNを利用した生成モデルを提案
• 変分Autoencoderを利用
• 提案モデルは、既存手法と同程度の計算コストでより良い精度を出せる
• 次の様な課題がある
1. Convolutional Neural Networkの枠組みをどう入れるか
2. クラスの数が増えると、計算量が増える
22
参考文献
• 論文
• Kingma, Max Welling, “Auto-Encoding Variational Bayes”, ICLR2014
• D. J. Rezende, S. Mohamed, D. Wiestra, “Stochastic Backpropagation and
Approximate Inference in Deep Generative Models”, ICML2014
• Webサイト
• NIPS2014読み会で深層半教師あり学習の論文を紹介しました: http://
beam2d.github.io/blog/2015/01/24/ssl-deep/
• PRML8章解説: http://www.slideshare.net/ruto5/chap08-1-12
• Denosing Autoencoderとその一般化、http://beam2d.github.io/blog/
2013/12/23/dae-and-its-generalization/
• Morphing Faces: http://vdumoulin.github.io/morphing_faces/#variational-
autoencoders
• Deep Learningによる医用画像読影支援:�http://www.slideshare.net/
issei_sato/deep-learning-41310617
• Variational Autoencoder参考サイト: https://
ift6266h15.files.wordpress.com/2015/04/20_vae.pdf
• 半教師あり学習: http://www.slideshare.net/syou6162/ss-3001118
• 多様体学習について: http://d.hatena.ne.jp/Zellij/20131127/p1
23
Variational Autoencoderを利用したDemo、関連するVideo、実装
• Demo
• Morphing Faces: http://vdumoulin.github.io/morphing_faces/
online_demo.html
• Video
• Deep Learning Lecture 14: Karol Gregor on Variational
Autoencoders and Image Generation: https://
www.youtube.com/watch?v=P78QYjWh5sM
• 実装
• 本論文の実験リポジトリ: https://github.com/dpkingma/nips14-ssl
24

More Related Content

PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
Graph Neural Networks
PDF
Lucas kanade法について
PDF
グラフニューラルネットワークとグラフ組合せ問題
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
PDF
SMO徹底入門 - SVMをちゃんと実装する
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
Graph Convolutional Network 概説
Neural networks for Graph Data NeurIPS2018読み会@PFN
Graph Neural Networks
Lucas kanade法について
グラフニューラルネットワークとグラフ組合せ問題
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
SMO徹底入門 - SVMをちゃんと実装する
【論文紹介】How Powerful are Graph Neural Networks?
Graph Convolutional Network 概説

What's hot (20)

PPTX
Graph convolution (スペクトルアプローチ)
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PDF
2018年01月27日 TensorBoardによる学習の可視化
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
PDF
スペクトラル・クラスタリング
PDF
CVPR2019読み会@関東CV
PPTX
動的輪郭モデル
PDF
記号創発ロボティクスの狙い
PDF
ECCV2020 Oral論文 完全読破(1/2)
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PPTX
情報検索とゼロショット学習
PDF
混合モデルとEMアルゴリズム(PRML第9章)
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
Deep Learningによる超解像の進歩
PDF
グラフデータ分析 入門編
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
生成モデルの Deep Learning
PDF
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...
Graph convolution (スペクトルアプローチ)
モデルアーキテクチャ観点からの高速化2019
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
2018年01月27日 TensorBoardによる学習の可視化
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
スペクトラル・クラスタリング
CVPR2019読み会@関東CV
動的輪郭モデル
記号創発ロボティクスの狙い
ECCV2020 Oral論文 完全読破(1/2)
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
情報検索とゼロショット学習
混合モデルとEMアルゴリズム(PRML第9章)
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learningによる超解像の進歩
グラフデータ分析 入門編
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
生成モデルの Deep Learning
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...

Similar to DL Hacks輪読 Semi-supervised Learning with Deep Generative Models (20)

PPTX
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PDF
Jubatusにおける大規模分散オンライン機械学習
PDF
Deep learning勉強会20121214ochi
PDF
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
Active Learning 入門
PDF
MapReduceによる大規模データを利用した機械学習
PDF
みどりぼん読書会 第4章
PDF
Jubatusの特徴変換と線形分類器の仕組み
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
Overview and Roadmap
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
PRML Chapter 14
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
PDF
Mplusの使い方 中級編
PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
PDF
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
PDF
EMNLP 2011 reading
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
論文紹介 Semi-supervised Learning with Deep Generative Models
Jubatusにおける大規模分散オンライン機械学習
Deep learning勉強会20121214ochi
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Active Learning 入門
MapReduceによる大規模データを利用した機械学習
みどりぼん読書会 第4章
Jubatusの特徴変換と線形分類器の仕組み
Approximate Scalable Bounded Space Sketch for Large Data NLP
Overview and Roadmap
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PRML Chapter 14
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Mplusの使い方 中級編
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
EMNLP 2011 reading

More from Yusuke Iwasawa (18)

PPTX
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
PPTX
ICLR2018参加報告
PPTX
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PPTX
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
PDF
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
PPTX
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
PPTX
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
PPTX
Paper Reading, "On Causal and Anticausal Learning", ICML-12
PPTX
Dl hacks輪読: "Unifying distillation and privileged information"
PPTX
[ICLR2016] 採録論文の個人的まとめ
PPTX
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
PPTX
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
PPTX
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
PDF
[DL Hacks] Self Paced Learning with Diversity
PDF
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
PDF
研究室輪読 Recommending Investors
for Crowdfunding Projects
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
"Universal Planning Networks" and "Composable Planning with Attributes"
ICLR2018参加報告
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Dl hacks輪読: "Unifying distillation and privileged information"
[ICLR2016] 採録論文の個人的まとめ
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks] Self Paced Learning with Diversity
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Recommending Investors
for Crowdfunding Projects

DL Hacks輪読 Semi-supervised Learning with Deep Generative Models