SlideShare a Scribd company logo
Motivation
Methods
Evaluation
Conclusion
Semi-Supervised Learning Using
Gaussian Fields and Harmonic
Functions (ICML2003)
パターン認識と機械学習の勉強会 #8
上田 隼也 (筑波大学)
情報数理研究室 修士 1 年
October 30, 2015
1 / 20
Motivation
Methods
Evaluation
Conclusion
1 Motivation
2 Methods
3 Evaluation
4 Conclusion
2 / 20
Motivation
Methods
Evaluation
Conclusion
概要・著者
何を解決・解明したいのか?
概要
ガウス確率分布を元にした半教師付き機械学習
(Semi-Supervised-Learning :SSL) の提案
類似度からなる重み付きグラフがあり、各ノードにはラベ
リング・非ラベリングデータが混在
ガウス確率分布のクラス分類アルゴリズムは
Nearest-Neighbor(NN) と見なすことができる。(酔歩
(Random-Walk) でグラフを試行した際に計算された物が NN
だと考える)
3 / 20
Motivation
Methods
Evaluation
Conclusion
概要・著者
何を解決・解明したいのか?
提案手法のイメージ
図 1: 画像のピクセル間のユークリッド距離でのラベル伝搬 1
1
Semi-Supervised Learning Tutorial(ICML2007)
4 / 20
Motivation
Methods
Evaluation
Conclusion
概要・著者
何を解決・解明したいのか?
著者
1 Xiaojin Jerry Zhu(ウィスコンシン大学助教)
• Semi-supervised learning literature survey(2005)
2 Zoubin Ghahramani(ケンブリッジ大学教授)
• An introduction to variational methods for graphical
models(1999)
• Learning from labeled and unlabeled data with label
propagation(2002)
3 J Lafferty(シカゴ大学教授)
• Conditional random fields: Probabilistic models for
segmenting and labeling sequence data(2001)
• Diffusion kernels on graphs and other discrete
structures(2002)
5 / 20
Motivation
Methods
Evaluation
Conclusion
概要・著者
何を解決・解明したいのか?
教師あり学習の問題点と仮説
教師あり学習
事前に与えられたデータをいわば「例題(=先生からの助
言)」とみなして、それをガイドに学習(=データへの何ら
かのフィッティング)2
データに対してアノテーションを付けるには高いコストと
熟練したテクニックが必要
半教師付き機械学習 (SSL)
ラベリングデータと非ラベリングデータの両方を使って精
度を向上させる
2
教師あり学習 — Wikipedia
6 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
半教師付き学習
半教師付き機械学習 (SSL)
ラベリングデータと非ラベリングデータの両方を使って精
度を向上させる
Graph based SSL
SSL はモデルを仮定することが最も重要 3
3
半教師あり学習のモデル仮定 — でっかいチーズをベーグルする
7 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
Notation
• ラベリングデータ : l 個 (x1, y1), . . . (xl, yl)
• 非ラベリングデータ : u 個 xl+1, . . . , xl+u
• l << u
• データ総数 n 個 : n = l + u
• ラベルは2値 y ∈ {0, 1}
• グラフ G = (V, E)
• node L = {1, . . . , l}
• node U = {l + 1, . . . , l + u}
データの重み付け関数 wij: Gaussian Kernel.
8 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
仮説
データの構造から手法の仮説を立てる
図 2: 手書き文字の重み付き類似度グラフ
9 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
提案手法
実数関数 f : V → R (ノードから実数へ写像する関数)
• なぜ離散値から連続値へ拡張するのか?
• 離散値から連続値へ緩和することで多くの利点
• 仮説 直感的に非ラベリングのノードがある時、近い
ノードは同じラベルを持つ
E(f) =
1
2
∑
i,j
wij(f(i) − f(j))2
(2)
f = argminf|L=fl
E(f)
f() は ‘Harmonic Function‘(調和関数),∆f = 0, ∆ = D − W
10 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
ラベル推定
非ラベリングデータをラベリングデータから推定する
f(j) =
1
dj
∑
i−j
wijf(i), j ∈ U (3)
f を f = fP, P = D−1
W と定義しなおすことで、調和関数
が最大化される原理を得る
11 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
ラベル推定
調和関数を計算するために、まず行列 W を4つのブロック
に分割
W =
[
Wll Wlu
Wul Wuu
]
(4)
f =
[
fl
fu
]
を定義、fu は非ラベリングデータである
fl を満たす ∆f = 0 は以下の式から与えられる。
fu = (Duu − Wuu)−1
Wul
fl = (I − Puu)−1
Pulfl (5)
Matlab Demo
12 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
調和関数のデモ
• 左側:データ数 181 個,l = 3, u = 178, σ = 0.22
• 右側:データ数 186 個,l = 2, u = 184, σ = 0.43
13 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
グラフの酔歩
• グラフ G を正規化することで、確率遷移行列 P へ
• グラフ上の酔歩 (Random Walk) を考える
• 非ラベリングのノードから酔歩を初め、ラベリングさ
れたノードに到着するまで酔歩を継続
14 / 20
Motivation
Methods
Evaluation
Conclusion
既存手法
提案手法
CMN
CMN(Class Mass Normalization)
クラス分布を事前知識に適応させる
Class 1 = q, Other Class = 1 − q, q の値はラベルの値から推
定ポイント i は以下の条件が成り立つときに 1 となる
q
fu(j)
∑
i fu(i)
> (1 − q)
1 − fu(i)
∑
i(1 − fu(i))
(9)
確率として考えると以下の式になる
f(i) =
q(u −
∑
j fu(j))fu(i)
q(u −
∑
j fu(j))fu(i) + (1 − q)
∑
j(1 − fu(j))fu(j)
(15)
15 / 20
Motivation
Methods
Evaluation
Conclusion
評価
考察
評価
• 手書き画像を 16×16 にダウンサンプリング、ガウシア
ンフィルタで平滑化
• 各ピクセルは 0-255 の特徴量があり、画像データは 256
次元のベクトルと考える
図 3: 手書き数字の分類精度比較
16 / 20
Motivation
Methods
Evaluation
Conclusion
評価
考察
評価
図 4: ニュース記事の分類精度 tf.idf によるグラフ作成
17 / 20
Motivation
Methods
Evaluation
Conclusion
評価
考察
エントロピーの関係性
図 5: σ の影響とエントロピー
H(bits) CMN theres
start 0.6931 97.25 ± 0.73% 94.70 ± 1.19%
end 0.6542 98.56 ± 0.43% 98.02 ± 1.19%
18 / 20
Motivation
Methods
Evaluation
Conclusion
評価
考察
エントロピーの関係性
図 6: 画像のピクセル間のユークリッド距離でのラベル伝搬イメージ 4
図 7: σ の変化 (σ:エントロピーのパラメータ)
4
Semi-Supervised Learning Tutorial(ICML2007)
19 / 20
Motivation
Methods
Evaluation
Conclusion
まとめ
結論・貢献
結論
1 調和関数とガウス確率分布を用いた Graph Based SSL
の提案
2 SSL は仮説が大事
3 Graph Based SSL: ラベルは伝搬する。
図 8: 画像のピクセル間のユークリッド距離でのラベル伝搬イメージ 5
5
Semi-Supervised Learning Tutorial(ICML2007)
20 / 20

More Related Content

PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PDF
クラシックな機械学習の入門 4. 学習データと予測性能
PDF
Interspeech2020 reading
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
PDF
Deep learning for acoustic modeling in parametric speech generation
PPTX
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
PPTX
第13回 KAIM 金沢人工知能勉強会 混合した信号を分解する視点からみる主成分分析
PDF
On the eigenstructure of dft matrices(in japanese only)
PRMLの線形回帰モデル(線形基底関数モデル)
クラシックな機械学習の入門 4. 学習データと予測性能
Interspeech2020 reading
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Deep learning for acoustic modeling in parametric speech generation
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
第13回 KAIM 金沢人工知能勉強会 混合した信号を分解する視点からみる主成分分析
On the eigenstructure of dft matrices(in japanese only)

What's hot (20)

PDF
幾何を使った統計のはなし
PPTX
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
PDF
20170422 数学カフェ Part2
PDF
はてなインターン「機械学習」
PDF
ICASSP読み会2020
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PPTX
Vanishing Component Analysis
PDF
公平性を保証したAI/機械学習
アルゴリズムの最新理論
PPTX
GEE(一般化推定方程式)の理論
PPTX
Dbda勉強会
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
PDF
TensorFlowによるニューラルネットワーク入門
PPTX
ベイズ統計学の概論的紹介-old
PDF
[DL輪読会]Deep Learning 第5章 機械学習の基礎
PPTX
マルコフ連鎖モンテカルロ法と多重代入法
PPTX
第五回統計学勉強会@東大駒場
PDF
DS Exercise Course 3
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
4thNLPDL
PDF
Infinite SVM [改] - ICML 2011 読み会
幾何を使った統計のはなし
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
20170422 数学カフェ Part2
はてなインターン「機械学習」
ICASSP読み会2020
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Vanishing Component Analysis
公平性を保証したAI/機械学習
アルゴリズムの最新理論
GEE(一般化推定方程式)の理論
Dbda勉強会
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
TensorFlowによるニューラルネットワーク入門
ベイズ統計学の概論的紹介-old
[DL輪読会]Deep Learning 第5章 機械学習の基礎
マルコフ連鎖モンテカルロ法と多重代入法
第五回統計学勉強会@東大駒場
DS Exercise Course 3
ようやく分かった!最尤推定とベイズ推定
4thNLPDL
Infinite SVM [改] - ICML 2011 読み会
Ad

Viewers also liked (15)

PDF
Detecting Research Topics via the Correlation between Graphs and Texts
PDF
Self-turning Spectral Clustering (NIPS2004)
PDF
"Spectral graph reduction for efficient image and streaming video segmentatio...
PDF
C-IMAGE: city cognitive mapping through geo-tagged photos 解説
PDF
Fast normalized cut with linear constraint (CVPR2009)
PDF
【2016.01】(2/3)cvpaper.challenge2016
PDF
【2016.01】(1/3)cvpaper.challenge2016
PDF
【2016.02】cvpaper.challenge2016
PDF
【2016.04】cvpaper.challenge2016
PDF
【2016.05】cvpaper.challenge2016
PDF
【2016.01】(3/3)cvpaper.challenge2016
PDF
【2016.03】cvpaper.challenge2016
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PDF
Robust Large-Scale Machine Learning in the Cloud
PPTX
猫でも分かるVariational AutoEncoder
Detecting Research Topics via the Correlation between Graphs and Texts
Self-turning Spectral Clustering (NIPS2004)
"Spectral graph reduction for efficient image and streaming video segmentatio...
C-IMAGE: city cognitive mapping through geo-tagged photos 解説
Fast normalized cut with linear constraint (CVPR2009)
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
論文紹介 Semi-supervised Learning with Deep Generative Models
Robust Large-Scale Machine Learning in the Cloud
猫でも分かるVariational AutoEncoder
Ad

More from Shunya Ueta (10)

PDF
Introducing "Challenges and research opportunities in eCommerce search and re...
PDF
Auto Content Moderation in C2C e-Commerce at OpML20
PDF
How to evaluate & manage machine learning model #daft
PDF
Introduction to argo
PDF
Introduction to TFX (TFDV+TFT+TFMA)
PDF
Kubeflowで何ができて何ができないのか #DEvFest18
PDF
How to break the machine learning system barrier ?
PDF
TFX: A tensor flow-based production-scale machine learning platform
PDF
Applied machine learning at facebook a datacenter infrastructure perspective...
PDF
コミュニティサイトを爆速で作成し、お手軽に運用する方法
Introducing "Challenges and research opportunities in eCommerce search and re...
Auto Content Moderation in C2C e-Commerce at OpML20
How to evaluate & manage machine learning model #daft
Introduction to argo
Introduction to TFX (TFDV+TFT+TFMA)
Kubeflowで何ができて何ができないのか #DEvFest18
How to break the machine learning system barrier ?
TFX: A tensor flow-based production-scale machine learning platform
Applied machine learning at facebook a datacenter infrastructure perspective...
コミュニティサイトを爆速で作成し、お手軽に運用する方法

Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)