SlideShare a Scribd company logo
Copyright©2014 NTT corp. All Rights Reserved.
CVPR2016 reading
特徴量学習とクロスモーダル転移について
Akisato Kimura <akisato@ieee.org>
_akisato
http://www.kecl.ntt.co.jp/people/kimura.akisato/
1
フルーツジュースはいかがですか?
2
フルーツジュースはいかがですか?
3
ジュースで大事なこと
材料
作り方
飲み方
4
特徴量学習も同じです
データセット
学習方法
利用目的
5
特徴量は作るものから学ぶものへ
http://www.isi.imi.i.u-
tokyo.ac.jp/~harada/pdf/cvim_slide_harada20120315.pdf
http://www.cc.gatech.edu/~hays/compvision/proj6/
6
特徴量学習とは
教師付画像データを
機械学習器に与えて
画像特徴量を
抽出する方法を得る
7
特徴量学習の目的 (1)
• 次元削減
線形判別分析 Auto-encoder bottleneck features
8
特徴量学習の目的 (1)
• 最終タスク込みの特徴量学習 (end-to-end)
[LeCun Proc. IEEE98]
9
特徴量学習の目的 (2)
• タスク実現のための中間特徴量
[Yu+ CVPR13]
http://www.cc.gatech.edu/~hays/compvision/proj6/
10
特徴量学習の問題点
教師付画像データ
(畳み込み)
ニューラネネットワーク
画像特徴量
深い学習で高い性能を出すほどの
大量の教師付データを作るには,
お金か時間が大量に必要です.
11
どうすれば良いか?
• 教師なし特徴量学習
‒ 教師付きデータを作らないで済ます
• クロスモーダル転移
‒ 別のモーダルから得られる知識を転用する
Copyright©2014 NTT corp. All Rights Reserved.
教師なし特徴量学習
• Mukuta+ “Kernel approximation via empirical orthogonal decomposition for
unsupervised feature learning”
• Pathak+ “Context encoders: Feature learning byinpainting”
• Zhang+ “Online collaborative learning for open vocabulary visual classifiers”
• Yang+ “Joint unsupervised learning of deep representation and image clusters”
13
初期の特徴量学習
教師付画像データ
画像特徴量
多変量解析
14
Kernel PCA
特徴ベクトル 𝒙𝒙 を変換する方法
𝒈𝒈 = 𝚲𝚲−1/2
𝑨𝑨⊤
𝒌𝒌
𝒌𝒌 = (𝐾𝐾 𝒙𝒙1, 𝒙𝒙 , 𝐾𝐾 𝒙𝒙2, 𝒙𝒙 , … , 𝑘𝑘(𝒙𝒙𝑛𝑛, 𝒙𝒙)), 𝑲𝑲 = 𝐾𝐾 𝒙𝒙1, 𝒙𝒙 𝑖𝑖,𝑗𝑗=1
𝑛𝑛
𝜆𝜆𝑖𝑖, 𝜶𝜶𝑖𝑖 𝑖𝑖=1
𝑛𝑛
: Sorted eigenvalues and normalized
eigenvectors of 𝑲𝑲𝑲𝑲 = 𝜆𝜆𝜶𝜶
𝜆𝜆1 ≥ 𝜆𝜆2 ≥ ⋯ ≥ 𝜆𝜆 𝑚𝑚, 𝜶𝜶𝑖𝑖, 𝛼𝛼𝑗𝑗 = 𝛿𝛿𝑖𝑖,𝑗𝑗
𝚲𝚲 = diag(𝜆𝜆1, 𝜆𝜆2, … , 𝜆𝜆 𝑚𝑚), 𝑨𝑨 = (𝜶𝜶1, 𝜶𝜶2, … , 𝜶𝜶 𝑚𝑚)
グラム行列が
大きい → 計算量大
小さい → 表現力不足
http://www.kecl.ntt.co.jp/people/kimura.akisato/titech/class.html
15
グラム行列を近似する方法
• Nystrom method
‒ 学習サンプルの乱択 + 部分グラム行列の直交展開
‒ 直交展開に大きな計算量が必要
• Random feature method [Rahini+ NIPS07]
‒ カーネル関数を以下の形で表現
‒ パラメータ 𝑤𝑤 のサンプリングによる関数近似
‒ 近似に学習サンプルを用いない → 近似誤差が不十分
16
学習サンプルを用いてカーネル関数を近似
Merserの定理
�
𝑋𝑋
𝑘𝑘 𝑥𝑥, 𝑦𝑦 𝜓𝜓𝑖𝑖 𝑥𝑥 𝑝𝑝 𝑥𝑥 𝑑𝑑𝑑𝑑 = 𝜆𝜆𝑖𝑖 𝜓𝜓𝑖𝑖(𝑥𝑥)
1. 分布 𝑝𝑝(𝑥𝑥) を学習サンプルから予測
2. 固有関数 𝜓𝜓𝑖𝑖(𝑥𝑥) を求める
3. 固有値 𝜆𝜆𝑖𝑖 が大きい固有関数だけ使う
(Mukuta and Harada)
17
最近の教師なし特徴量学習
Auto-encoder: 教師は自分
http://journal.frontiersin.org/article/10.3389/f
ncom.2015.00032/full
ここが特徴量
ここが画像
18
周辺情報から中央部分を予測する特徴量学習
(Pathak, Krahenbuhl, Donahue, Darrel and Efros)
平均値で埋める
別の欠損方法
でも良い
19
教師なし特徴量学習の別アプローチ
教師のようなものを求められさえすれば良い
[Fang+ CVPR15]
「ユーザ 𝑗𝑗 が
画像 𝑖𝑖 を見た」行列 協調フィルタリング
20
Web annotationデータからのラベル予測
(Zhang, Shang, Yang, Xu, Luan and Chua)
ラベルベクトル 𝑦𝑦𝑡𝑡 を
潜在ベクトル 𝑣𝑣𝑡𝑡 に変換(圧縮)
画像特徴ベクトル 𝑥𝑥𝑡𝑡 から
潜在ベクトル 𝑣𝑣𝑡𝑡 を予測
21
クラスタリングと特徴量学習を同時最適化
(Yang, Parikh and Batra)
教師なし画像集合
CNN特徴抽出
(教師=クラスタ)
Recurrent neural network (RNN) で全体をモデル化
クラスタを
徐々に更新
クラスタ
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”
• “Learning with side information through modality hallucination”
• “Image style transfer using convolutional neural networks”
• “Large scale semi-supervised object detection using visual and semantic
knowledge transfer”
• “Synthesized classifiers for zero-shot learning”
• “Semi-supervised vocabulary-informed learning”
23
クロスモーダル転移
典型例 - Zero-shot learning
• 画像のラベルを予測する分類問題で,
予測したいラベルの学習データが1つもない.
[Frome+ NIPS13]
word2vec
CNN
CNN特徴から単語ベクトルを予測 単語ベクトルが類似する単語を
予測結果として出力
24
クロスモーダル転移が流行る周辺環境
• どのモーダルでもNN特徴表現が利用可能に
• マルチモーダルNNの発達
[Silberer+ ACL14]
[Srivastava+ JMLR14]
Copyright©2014 NTT corp. All Rights Reserved.
マルチモーダル特徴量学習
• “MDL-CW: A multimodal deep learning framework with cross weights”
• “Multi-view deep network for cross-view classification”
• “Visual Word2Vec: Learning visually grounded word embeddings using abstract
scenes”
26
モーダルごとに学習して最後に統合,
という固定観念を捨てる.
(Rastegar, Baghshah, Rabiee and Shojaee)
Stacked auto-encoderでpre-training
最終層を結合して
fine tuning
27
判別分析規準のマルチモーダル特徴量学習を
全部NNで実現.
(Kan, Shan and Chen)
クラスラベル
各モーダルからの入力
判別分析基準で損失を計算
28
画像を介して単語ベクトルの
学習を精緻化
(Kottur, Vedantam, Moura and Parikh)
単語系列を入力
画像特徴量を予測
画像を介すことでparaphrasingの判定も
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”
• “Learning with side information through modality hallucination”
• “Synthesized classifiers for zero-shot learning”
• “Semi-supervised vocabulary-informed learning”
• “Latent embeddings for zero-shot classification”
• “Image style transfer using convolutional neural networks”
• “Learning attributes equals multi-source domain generalization”
30
大量の教師付データで学習済のドメインから,
教師付データがほぼないドメインへモデル転移.
(Gupta, Hoffman and Malik)
転移の方法はあまり詳細に書かれていない
31
Depth networkの出力を模倣する
hallucination networkの導入.
(Hoffman, Gupta and Darrell)
灰色四角:
計算する損失
テスト時にdepthがなくても,
depthを見ているのと
似た効果が得られる.
32
Semantic空間での幾何関係を維持するように,
分類器のパラメータを多次元埋め込みで構成.
(Changpinyo, Chao, Gong and Sha)
分類器のパラメータ空間Attributes もしくは word2vec 空間
実在クラス仮想クラス実在クラス
仮想クラス
33
予測対象ラベルの学習データがないかもしれない
open-vocabulary learningの実現.
(Fu and Sigal)
画像特徴 𝑥𝑥 を単語ベクトル 𝑢𝑢 に変換する 𝑊𝑊 を求めたい.
自分の属するクラスの単語ベクトルが一番近くなるように変換したい.
34
画像特徴と単語ベクトルの関係性を
複数の「観点」から学習することを目指す.
(Xian, Akata, Sharma, Nguyen, Hein and Schiele)
画像特徴 𝑥𝑥 と単語ベクトル 𝑦𝑦 とのfeasibilityが最大になるクラスに分類.
通常: Feasibilityは単一パラメータの双線形変換で記述.
本論文: 複数パラメータによる双線形変換の
混合として記述.
35
(Gatys, Ecker and Bethge)
白色雑音で駆動
Styleだけ転移したい 中身だけ転移したい
Networkは実はどっちも同じ
フィルタ応答を
そのまま使う
フィルタ応答の
相関を使う
36
Attributesを用いた分類問題を
「ドメイン汎化」 [Muandet+ ICML13] として考え直す.
(Gan, Yang, Gong)
Copyright©2014 NTT corp. All Rights Reserved.
まとめ
38
ジュースで一番大事なこと
材料
作り方
飲み方
39
特徴量学習も同じです
データセット
学習方法
利用目的
• 目的に合わせたデータセットを用いる必要がある.
• 同じ手法を用いても,異なる教師データからは異なる学習結果が出る.
• 思うように結果が出ないのは,
本当に学習がうまくいっていないからでしょうか?
• データの使い方を工夫すると,今までできなかった
ことができるようになるかもしれない.
40

More Related Content

PDF
Deeplearning輪読会
PDF
ドロネー三角形分割
PPTX
[DL輪読会]逆強化学習とGANs
PDF
機械学習と主成分分析
PDF
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
PDF
POMDP下での強化学習の基礎と応用
PDF
PRML学習者から入る深層生成モデル入門
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
Deeplearning輪読会
ドロネー三角形分割
[DL輪読会]逆強化学習とGANs
機械学習と主成分分析
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
POMDP下での強化学習の基礎と応用
PRML学習者から入る深層生成モデル入門
トピックモデルの評価指標 Perplexity とは何なのか?

What's hot (20)

PDF
よくわかるフリストンの自由エネルギー原理
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
GAN(と強化学習との関係)
PDF
Word2vecの理論背景
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PDF
【メタサーベイ】Neural Fields
PDF
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
自己教師学習(Self-Supervised Learning)
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
最適化超入門
PPTX
深層学習の数理
PDF
DID, Synthetic Control, CausalImpact
PDF
Crfと素性テンプレート
PDF
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
不均衡データのクラス分類
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
よくわかるフリストンの自由エネルギー原理
【論文紹介】How Powerful are Graph Neural Networks?
GAN(と強化学習との関係)
Word2vecの理論背景
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【メタサーベイ】Neural Fields
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
変分推論法(変分ベイズ法)(PRML第10章)
計算論的学習理論入門 -PAC学習とかVC次元とか-
自己教師学習(Self-Supervised Learning)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
最適化超入門
深層学習の数理
DID, Synthetic Control, CausalImpact
Crfと素性テンプレート
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
不均衡データのクラス分類
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Ad

Similar to CVPR2016 reading - 特徴量学習とクロスモーダル転移について (20)

PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
RUTILEA社内勉強会第1回 「転移学習」
PDF
転移学習やってみた!
PDF
深層学習 - 画像認識のための深層学習 ①
PDF
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
PPTX
Image net classification with Deep Convolutional Neural Networks
PPTX
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
点群深層学習 Meta-study
PDF
深層学習 - 画像認識のための深層学習 ②
PDF
点群SegmentationのためのTransformerサーベイ
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
PDF
SSII2014 詳細画像識別 (FGVC) @OS2
PDF
大規模画像認識とその周辺
PPTX
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
PPTX
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PPTX
MIRU2014 tutorial deeplearning
PDF
Transfer forest(PRMU Jun 2014)
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
RUTILEA社内勉強会第1回 「転移学習」
転移学習やってみた!
深層学習 - 画像認識のための深層学習 ①
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Image net classification with Deep Convolutional Neural Networks
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
【2015.07】(1/2)cvpaper.challenge@CVPR2015
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
点群深層学習 Meta-study
深層学習 - 画像認識のための深層学習 ②
点群SegmentationのためのTransformerサーベイ
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
SSII2014 詳細画像識別 (FGVC) @OS2
大規模画像認識とその周辺
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
MIRU2014 tutorial deeplearning
Transfer forest(PRMU Jun 2014)
Ad

More from Akisato Kimura (20)

PPTX
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
PPTX
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
PDF
多変量解析の一般化
PDF
NIPS2015 reading - Learning visual biases from human imagination
PDF
CVPR2015 reading "Global refinement of random forest"
PDF
CVPR2015 reading "Understainding image virality" (in Japanese)
PDF
Computational models of human visual attention driven by auditory cues
PDF
NIPS2014 reading - Top rank optimization in linear time
PDF
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
PDF
ICCV2013 reading: Learning to rank using privileged information
PDF
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
PDF
IJCAI13 Paper review: Large-scale spectral clustering on graphs
PDF
関西CVPR勉強会 2012.10.28
PDF
関西CVPR勉強会 2012.7.29
PDF
ICWSM12 Brief Review
PDF
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
PDF
関西CVPRML勉強会(特定物体認識) 2012.1.14
PDF
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
PDF
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
PDF
立命館大学 AMLコロキウム 2011.10.20
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
多変量解析の一般化
NIPS2015 reading - Learning visual biases from human imagination
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Understainding image virality" (in Japanese)
Computational models of human visual attention driven by auditory cues
NIPS2014 reading - Top rank optimization in linear time
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
ICCV2013 reading: Learning to rank using privileged information
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
IJCAI13 Paper review: Large-scale spectral clustering on graphs
関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.7.29
ICWSM12 Brief Review
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会(特定物体認識) 2012.1.14
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
立命館大学 AMLコロキウム 2011.10.20

CVPR2016 reading - 特徴量学習とクロスモーダル転移について