SlideShare a Scribd company logo
CVPR 2015読み会
Unsupervised Object Discovery and
Localization in the Wild:
Part-Based Matching With Bottom-Up Region Proposals
牛久 祥孝
losnuevetoros
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~ NTT コミュニケーション科学基礎研究所
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~ NTT コミュニケーション科学基礎研究所
そうだ、新しい問題に取り組もう
まずはデータセットだ
Webで白い犬の画像を集めよう
一番しんどい作業は何だろうか
サーベイ?背景(の後付け)?手法設計?コーディング?
そうだ、新しい問題に取り組もう
まずはデータセットだ
Webで白い犬の画像を集めよう
大漁の白い犬画像
しろい、いぬ しろい、いぬ
大漁の白い犬画像
しろい、いぬ しろい、いぬ
これを画像1万枚分とかやったりする
無理…
でも周りを見回すと…
• PASCAL VOC (2012): 1万枚超、矩形領域やセグメントも
• ImageNet: 1400万枚超、単一ラベル
• Microsoft COCO: 30万枚超、セグメントや説明文も
誰か(主にTurkerの方々)の
偉業が必要なのか…
太古の人々は(きっと)
自分たちが見たものに名前を付けただけ
こいつ、今までも何度か見たやつと同じだ。
水飲まないで葉っぱばっかり食ってるから、
「水を飲まない(コアラ)」と呼ぼう。
太古の人々は(きっと)
自分たちが見たものに名前を付けていった
こいつ、今までも何度か見たやつと同じだ。
水飲まないで葉っぱばっかり食ってるから、
「水を飲まない(コアラ)」と呼ぼう。
データの形態(2次元静止画像)は実世界とちがうかもしれないが…
計算機も見習うべきでは?!
こんな訓練用データで
学習したわけじゃない!
ラベル情報を一切与えないで、同一物体の
見分けや位置の把握ができるか?
この研究の立ち位置
• Supervised localization
Bounding Boxを学習する、
よくあるObject detection
• Weakly-supervised localization
画像全体のラベルだけ
今回のCVPRでも発表有
• Colocalization / Cosegmentation
同じ種類の物体がいると
わかっている画像群に
対して物体検出
• Fully-unsupervised discovery ←今ここ
[Felzenszwalb+, TPAMI 2010]
[Oquab+, CVPR 2015]
[Joulin+,
ECCV 2014]
教
師
あ
り
教
師
な
し
Methodology
1. 入力された画像に類似した画像を検索
2. 入力画像から領域候補を列挙し、同様に抽出した
類似画像の領域候補とマッチング
3. 複数の重なり合った領域でとれたマッチング結果
から、最終的な物体領域を更新
4. 満足いくまで手順1.に戻る
入力画像→ ←類似画像
Methodology
1. 入力された画像に類似した画像を検索
2. 入力画像から領域候補を列挙し、同様に抽出した
類似画像の領域候補とマッチング
3. 複数の重なり合った領域でとれたマッチング結果
から、最終的な物体領域を更新
4. 満足いくまで手順1.に戻る
入力画像→ ←類似画像
Methodology
1. 入力された画像に類似した画像を検索
2. 入力画像から領域候補を列挙し、同様に抽出した
類似画像の領域候補とマッチング
3. 複数の重なり合った領域でとれたマッチング結果
から、最終的な物体領域を更新
4. 満足いくまで手順1.に戻る
入力画像→ ←類似画像
パーツに基づいた領域マッチング
入力画像 類似画像の1つ
確率的ハフマッチング (PHM)
領域同士の
• アピアランス(HOG)
• 座標
• 近隣領域のマッチングスコア
に基づいてマッチングを計算
マッチした領域の上位20ペア
Methodology
1. 入力された画像に類似した画像を検索
2. 入力画像から領域候補を列挙し、同様に抽出した
類似画像の領域候補とマッチング
3. 複数の重なり合った領域でとれたマッチング結果
から、最終的な物体領域を更新
4. 満足いくまで手順1.に戻る
入力画像→ ←類似画像
前景位置推定
この入力画像に対して…
前景位置推定
このような信頼度つき領域候補が出たとする
前景位置推定
このような信頼度つき領域候補が出たとする
どんな領域が物体のLocalizationにふさわしいだろうか?
信頼度が最も高い領域?
オブジェクトの一部だけしか囲ってないような領域の方が、
他の画像の同種オブジェクトとマッチして信頼度が高い
Standoutスコアによる前景検出
仮説:信頼度が最も大きく変動しやすいあたりが
一番タイトにオブジェクトを囲っているのでは?
ちょっと領域がずれても、
信頼度は低い値であまり変わらない
Standoutスコアによる前景検出
仮説:信頼度が最も大きく変動しやすいあたりが
一番タイトにオブジェクトを囲っているのでは?
信頼度は高いが、領域が多少ずれても
高いままであまりかわらない
Standoutスコアによる前景検出
仮説:信頼度が最も大きく変動しやすいあたりが
一番タイトにオブジェクトを囲っているのでは?
ちょっとずらすと信頼度が大きく変動する
→この矩形領域に更新
Methodology
1. 入力された画像に類似した画像を検索
2. 入力画像から領域候補を列挙し、同様に抽出した
類似画像の領域候補とマッチング
3. 複数の重なり合った領域でとれたマッチング結果
から、最終的な物体領域を更新
4. 満足いくまで手順1.に戻る
入力画像→ ←類似画像
上手くいった例
入力画像
Busが上手く検出されている
他の画像:10枚の類似画像
CarやSofaといったクラスの画像があるが、Busをちゃんと検出できた。
評価実験
• データセット:Object Discovery + PASCAL VOC 2007
• Separate-class experiments
– あるクラスの物体が写った画像群のみでテスト
– CorLoc (Correct Localization)
「推定矩形領域が正解領域と結構重なったか?」
• Mixed-class experiments
– あらゆるクラスの物体が写った画像群でテスト
– CorRet (Correct Retrieval)
「同じ物体が写った画像が検索されているか?」
– CorLoc、CorRet 両方で評価
3クラス、全300枚 20クラス、全4548枚
Object Discovery データセットでの結果
先行研究より少ない教師情報でも性能は向上
位置推定の例
※赤大枠はGround Truthであって、推定結果ではないので注意
PASCAL VOC 2007 のサブセットでの結果
PASCAL VOC 2007 の20クラスから、
aeroplane, bicycle, boat, bus, horse, motorbike
を抜き出したもの
位置推定の例
PASCAL VOC 2007 のサブセットでの結果
PASCAL VOC 2007 の20クラスから、
aeroplane, bicycle, boat, bus, horse, motorbike
を抜き出したもの
(Separate-classなので)
Positive サンプルのみ
Weakly Labeledな先行研究
Positive / Negative サンプル
Comparison on separate-class
PASCAL VOC 2007 のサブセットでの結果
Q. 色々組み合わせてるけど、何が効いてんの?
• 画像毎に複数の領域を残して更新(ロバスト性の為)
→最良の領域のみ残す Ours w/o MOR
• 位置とアピアランス両方でマッチングするPHM
→アピアランスだけでマッチング Ours w/o PHM
• 自信度が一番動くあたりを探すStand Out度で領域更新
→自信度自体で領域更新 Ours w/o STO
※資料用に編集済
(意外と?)
Stand Out度重要!
CorLoc
PASCAL VOC 2007 での結果
• 先程の例はこの実験から
• 定量評価から…
– 何も教師データ無い(=Pのみ)なのに、ちょっとでも
教師データ使う先行研究(=P+N)に勝った!
– [56]はILSVRC2012学習したAlexNet使ってるので、教師あり外部データ使ってるわけで、別に負けてても自然かな…
まとめ
• 完全に教師情報が無い設定でObject discovery
– 従来の教師なしobject discoveryは…
separate-classのような制限されたデータでしか、まともな
精度が出なかった
• 提案手法:パーツに基づくobject discovery
– 確率的ハフ変換に基づく頑健なマッチング
– Standoutスコアによる前景検出
• Challenging(と著者らは言う)データセット
– 完全に教師情報が無くても、先行研究の一部教師あ
りの場合と同等
– 教師情報の統合は可能なので、性能upは簡単
所感
• Pros
– 挑戦的な課題
– 教師なし学習でも一部教師あり学習と同等の精度
• 位置とアピアランス両方によるマッチング
• 単に信頼度を見るのではなく、その差分をみるStand outによる
領域更新
• Cons:Wild とは
– この論文では=複数のクラスが混じっているデータ
• 従来研究ではSeparate-classでしか性能が出なかったので
– 個人的な最初の期待=Webで収集した大規模データ
• 多種多様な物体
• しかも一部の物体のみ偏って頻出…など
• 全画像に対して類似画像検索するのが大変になりそう
付録:学習を何回繰り返せば収束するか
5回も繰り返せば十分らしい
Separate-classなので、全ての画像が
同じクラス→CorRet=1はトリビアル
付録:学習を何回繰り返せば収束するか
(左)物体の種類ごとの収束結果
(右)類似画像検索枚数 vs 正解率

More Related Content

PPTX
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
PPTX
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
PPTX
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
PPTX
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
PPTX
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
PPTX
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Curriculum Learning (関東CV勉強会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...

What's hot (18)

PPTX
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
PPTX
今後のPRMU研究会を考える
PPTX
視覚と対話の融合研究
PDF
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
PDF
子供の言語獲得と機械の言語獲得
PDF
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
PDF
Chainerのテスト環境とDockerでのCUDAの利用
PPTX
全脳アーキテクチャ若手の会20170131
PDF
言語と知識の深層学習@認知科学会サマースクール
PDF
深層学習フレームワークChainerの特徴
PDF
NIP2015読み会「End-To-End Memory Networks」
PDF
ピーFIの研究開発現場
PDF
情報抽出入門 〜非構造化データを構造化させる技術〜
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PDF
Jubatusの紹介@第6回さくさくテキストマイニング
PPTX
Emnlp読み会資料
PPTX
NLP2017 NMT Tutorial
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
今後のPRMU研究会を考える
視覚と対話の融合研究
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
子供の言語獲得と機械の言語獲得
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
Chainerのテスト環境とDockerでのCUDAの利用
全脳アーキテクチャ若手の会20170131
言語と知識の深層学習@認知科学会サマースクール
深層学習フレームワークChainerの特徴
NIP2015読み会「End-To-End Memory Networks」
ピーFIの研究開発現場
情報抽出入門 〜非構造化データを構造化させる技術〜
子どもの言語獲得のモデル化とNN Language ModelsNN
Jubatusの紹介@第6回さくさくテキストマイニング
Emnlp読み会資料
NLP2017 NMT Tutorial
Ad

Similar to Unsupervised Object Discovery and Localization in the Wild: Part-Based Matching With Bottom-Up Region Proposals (関東CV勉強会 CVPR 2015 読み会) (20)

PDF
物体検知(Meta Study Group 発表資料)
PDF
【2015.06】cvpaper.challenge@CVPR2015
PPTX
関西Cvprml勉強会2017.9資料
PPTX
CVPR2017 参加報告 速報版 本会議 2日目
PDF
CVPR 2017 速報
PPTX
Cvpr2018 参加報告(速報版)3日目
PDF
ICCV 2019 論文紹介 (26 papers)
PDF
CVPR 2019 速報
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PPTX
CVPR2018 参加報告(速報版)2日目
PPTX
CVPR2017 参加報告 速報版 本会議3日目
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PDF
CVPR 2018 速報
PPTX
Eccv2018 report day2
PDF
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
PDF
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
PDF
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
PDF
[DL輪読会]YOLO9000: Better, Faster, Stronger
PDF
【2015.07】(2/2)cvpaper.challenge@CVPR2015
PPTX
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
物体検知(Meta Study Group 発表資料)
【2015.06】cvpaper.challenge@CVPR2015
関西Cvprml勉強会2017.9資料
CVPR2017 参加報告 速報版 本会議 2日目
CVPR 2017 速報
Cvpr2018 参加報告(速報版)3日目
ICCV 2019 論文紹介 (26 papers)
CVPR 2019 速報
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
CVPR2018 参加報告(速報版)2日目
CVPR2017 参加報告 速報版 本会議3日目
SSD: Single Shot MultiBox Detector (ECCV2016)
CVPR 2018 速報
Eccv2018 report day2
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
[DL輪読会]YOLO9000: Better, Faster, Stronger
【2015.07】(2/2)cvpaper.challenge@CVPR2015
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Ad

More from Yoshitaka Ushiku (10)

PPTX
機械学習を民主化する取り組み
PDF
ドメイン適応の原理と応用
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
PPTX
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
PPTX
Asymmetric Tri-training for Unsupervised Domain Adaptation
PPTX
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
PPTX
Deep Learning による視覚×言語融合の最前線
PPTX
画像キャプションの自動生成
PPTX
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
機械学習を民主化する取り組み
ドメイン適応の原理と応用
これからの Vision & Language ~ Acadexit した4つの理由
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Asymmetric Tri-training for Unsupervised Domain Adaptation
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Deep Learning による視覚×言語融合の最前線
画像キャプションの自動生成
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

Unsupervised Object Discovery and Localization in the Wild: Part-Based Matching With Bottom-Up Region Proposals (関東CV勉強会 CVPR 2015 読み会)