More Related Content
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会) Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会) Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I... Curriculum Learning (関東CV勉強会) Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会) Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ... We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ... Generating Notifications for Missing Actions:Don’t forget to turn the lights... What's hot (18)
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi... Facebookの人工知能アルゴリズム「memory networks」について調べてみた Deep learning を用いた画像から説明文の自動生成に関する研究の紹介 NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo... Chainerのテスト環境とDockerでのCUDAの利用 NIP2015読み会「End-To-End Memory Networks」 情報抽出入門 〜非構造化データを構造化させる技術〜 子どもの言語獲得のモデル化とNN Language ModelsNN Jubatusの紹介@第6回さくさくテキストマイニング Similar to Unsupervised Object Discovery and Localization in the Wild:Part-Based Matching With Bottom-Up Region Proposals (関東CV勉強会 CVPR 2015 読み会) (20)
物体検知(Meta Study Group 発表資料) 【2015.06】cvpaper.challenge@CVPR2015 CVPR2017 参加報告 速報版 本会議 2日目 ICCV 2019 論文紹介 (26 papers) Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介 SSD: Single Shot MultiBox Detector (ECCV2016) CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会) cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演) CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」 [DL輪読会]YOLO9000: Better, Faster, Stronger 【2015.07】(2/2)cvpaper.challenge@CVPR2015 Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ... More from Yoshitaka Ushiku (10)
これからの Vision & Language ~ Acadexit した4つの理由 Vision-and-Language Navigation: Interpreting visually-grounded navigation ins... Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning Asymmetric Tri-training for Unsupervised Domain Adaptation Recognize, Describe, and Generate: Introduction of Recent Work at MIL Deep Learning による視覚×言語融合の最前線 CVPR 2015 論文紹介(NTT研究所内勉強会用資料) Unsupervised Object Discovery and Localization in the Wild:Part-Based Matching With Bottom-Up Region Proposals (関東CV勉強会 CVPR 2015 読み会)
- 14. この研究の立ち位置
• Supervised localization
Bounding Boxを学習する、
よくあるObject detection
• Weakly-supervised localization
画像全体のラベルだけ
今回のCVPRでも発表有
• Colocalization / Cosegmentation
同じ種類の物体がいると
わかっている画像群に
対して物体検出
• Fully-unsupervised discovery ←今ここ
[Felzenszwalb+, TPAMI 2010]
[Oquab+, CVPR 2015]
[Joulin+,
ECCV 2014]
教
師
あ
り
教
師
な
し
- 30. 評価実験
• データセット:Object Discovery + PASCAL VOC 2007
• Separate-class experiments
– あるクラスの物体が写った画像群のみでテスト
– CorLoc (Correct Localization)
「推定矩形領域が正解領域と結構重なったか?」
• Mixed-class experiments
– あらゆるクラスの物体が写った画像群でテスト
– CorRet (Correct Retrieval)
「同じ物体が写った画像が検索されているか?」
– CorLoc、CorRet 両方で評価
3クラス、全300枚 20クラス、全4548枚
- 32. PASCAL VOC 2007 のサブセットでの結果
PASCAL VOC 2007 の20クラスから、
aeroplane, bicycle, boat, bus, horse, motorbike
を抜き出したもの
位置推定の例
- 33. PASCAL VOC 2007 のサブセットでの結果
PASCAL VOC 2007 の20クラスから、
aeroplane, bicycle, boat, bus, horse, motorbike
を抜き出したもの
(Separate-classなので)
Positive サンプルのみ
Weakly Labeledな先行研究
Positive / Negative サンプル
Comparison on separate-class
- 34. PASCAL VOC 2007 のサブセットでの結果
Q. 色々組み合わせてるけど、何が効いてんの?
• 画像毎に複数の領域を残して更新(ロバスト性の為)
→最良の領域のみ残す Ours w/o MOR
• 位置とアピアランス両方でマッチングするPHM
→アピアランスだけでマッチング Ours w/o PHM
• 自信度が一番動くあたりを探すStand Out度で領域更新
→自信度自体で領域更新 Ours w/o STO
※資料用に編集済
(意外と?)
Stand Out度重要!
CorLoc
- 35. PASCAL VOC 2007 での結果
• 先程の例はこの実験から
• 定量評価から…
– 何も教師データ無い(=Pのみ)なのに、ちょっとでも
教師データ使う先行研究(=P+N)に勝った!
– [56]はILSVRC2012学習したAlexNet使ってるので、教師あり外部データ使ってるわけで、別に負けてても自然かな…
- 36. まとめ
• 完全に教師情報が無い設定でObject discovery
– 従来の教師なしobject discoveryは…
separate-classのような制限されたデータでしか、まともな
精度が出なかった
• 提案手法:パーツに基づくobject discovery
– 確率的ハフ変換に基づく頑健なマッチング
– Standoutスコアによる前景検出
• Challenging(と著者らは言う)データセット
– 完全に教師情報が無くても、先行研究の一部教師あ
りの場合と同等
– 教師情報の統合は可能なので、性能upは簡単
- 37. 所感
• Pros
– 挑戦的な課題
– 教師なし学習でも一部教師あり学習と同等の精度
• 位置とアピアランス両方によるマッチング
• 単に信頼度を見るのではなく、その差分をみるStand outによる
領域更新
• Cons:Wild とは
– この論文では=複数のクラスが混じっているデータ
• 従来研究ではSeparate-classでしか性能が出なかったので
– 個人的な最初の期待=Webで収集した大規模データ
• 多種多様な物体
• しかも一部の物体のみ偏って頻出…など
• 全画像に対して類似画像検索するのが大変になりそう