1
CVPR2017輪読会
Spatial-Semantic Image Search by
Visual Feature Synthesis
@ketsumedo_yarou
2017/7/8
2
Spatial-Semantic Image Search by Visual Feature Synthesis
L. Mai 1
, H. Jin 2
, A. Lin 2
, C. Fang 2
, J. Brandt 2
, and F. Liu 1
spotlight
1
Portland State University 2
Adobe Resesarch
概要:「位置+単語」クエリで画像検索
新しい:「空間+w2v」のクエリキャンバスの提案
3
Spatial-Semantic Image Search by Visual Feature Synthesis
L. Mai 1
, H. Jin 2
, A. Lin 2
, C. Fang 2
, J. Brandt 2
, and F. Liu 1
spotlight
1
Portland State University 2
Adobe Resesarch
概要:「位置+単語」クエリで画像検索
新しい:「空間+w2v」のクエリキャンバスの提案
http://www.itmedia.co.jp/news/articles/1611/07/news142.html
Adobe Max 2016で発表されていた
CreativeCanvas?
4
特徴量抽出
➢ DB側の画像からは,GoogLeNet特徴量(InceptionV4,
ImageNet pre-trained)を抽出しておく
画像
𝒇 ∈ ℝ40768
変換
𝒇 ∈ ℝ40768
➢ クエリ側は,「縦*横*w2v」(ℝ31×31×300)で表現
➢ それをGoogLeNet特徴と同じ次元に変換
➢ そのような変換を求める
5
特徴量抽出
➢ DB側の画像からは,GoogLeNet特徴量(InceptionV4,
ImageNet pre-trained)を抽出しておく
画像
𝒇 ∈ ℝ40768
変換
𝒇 ∈ ℝ40768
➢ クエリ側は,「縦*横*w2v」(ℝ31×31×300)で表現
➢ それをGoogLeNet特徴と同じ次元に変換
➢ そのような変換を求める
cos距離
で比較
6
訓練
COCOの訓練画像は
アノテーションが
ついているので・・
人
人
𝒇 ∈ ℝ40768入出力ペアが作れる
→各種ロスが計算可能
7
複数窓
犬
猫
分解
犬
猫
要素毎
max (?)
➢ 複数窓の場合は,分解してそれぞれ計算してmax
➢ 結果,一本のベクトルに
𝒇 ∈ ℝ40768
8
検索
犬
猫
検索
クエリ
ベクトル
DBベクトル
(各画像からGoogLeNet
特徴量抽出)
𝑅 𝑄, 𝐼 =
1
𝐵 𝑄
෍
𝑏 𝑖∈𝐵 𝑄
max
𝑏 𝑗∈𝐵 𝐼
𝛿 𝑐 𝑏𝑖 = 𝑐 𝑏𝑗
𝑏𝑖 ∩ 𝑏𝑗
𝑏𝑖 ∪ 𝑏𝑗
正解スコア:
窓
ベッド
𝐵 𝑄 = 𝑏1, 𝑏2
𝑐 𝑏1 = 窓
𝑐 𝑏2 = ベッド
𝐵𝐼 = 𝑏1, 𝑏2, 𝑏3
𝑐 𝑏1 = 壁
𝑐 𝑏2 = ベッド
𝑐 𝑏3 = 窓
9
結果
10
感想
➢ 領域を探す問題なのに,DB側からは単一の
既存特徴量を取り出すだけであるのが面白い
➢ 複雑はインデクシングがいらない
➢ 特徴量設計を別問題に出来る
➢ 検索が終わったあと,陽にどの領域が当たり
かわからないがいいのだろうか
➢ 本当に精度がいいのか?

More Related Content

PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PDF
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
PPTX
KantoCV/Selective Search for Object Recognition
PDF
先端技術とメディア表現 第4回レポートまとめ
PDF
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
PPTX
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
PDF
優れた問いを見つける(中京大学講演)
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
KantoCV/Selective Search for Object Recognition
先端技術とメディア表現 第4回レポートまとめ
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
優れた問いを見つける(中京大学講演)

Similar to Spatial-Semancic Image Search by Visual Feature Synthesis (20)

PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
ICCV2011 report
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
PPTX
画像認識 第9章 さらなる話題
PDF
Dl hacks paperreading_20150527
PDF
RobotPaperChallenge 2019-07
PDF
前景と背景の画像合成技術
PDF
論文紹介:Semantic segmentation using Vision Transformers: A survey
PDF
DeepLearningとWord2Vecを用いた画像レコメンドの考察
PPTX
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
PDF
semantic segmentation サーベイ
PDF
VIEW2013 Binarycode-based Object Recognition
PPTX
20190831 3 d_inaba_final
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
PDF
Transformer 動向調査 in 画像認識(修正版)
PPTX
CVPR2018 参加報告(速報版)初日
PDF
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
PDF
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
PDF
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
ICCV2011 report
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
画像認識 第9章 さらなる話題
Dl hacks paperreading_20150527
RobotPaperChallenge 2019-07
前景と背景の画像合成技術
論文紹介:Semantic segmentation using Vision Transformers: A survey
DeepLearningとWord2Vecを用いた画像レコメンドの考察
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
semantic segmentation サーベイ
VIEW2013 Binarycode-based Object Recognition
20190831 3 d_inaba_final
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
Transformer 動向調査 in 画像認識(修正版)
CVPR2018 参加報告(速報版)初日
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
Ad

Spatial-Semancic Image Search by Visual Feature Synthesis