SlideShare a Scribd company logo
Mobility Technologies Co., Ltd.
SuperGlue
Learning Feature Matching with Graph Neural Networks
株式会社Mobility Technologies
内田 祐介
JapanCV
CVPR2020読み会(前編)
Mobility Technologies Co., Ltd.
コンテキストを考慮した教師あり特徴点マッチング手法
SuperGlue
2
単純な最近傍
+距離閾値
SuperGlue
緑:正解マッチング
赤:誤マッチング
Mobility Technologies Co., Ltd.
各画像領域の対応関係、2枚の画像を撮影したカメラ間の位置算出
三次元復元、Visual SLAM、画像検索、AR等で必須の工程
特徴点マッチングは非常に重要な問題
3
Mobility Technologies Co., Ltd.
SuperGlueの役割
4
通常の画像間特徴点マッチングパイプライン
Mobility Technologies Co., Ltd.
Detection, Description, and Feature Matching
5
① Detection: Extract local regions
(patches) from images
② Description: Describe the patches
by d-dimensional vectors
③ Matching: Make correspondences
between similar patches
Position (x, y)
Orientation θ
Scale σ
Feature vector f
(e.g., 128-dim SIFT)
Local feature
Mobility Technologies Co., Ltd.
“Classical” Detector
6
Hessian
Beaudet’78
Harris
Harris’88
LoG
Lindeberg’98
DoG
Lowe’99
SURF
Bay’06
Harris-Laplace
Mikolajczyk’01
Hessian-Affine
Mikolajczyk’04
Harris-Affine
Mikolajczyk’02
FAST
Rosten’05
Affine-invariant
Scale-invariant
Rotation-invariant
LoG scale seletion
Affine adaptation
Multi-scale +
Box filter acceleration
LoG approximation
Hessian-Laplace
Mikolajczyk’01
Oriented FAST
Rublee’11
SUSAN
Smith’97 Simplification
+ tree acceleration
Orientation
Corner-like
Blob-like
(SIFT)
(ORB)
Mobility Technologies Co., Ltd.
“Classical” Descriptor
7
SIFT
Lowe’99
SURF
Bay’06
BRIEF
Calonder’10
ORB
Rublee’11
GLOH
Mikolajczyk’05
FREAK
Alahi’12
A-KAZE
Alcantarilla’13
LDB
Yang’12
LATCH
Levi’16
BRISK
Leutenegger’11
Real-valued
Binary
(0.56, 0.22, -0.10, …, 0.96)
(1, 0, 0, …, 1)
RootSIFT
Arandjelovic’12
画像検索今昔物語
https://www.slideshare.net/ren4yu/image-retrieval-overview-from-traditional-local-features-to-recent-deep-learning-approaches
Local Feature Detectors, Descriptors, and Image Representations: A Survey
https://arxiv.org/abs/1607.08368
Mobility Technologies Co., Ltd.
LIFT, DELF, SuperPoint, D2-Net
最近のトレンドはD2-Netのように1つの特徴マップで
detection + descriptionする系?
“Learned” Detector and Descriptor
8
Mobility Technologies Co., Ltd.
単純なdescriptorの最近傍マッチングでは大量の誤対応が発生
Heuristics
• 閾値:単純に一定距離のマッチングのみを残す
• Ratio test: 最近傍と第二近傍の距離の比を利用
• Mutual check: お互いがお互いの最近傍となるマッチングのみを残す
Learned
• e.g. Learning to Find Good Correspondences, CVPR’18.
Outlier Filtering
9
Mobility Technologies Co., Ltd.
既存の局所特徴を入力とし、それらのマッチング結果を出力する
SuperGlueの役割
10
Mobility Technologies Co., Ltd.
正確に言うと…
11
Mobility Technologies Co., Ltd.
SuperGlueのパイプライン
12
入力
descriptor d
座標 p = (x, y, c)
cは信頼度
Keypoint Encoder
Mobility Technologies Co., Ltd.
Self layerとcross layerを交互に適用することでdescriptorを
update
Attentional Graph Neural Network
13
Mobility Technologies Co., Ltd.
Self layer
• 同一画像内のdescriptorで
完全グラフを構成
Cross layer
• 画像間のdescriptorで
完全二部グラフを構成
Self layerとcross layer
14
画像引用元
https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A8%E3%82%B0%E3%83%A9%E3%83%95
https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A82%E9%83%A8%E3%82%B0%E3%83%A9%E3%83%95
画像Aのdescriptor node 画像Bのdescriptor node
画像Aのdescriptor node
画像Bのdescriptor node
Mobility Technologies Co., Ltd.
Self layerとcross layerを交互に適用することでdescriptorを
update
Attentional Graph Neural Network
15
concat
Mobility Technologies Co., Ltd.
Message Passing with Self Attention
16
self or cross
qとkの類似度に
基づいた重み
vの重み付け和
Mobility Technologies Co., Ltd.
完全にBERT
17
BERT入門
https://speakerdeck.com/shimacos/graph-neural-networkswowan-quan-nili-jie-sitai
Mobility Technologies Co., Ltd.
GNNの出力からmatching descriptor、score matrix Sを計算
• xを線形変換して、内積でSを計算するだけ
Score Matrix
18
Mobility Technologies Co., Ltd.
Score matrixは、各特徴点のマッチング結果を表現
オクルージョンや再現性のない特徴点はマッチング相手がいない
この情報を明示的に表現するためdustbinを追加
Dustbin追加
19
learnable
parameter z
Mobility Technologies Co., Ltd.
Score matrixから実際のマッチング結果(割当)を求めたい
Soft assignment problem
Sinkhorn algorithm(row, columnを交互に正規化することを
繰り返す)により二重確率行列化
Sinkhorn algorithm
20
Mobility Technologies Co., Ltd.
既知の画像間の変換パラメータから
正解ペアと、マッチングしなかった特徴点集合を作成、教師とする
Loss
21
正解ペア
画像Aの
マッチングしなかった
特徴点集合
画像Bの
マッチングしなかった
特徴点集合
Mobility Technologies Co., Ltd.
RandomなHomography変換(+photometric distortions)を
行った画像ペアに対してマッチングの精度(P, R)と
homographyの精度(AUC; 10pxまで許容した際の精度曲線)
Homography estimation
22
Mobility Technologies Co., Ltd.
pose error is the maximum of the angular errors in rotation
and translation
Wide-baseline indoor pose estimation
23
Mobility Technologies Co., Ltd.
Outdoor pose estimation
24
Mobility Technologies Co., Ltd.
Ablation Study
25
Mobility Technologies Co., Ltd.
一部特徴点数Nに対してN^2の計算量なので
もとの特徴が良いに越したことはない
高速化のニーズはありそう
速度
26
Mobility Technologies Co., Ltd.
徐々に正解にたどり着いている
ように見える
Attention可視化
27
Mobility Technologies Co., Ltd.
 https://github.com/magicleap/SuperGluePretrained
Network/blob/master/models/superglue.py
実装シンプル
28
Mobility Technologies Co., Ltd.
教師あり特徴点マッチング手法
任意のdetector/descriptorに適用可能
納得感のあるパイプライン、ステップは多いがシンプル
結果しゅごい
どの程度汎化能力があるのか?
まとめ
29
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
30

More Related Content

PPTX
ORB-SLAMの手法解説
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
PDF
LiDAR-SLAM チュートリアル資料
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
最適輸送入門
PDF
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ORB-SLAMの手法解説
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
LiDAR-SLAM チュートリアル資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
畳み込みニューラルネットワークの高精度化と高速化
最適輸送入門
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)

What's hot (20)

PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PPTX
[DL輪読会]Objects as Points
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
動作認識の最前線:手法,タスク,データセット
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
PDF
画像生成・生成モデル メタサーベイ
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
三次元表現まとめ(深層学習を中心に)
PDF
【メタサーベイ】Neural Fields
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
Point net
PPTX
Structure from Motion
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
PPTX
SfM Learner系単眼深度推定手法について
PDF
【DL輪読会】Segment Anything
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
三次元点群を取り扱うニューラルネットワークのサーベイ
[DL輪読会]Objects as Points
SSII2019企画: 点群深層学習の研究動向
動作認識の最前線:手法,タスク,データセット
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【チュートリアル】コンピュータビジョンによる動画認識
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
画像生成・生成モデル メタサーベイ
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
三次元表現まとめ(深層学習を中心に)
【メタサーベイ】Neural Fields
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Pay Attention to MLPs (gMLP)
Point net
Structure from Motion
SLAMチュートリアル大会資料(ORB-SLAM)
SfM Learner系単眼深度推定手法について
【DL輪読会】Segment Anything
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Ad

Similar to SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20) (20)

PDF
リクルートにおける画像解析事例紹介と周辺技術紹介
PDF
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
PDF
WWW2017論文読み会 Information Cascades と Graph Algorithms
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PPTX
Road damge ai
PDF
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
PPTX
Triplet Lossによる Person Re-identification
PPTX
3Dマップを活用したVisual Localization
PDF
MIRU2018 tutorial
PPT
Light weightbinocular sigasia2012_face
PDF
20120623 cv勉強会 shirasy
PDF
object detection with lidar-camera fusion: survey (updated)
PDF
20150803.山口大学講演
PDF
MIRU_Preview_JSAI2019
PPTX
画像認識と深層学習
PDF
物体検出コンペティションOpen Imagesに挑む
PPTX
SSII2014 チュートリアル資料
PDF
object detection with lidar-camera fusion: survey
PDF
グラフデータ分析 入門編
PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
リクルートにおける画像解析事例紹介と周辺技術紹介
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
WWW2017論文読み会 Information Cascades と Graph Algorithms
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Road damge ai
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
Triplet Lossによる Person Re-identification
3Dマップを活用したVisual Localization
MIRU2018 tutorial
Light weightbinocular sigasia2012_face
20120623 cv勉強会 shirasy
object detection with lidar-camera fusion: survey (updated)
20150803.山口大学講演
MIRU_Preview_JSAI2019
画像認識と深層学習
物体検出コンペティションOpen Imagesに挑む
SSII2014 チュートリアル資料
object detection with lidar-camera fusion: survey
グラフデータ分析 入門編
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
Ad

More from Yusuke Uchida (20)

PPTX
近年のHierarchical Vision Transformer
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
PPTX
SIGNATE 鰹節コンペ2nd Place Solution
PPTX
DRIVE CHARTを支えるAI技術
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PPTX
Deep Fakes Detection
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
モデル高速化百選
PPTX
Humpback whale identification challenge反省会
PPTX
DeNAにおける先端AI技術活用のチャレンジ
PPTX
コンピュータビジョン技術の実応用とビジネス
PPTX
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
PPTX
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
PPTX
畳み込みニューラルネットワークの研究動向
PDF
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
最近のSingle Shot系の物体検出のアーキテクチャまとめ
PDF
Embedding Watermarks into Deep Neural Networks
PDF
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
近年のHierarchical Vision Transformer
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
DRIVE CHARTを支えるAI技術
Semi supervised, weakly-supervised, unsupervised, and active learning
Deep Fakes Detection
モデルアーキテクチャ観点からの高速化2019
モデル高速化百選
Humpback whale identification challenge反省会
DeNAにおける先端AI技術活用のチャレンジ
コンピュータビジョン技術の実応用とビジネス
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
畳み込みニューラルネットワークの研究動向
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
モデルアーキテクチャ観点からのDeep Neural Network高速化
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Embedding Watermarks into Deep Neural Networks
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説

SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)

  • 1. Mobility Technologies Co., Ltd. SuperGlue Learning Feature Matching with Graph Neural Networks 株式会社Mobility Technologies 内田 祐介 JapanCV CVPR2020読み会(前編)
  • 2. Mobility Technologies Co., Ltd. コンテキストを考慮した教師あり特徴点マッチング手法 SuperGlue 2 単純な最近傍 +距離閾値 SuperGlue 緑:正解マッチング 赤:誤マッチング
  • 3. Mobility Technologies Co., Ltd. 各画像領域の対応関係、2枚の画像を撮影したカメラ間の位置算出 三次元復元、Visual SLAM、画像検索、AR等で必須の工程 特徴点マッチングは非常に重要な問題 3
  • 4. Mobility Technologies Co., Ltd. SuperGlueの役割 4 通常の画像間特徴点マッチングパイプライン
  • 5. Mobility Technologies Co., Ltd. Detection, Description, and Feature Matching 5 ① Detection: Extract local regions (patches) from images ② Description: Describe the patches by d-dimensional vectors ③ Matching: Make correspondences between similar patches Position (x, y) Orientation θ Scale σ Feature vector f (e.g., 128-dim SIFT) Local feature
  • 6. Mobility Technologies Co., Ltd. “Classical” Detector 6 Hessian Beaudet’78 Harris Harris’88 LoG Lindeberg’98 DoG Lowe’99 SURF Bay’06 Harris-Laplace Mikolajczyk’01 Hessian-Affine Mikolajczyk’04 Harris-Affine Mikolajczyk’02 FAST Rosten’05 Affine-invariant Scale-invariant Rotation-invariant LoG scale seletion Affine adaptation Multi-scale + Box filter acceleration LoG approximation Hessian-Laplace Mikolajczyk’01 Oriented FAST Rublee’11 SUSAN Smith’97 Simplification + tree acceleration Orientation Corner-like Blob-like (SIFT) (ORB)
  • 7. Mobility Technologies Co., Ltd. “Classical” Descriptor 7 SIFT Lowe’99 SURF Bay’06 BRIEF Calonder’10 ORB Rublee’11 GLOH Mikolajczyk’05 FREAK Alahi’12 A-KAZE Alcantarilla’13 LDB Yang’12 LATCH Levi’16 BRISK Leutenegger’11 Real-valued Binary (0.56, 0.22, -0.10, …, 0.96) (1, 0, 0, …, 1) RootSIFT Arandjelovic’12 画像検索今昔物語 https://www.slideshare.net/ren4yu/image-retrieval-overview-from-traditional-local-features-to-recent-deep-learning-approaches Local Feature Detectors, Descriptors, and Image Representations: A Survey https://arxiv.org/abs/1607.08368
  • 8. Mobility Technologies Co., Ltd. LIFT, DELF, SuperPoint, D2-Net 最近のトレンドはD2-Netのように1つの特徴マップで detection + descriptionする系? “Learned” Detector and Descriptor 8
  • 9. Mobility Technologies Co., Ltd. 単純なdescriptorの最近傍マッチングでは大量の誤対応が発生 Heuristics • 閾値:単純に一定距離のマッチングのみを残す • Ratio test: 最近傍と第二近傍の距離の比を利用 • Mutual check: お互いがお互いの最近傍となるマッチングのみを残す Learned • e.g. Learning to Find Good Correspondences, CVPR’18. Outlier Filtering 9
  • 10. Mobility Technologies Co., Ltd. 既存の局所特徴を入力とし、それらのマッチング結果を出力する SuperGlueの役割 10
  • 11. Mobility Technologies Co., Ltd. 正確に言うと… 11
  • 12. Mobility Technologies Co., Ltd. SuperGlueのパイプライン 12 入力 descriptor d 座標 p = (x, y, c) cは信頼度 Keypoint Encoder
  • 13. Mobility Technologies Co., Ltd. Self layerとcross layerを交互に適用することでdescriptorを update Attentional Graph Neural Network 13
  • 14. Mobility Technologies Co., Ltd. Self layer • 同一画像内のdescriptorで 完全グラフを構成 Cross layer • 画像間のdescriptorで 完全二部グラフを構成 Self layerとcross layer 14 画像引用元 https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A8%E3%82%B0%E3%83%A9%E3%83%95 https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A82%E9%83%A8%E3%82%B0%E3%83%A9%E3%83%95 画像Aのdescriptor node 画像Bのdescriptor node 画像Aのdescriptor node 画像Bのdescriptor node
  • 15. Mobility Technologies Co., Ltd. Self layerとcross layerを交互に適用することでdescriptorを update Attentional Graph Neural Network 15 concat
  • 16. Mobility Technologies Co., Ltd. Message Passing with Self Attention 16 self or cross qとkの類似度に 基づいた重み vの重み付け和
  • 17. Mobility Technologies Co., Ltd. 完全にBERT 17 BERT入門 https://speakerdeck.com/shimacos/graph-neural-networkswowan-quan-nili-jie-sitai
  • 18. Mobility Technologies Co., Ltd. GNNの出力からmatching descriptor、score matrix Sを計算 • xを線形変換して、内積でSを計算するだけ Score Matrix 18
  • 19. Mobility Technologies Co., Ltd. Score matrixは、各特徴点のマッチング結果を表現 オクルージョンや再現性のない特徴点はマッチング相手がいない この情報を明示的に表現するためdustbinを追加 Dustbin追加 19 learnable parameter z
  • 20. Mobility Technologies Co., Ltd. Score matrixから実際のマッチング結果(割当)を求めたい Soft assignment problem Sinkhorn algorithm(row, columnを交互に正規化することを 繰り返す)により二重確率行列化 Sinkhorn algorithm 20
  • 21. Mobility Technologies Co., Ltd. 既知の画像間の変換パラメータから 正解ペアと、マッチングしなかった特徴点集合を作成、教師とする Loss 21 正解ペア 画像Aの マッチングしなかった 特徴点集合 画像Bの マッチングしなかった 特徴点集合
  • 22. Mobility Technologies Co., Ltd. RandomなHomography変換(+photometric distortions)を 行った画像ペアに対してマッチングの精度(P, R)と homographyの精度(AUC; 10pxまで許容した際の精度曲線) Homography estimation 22
  • 23. Mobility Technologies Co., Ltd. pose error is the maximum of the angular errors in rotation and translation Wide-baseline indoor pose estimation 23
  • 24. Mobility Technologies Co., Ltd. Outdoor pose estimation 24
  • 25. Mobility Technologies Co., Ltd. Ablation Study 25
  • 26. Mobility Technologies Co., Ltd. 一部特徴点数Nに対してN^2の計算量なので もとの特徴が良いに越したことはない 高速化のニーズはありそう 速度 26
  • 27. Mobility Technologies Co., Ltd. 徐々に正解にたどり着いている ように見える Attention可視化 27
  • 28. Mobility Technologies Co., Ltd.  https://github.com/magicleap/SuperGluePretrained Network/blob/master/models/superglue.py 実装シンプル 28
  • 29. Mobility Technologies Co., Ltd. 教師あり特徴点マッチング手法 任意のdetector/descriptorに適用可能 納得感のあるパイプライン、ステップは多いがシンプル 結果しゅごい どの程度汎化能力があるのか? まとめ 29