SlideShare a Scribd company logo
6
Most read
8
Most read
23
Most read
DLゼミ (論文紹介)
XFeat: Accelerated Features for
Lightweight Image Matching
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程3年 森 雄斗
2024/05/31
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
XFeat: Accelerated Features for Lightweight Image Matching
著者
Guilherme Potje1, Felipe Cadar1,2, Andre Araujo3, Renato Martins2,4,
Erickson R. Nascimento1,5
1Universidade Federal de Minas Gerais, 2Universite de Bourgogne, ICB UMR 6303 CNRS,
3Google Research, 4Universite de Lorraine, LORIA, Inria, 5Microsoft
掲載
CVPR2024
URL
GitHub
https://github.com/verlab/accelerated_features
プロジェクトページ
https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/
論文本体
https://arxiv.org/pdf/2404.19174
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 (XFeat) 3
局所的特徴量の抽出と画像マッチングのための
高効率なアーキテクチャの提案
sparseとsemi-denseの2種類のモデル
汎用性が高くハードウェアに依存しない
既存手法を上回る速度(最大5倍)で同等以上の精度
Xfeat on CPU 従来手法 (SIFT) on CPU
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 (XFeat) 4
Megadepth-1500の実験結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
背景 5
ローカルな画像特徴抽出とマッチング
Local Feature Matching (LFM)
ハイレベルなvision taskの一種
画像特徴量抽出は多くのタスクで重要
SLAM[1], 3Dモデルの自動生成[2], 画像のマッチング
最近の進歩にも関わらず、
改善のほとんどが高い計算量と複雑な実装
[1]の地図生成結果 [2]の3Dモデルの生成結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 6
画像のマッチング
キーポイント検出, CNNまで多岐にわたる
最先端手法はtransformerを使用したモデル
ロバスト性と正確性の改善がメイン
特徴記述子 (feature descriptors)と画像のマッ
チング
SuperPoint[3]
自己教師ありCNN
ZippyPoint[4]
量子化と二値化を組み込んだCNN
※ 特徴量記述子 = どのように特徴を表現するか(=特徴抽出)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Xfeatの概要 7
軽量なネットワークバックボーン
ローカルの特徴量抽出
Descriptor Head (特徴量抽出)
Keypoint Head (キーポイント)
Dense Matching (密なマッチング)
ネットワークアーキテクチャ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
バックボーンの軽量化の歴史 8
処理コスト削減する方法: VGG16
概要
空間次元(𝐻𝑖,𝑗, 𝑊𝑖,𝑗)を徐々に半分にしながら、
畳み込み層のチャネル数(𝐶𝑖)を2倍にする
計算量
𝐹𝑜𝑝𝑠 = 𝐻𝑖 ∙ 𝑊𝑖 ∙ 𝐶𝑖 ∙ 𝐶𝑖+1 ∙ 𝑘2
最大で1/9まで計算量を削減
高解像度を扱う場合は効果が少ない
𝐻𝑖 ∙ 𝑊𝑖 がボトルネック
Super-Point[3]とALIKE[5]の登場
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案する軽量なバックボーン 9
初期の畳み込み層の空間分解能を可能な限り減らす
精度低下は、チャネル配分の再構成で改善
十分なチャネル数 (128)に達するま
で、空間分解能を半分にするごとに
チャネル数を3倍にする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Local feature extraction 10
Multi scaleな特徴量をマージすることで
特徴マップ𝐹 ∈ ℝ
𝐻
8
×
𝑊
8
×64
を抽出
Feature Pyramid Networks[6]により、ネットワーク受容野が
増加
𝐹𝑖,𝑗が確信を持ってマッチングできる確率のマップ
𝑅 ∈ ℝ
𝐻
8×
𝑊
8 ×64
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
keypoint head 11
処理方法はSuperPoint[3]と同様
1/8になった最終エンコーダの特徴量を使用
平坦化した8x8グリッド内のキーポイントを分類
SuperPointと異なる点
Keypointの検出専用に並列ブランチを使用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
dense matching: ピクセル対応のマッチング 12
信頼性マップ𝑅𝑖,𝑗 を用いて画像領域を選択
元の空間分解能の1/8を使うことで、メモリと計算量を大幅に節約
その後、Descriptors 𝐹を使用したピクセルレベルでの
マッチングを行う
𝑜 = 𝑀𝐿𝑃(𝑐𝑜𝑛𝑐𝑎𝑡 𝑓𝑎, 𝑓𝑏 )
subset 𝐹𝑠 ∈ 𝐹
𝑓𝑎 ∈ 𝐹1
𝑥, 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝒐 𝑖, 𝑗 ,
𝑖 ∈ 1, … , 8
𝑖 ∈ 1, … , 8
一致した
offsetの座標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験設定 13
2つのモデル
sparse (Xfeat)
keypoint heatmap 𝐾 から最大4096個を抽出
𝑠𝑐𝑜𝑟𝑒 = 𝐾𝑖,𝑗 ∙ 𝑅𝑖,𝑗
semi-dense (XFeat*)
入力画像サイズを0.65と1.3のスケールで画像処理
上位10,000個の特徴量を抽出
実験タスク
Relative pose estimation (相対的ポーズ推定)
Homography estimation(ホモグラフィ推定)
Visual localization(自己位置+姿勢の推定)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 14
データセットの特徴
視点と照明が同時に大きく変化
定性評価の結果
既存手法よりも検出とマッチング精度に優れている
汎用性も高い
Megadepth-1500[7]の定性評価
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 15
ベースの手法であるALIKEより5倍高速
semi-denseの結果の場合、Fastの中では最高スコアを獲得
Megadepth-1500[7]の定量評価
@5°
=最大角度誤差が5°以下
平均インライア率
=
正しい対応関係
全マッチングの対応関係
記述子の次元数
f: 浮動小数点
b: バイナリベース
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 16
ベースの手法であるALIKEより5倍高速
semi-denseの結果の場合、Fastの中では最高スコアを獲得
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Homography estimation 17
中程度から強い視点移動と照明変化がある
2つの平面画像
評価にはHPaches[8]を使用
HPatches[8]のデータセット
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Homography estimation 18
他の手法と同等な精度を達成
照明変化と視点変化のどちらも対応可能
HPatchesによる定量評価
MHA =
変換行列(ホモグラ
フィ行列)で変換後と
元画像の誤差平均
ホモグラフィ行列の例[9]
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Visual localization 19
画像を使用した現在位置特定
Aachen: 昼と夜のシーンの画像とカメラの場所
昼夜画像のマッチングは難易度が高い
Aachen[10]のデータセットと結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Visual localization 20
最先端のSuperPointやDISKの精度と同程度
少なくとも9倍高速
リソースに制約のあるシステムで効率的に動作
Aachenのカメラポーズ精度の定量評価
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation (アブレーションスタディ) 21
導入した戦略は効果あり
1. 追加の合成画像の精度向上
2. ネットワークのチャネル数の削減
3. keypoint headを並列ブランチにしない場合
4. マッチ精密化モジュール
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 22
局所的特徴量の抽出と画像マッチングのための
高効率なアーキテクチャの提案
sparseとsemi-denseの2種類のモデル
汎用性が高くハードウェアに依存しない
既存手法を上回る速度(最大5倍)で同等以上の精度
Xfeat on CPU 従来手法 (SIFT) on CPU
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
参考文献 23
[1] Raul Mur-Artal and Juan D Tardos. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE
Trans. on Robotics., 33(5):1255–1262, 2017.
[2] Guilherme Potje, Gabriel Resende, Mario Campos, and Erickson R Nascimento. Towards an efficient 3d model estimation
methodology for aerial and ground images. Mach. Vis. and Applications., 28:937–952, 2017.
[3] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. Superpoint: Self-supervised interest point detection and
description. In CVPRW, pages 224–236, 2018.
[4] Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, and Luc Van Gool. Zippypoint: Fast interest point
detection, description, and matching through mixed precision discretization. In CVPRW, pages 6113–6122, 2023.
[5] Xiaoming Zhao, Xingming Wu, Jinyu Miao, Weihai Chen, Peter CY Chen, and Zhengguo Li. Alike: Accurate and lightweight
keypoint detection and descriptor extraction. IEEE TMM, 2022.
[6] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for
object detection. In CVPR, pages 2117–2125, 2017.
[7] Zhengqi Li and Noah Snavely. Megadepth: Learning singleview depth prediction from internet photos. In CVPR, pages 2041–
2050, 2018.
[8] Vassileios Balntas, Karel Lenc, Andrea Vedaldi, and Krystian Mikolajczyk. Hpatches: A benchmark and evaluation of
handcrafted and learned local descriptors. In CVPR, pages 5173–5182, 2017.
[9] Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り), ABEJA Tech Blog, https://tech-
blog.abeja.asia/entry/awesome-deep-homography-202004, 2024年5月30日参照
[10] Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi,
Marc Pollefeys, Josef Sivic, et al. Benchmarking 6dof outdoor visual localization in changing conditions. In CVPR, pages 8601–
8610, 2018.

More Related Content

PDF
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
PPTX
カルマンフィルタ入門
PDF
Action Recognitionの歴史と最新動向
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
PPTX
動画像を用いた経路予測手法の分類
PDF
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
カルマンフィルタ入門
Action Recognitionの歴史と最新動向
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
動画像を用いた経路予測手法の分類
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model

What's hot (20)

PDF
AutoEncoderで特徴抽出
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PDF
[DL輪読会]Generative Models of Visually Grounded Imagination
PPTX
SfM Learner系単眼深度推定手法について
PDF
Lucas kanade法について
PDF
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
PDF
20190706cvpr2019_3d_shape_representation
PDF
Siftによる特徴点抽出
PDF
平滑化処理の繰り返しによる画像セグメンテーションのためのグラフカット
PPTX
【DL輪読会】"A Generalist Agent"
PDF
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
PDF
Dataset for Semantic Urban Scene Understanding
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
A Generalist Agent
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
PPTX
ピンホールカメラモデル
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PPTX
Global Illumination
PDF
PRML学習者から入る深層生成モデル入門
AutoEncoderで特徴抽出
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
[DL輪読会]Generative Models of Visually Grounded Imagination
SfM Learner系単眼深度推定手法について
Lucas kanade法について
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
20190706cvpr2019_3d_shape_representation
Siftによる特徴点抽出
平滑化処理の繰り返しによる画像セグメンテーションのためのグラフカット
【DL輪読会】"A Generalist Agent"
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
Dataset for Semantic Urban Scene Understanding
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
A Generalist Agent
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
ピンホールカメラモデル
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Global Illumination
PRML学習者から入る深層生成モデル入門
Ad

Similar to 【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching (20)

PDF
ICCV2011 report
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
画像認識における幾何学的不変性の扱い
PDF
VIEW2013 Binarycode-based Object Recognition
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
PDF
20140726 関東cv勉強会
PPTX
KantoCV/Selective Search for Object Recognition
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
大規模画像認識とその周辺
PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
PDF
画像認識の初歩、SIFT,SURF特徴量
PDF
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
PDF
関西CVPRML勉強会 2011.9.23
PDF
CVPR 2019 report (30 papers)
PDF
RobotPaperChallenge 2019-07
PDF
Deep residual learning for image recognition
PPTX
RAPiD
PPTX
Introduction to Local Image Features....
ICCV2011 report
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
画像認識における幾何学的不変性の扱い
VIEW2013 Binarycode-based Object Recognition
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
20140726 関東cv勉強会
KantoCV/Selective Search for Object Recognition
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
大規模画像認識とその周辺
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
画像認識の初歩、SIFT,SURF特徴量
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
関西CVPRML勉強会 2011.9.23
CVPR 2019 report (30 papers)
RobotPaperChallenge 2019-07
Deep residual learning for image recognition
RAPiD
Introduction to Local Image Features....
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching

  • 1. DLゼミ (論文紹介) XFeat: Accelerated Features for Lightweight Image Matching 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程3年 森 雄斗 2024/05/31
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル XFeat: Accelerated Features for Lightweight Image Matching 著者 Guilherme Potje1, Felipe Cadar1,2, Andre Araujo3, Renato Martins2,4, Erickson R. Nascimento1,5 1Universidade Federal de Minas Gerais, 2Universite de Bourgogne, ICB UMR 6303 CNRS, 3Google Research, 4Universite de Lorraine, LORIA, Inria, 5Microsoft 掲載 CVPR2024 URL GitHub https://github.com/verlab/accelerated_features プロジェクトページ https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/ 論文本体 https://arxiv.org/pdf/2404.19174
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 (XFeat) 3 局所的特徴量の抽出と画像マッチングのための 高効率なアーキテクチャの提案 sparseとsemi-denseの2種類のモデル 汎用性が高くハードウェアに依存しない 既存手法を上回る速度(最大5倍)で同等以上の精度 Xfeat on CPU 従来手法 (SIFT) on CPU
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 (XFeat) 4 Megadepth-1500の実験結果
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 背景 5 ローカルな画像特徴抽出とマッチング Local Feature Matching (LFM) ハイレベルなvision taskの一種 画像特徴量抽出は多くのタスクで重要 SLAM[1], 3Dモデルの自動生成[2], 画像のマッチング 最近の進歩にも関わらず、 改善のほとんどが高い計算量と複雑な実装 [1]の地図生成結果 [2]の3Dモデルの生成結果
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 6 画像のマッチング キーポイント検出, CNNまで多岐にわたる 最先端手法はtransformerを使用したモデル ロバスト性と正確性の改善がメイン 特徴記述子 (feature descriptors)と画像のマッ チング SuperPoint[3] 自己教師ありCNN ZippyPoint[4] 量子化と二値化を組み込んだCNN ※ 特徴量記述子 = どのように特徴を表現するか(=特徴抽出)
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Xfeatの概要 7 軽量なネットワークバックボーン ローカルの特徴量抽出 Descriptor Head (特徴量抽出) Keypoint Head (キーポイント) Dense Matching (密なマッチング) ネットワークアーキテクチャ
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. バックボーンの軽量化の歴史 8 処理コスト削減する方法: VGG16 概要 空間次元(𝐻𝑖,𝑗, 𝑊𝑖,𝑗)を徐々に半分にしながら、 畳み込み層のチャネル数(𝐶𝑖)を2倍にする 計算量 𝐹𝑜𝑝𝑠 = 𝐻𝑖 ∙ 𝑊𝑖 ∙ 𝐶𝑖 ∙ 𝐶𝑖+1 ∙ 𝑘2 最大で1/9まで計算量を削減 高解像度を扱う場合は効果が少ない 𝐻𝑖 ∙ 𝑊𝑖 がボトルネック Super-Point[3]とALIKE[5]の登場
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案する軽量なバックボーン 9 初期の畳み込み層の空間分解能を可能な限り減らす 精度低下は、チャネル配分の再構成で改善 十分なチャネル数 (128)に達するま で、空間分解能を半分にするごとに チャネル数を3倍にする
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Local feature extraction 10 Multi scaleな特徴量をマージすることで 特徴マップ𝐹 ∈ ℝ 𝐻 8 × 𝑊 8 ×64 を抽出 Feature Pyramid Networks[6]により、ネットワーク受容野が 増加 𝐹𝑖,𝑗が確信を持ってマッチングできる確率のマップ 𝑅 ∈ ℝ 𝐻 8× 𝑊 8 ×64
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. keypoint head 11 処理方法はSuperPoint[3]と同様 1/8になった最終エンコーダの特徴量を使用 平坦化した8x8グリッド内のキーポイントを分類 SuperPointと異なる点 Keypointの検出専用に並列ブランチを使用
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. dense matching: ピクセル対応のマッチング 12 信頼性マップ𝑅𝑖,𝑗 を用いて画像領域を選択 元の空間分解能の1/8を使うことで、メモリと計算量を大幅に節約 その後、Descriptors 𝐹を使用したピクセルレベルでの マッチングを行う 𝑜 = 𝑀𝐿𝑃(𝑐𝑜𝑛𝑐𝑎𝑡 𝑓𝑎, 𝑓𝑏 ) subset 𝐹𝑠 ∈ 𝐹 𝑓𝑎 ∈ 𝐹1 𝑥, 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝒐 𝑖, 𝑗 , 𝑖 ∈ 1, … , 8 𝑖 ∈ 1, … , 8 一致した offsetの座標
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験設定 13 2つのモデル sparse (Xfeat) keypoint heatmap 𝐾 から最大4096個を抽出 𝑠𝑐𝑜𝑟𝑒 = 𝐾𝑖,𝑗 ∙ 𝑅𝑖,𝑗 semi-dense (XFeat*) 入力画像サイズを0.65と1.3のスケールで画像処理 上位10,000個の特徴量を抽出 実験タスク Relative pose estimation (相対的ポーズ推定) Homography estimation(ホモグラフィ推定) Visual localization(自己位置+姿勢の推定)
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 14 データセットの特徴 視点と照明が同時に大きく変化 定性評価の結果 既存手法よりも検出とマッチング精度に優れている 汎用性も高い Megadepth-1500[7]の定性評価
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 15 ベースの手法であるALIKEより5倍高速 semi-denseの結果の場合、Fastの中では最高スコアを獲得 Megadepth-1500[7]の定量評価 @5° =最大角度誤差が5°以下 平均インライア率 = 正しい対応関係 全マッチングの対応関係 記述子の次元数 f: 浮動小数点 b: バイナリベース
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 16 ベースの手法であるALIKEより5倍高速 semi-denseの結果の場合、Fastの中では最高スコアを獲得
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Homography estimation 17 中程度から強い視点移動と照明変化がある 2つの平面画像 評価にはHPaches[8]を使用 HPatches[8]のデータセット
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Homography estimation 18 他の手法と同等な精度を達成 照明変化と視点変化のどちらも対応可能 HPatchesによる定量評価 MHA = 変換行列(ホモグラ フィ行列)で変換後と 元画像の誤差平均 ホモグラフィ行列の例[9]
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Visual localization 19 画像を使用した現在位置特定 Aachen: 昼と夜のシーンの画像とカメラの場所 昼夜画像のマッチングは難易度が高い Aachen[10]のデータセットと結果
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Visual localization 20 最先端のSuperPointやDISKの精度と同程度 少なくとも9倍高速 リソースに制約のあるシステムで効率的に動作 Aachenのカメラポーズ精度の定量評価
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation (アブレーションスタディ) 21 導入した戦略は効果あり 1. 追加の合成画像の精度向上 2. ネットワークのチャネル数の削減 3. keypoint headを並列ブランチにしない場合 4. マッチ精密化モジュール
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 22 局所的特徴量の抽出と画像マッチングのための 高効率なアーキテクチャの提案 sparseとsemi-denseの2種類のモデル 汎用性が高くハードウェアに依存しない 既存手法を上回る速度(最大5倍)で同等以上の精度 Xfeat on CPU 従来手法 (SIFT) on CPU
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 参考文献 23 [1] Raul Mur-Artal and Juan D Tardos. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE Trans. on Robotics., 33(5):1255–1262, 2017. [2] Guilherme Potje, Gabriel Resende, Mario Campos, and Erickson R Nascimento. Towards an efficient 3d model estimation methodology for aerial and ground images. Mach. Vis. and Applications., 28:937–952, 2017. [3] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. Superpoint: Self-supervised interest point detection and description. In CVPRW, pages 224–236, 2018. [4] Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, and Luc Van Gool. Zippypoint: Fast interest point detection, description, and matching through mixed precision discretization. In CVPRW, pages 6113–6122, 2023. [5] Xiaoming Zhao, Xingming Wu, Jinyu Miao, Weihai Chen, Peter CY Chen, and Zhengguo Li. Alike: Accurate and lightweight keypoint detection and descriptor extraction. IEEE TMM, 2022. [6] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, pages 2117–2125, 2017. [7] Zhengqi Li and Noah Snavely. Megadepth: Learning singleview depth prediction from internet photos. In CVPR, pages 2041– 2050, 2018. [8] Vassileios Balntas, Karel Lenc, Andrea Vedaldi, and Krystian Mikolajczyk. Hpatches: A benchmark and evaluation of handcrafted and learned local descriptors. In CVPR, pages 5173–5182, 2017. [9] Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り), ABEJA Tech Blog, https://tech- blog.abeja.asia/entry/awesome-deep-homography-202004, 2024年5月30日参照 [10] Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, et al. Benchmarking 6dof outdoor visual localization in changing conditions. In CVPR, pages 8601– 8610, 2018.